Optimisez la gestion des données d'une boutique avec R ou Python
Mission d’analyste chez BottleNeck : rapprochement et nettoyage de données ERP et e-commerce, détection d’erreurs et valeurs aberrantes, puis analyse du chiffre d’affaires, des marges, des stocks et des corrélations pour présentation au CODIR.
Mission
En tant que Data Analyst pour le marchand de vin prestigieux BottleNeck, ma mission consistait à résoudre des problématiques de gestion de stocks et d'analyse de ventes liées à des outils de collecte artisanaux. Le projet visait à unifier les données provenant de l'ERP de l'entreprise et de la plateforme de vente en ligne (WordPress/WooCommerce) afin de fournir des indicateurs fiables au comité de direction.
L'objectif principal était de transformer des extractions fragmentées en une base de données consolidée et propre, permettant une analyse fine de la performance commerciale et de la santé du stock au 31 octobre.
Comment avez-vous procédé ?
1. Rapprochement et Consolidation des données (ETL) : Le premier défi a été de lier l'extraction ERP (références produits, prix, stocks) aux données du site web (SKU, ventes, descriptions). J'ai utilisé une table de liaison pour effectuer les jointures nécessaires sous Python. Ce travail a nécessité une vigilance particulière sur les types de données et les clés de jointure pour éviter toute perte d'information.
2. Nettoyage et Qualité des données : J'ai mené un audit rigoureux pour identifier et corriger au moins 8 types d'erreurs (erreurs de saisie, de calcul, incohérences de types). En accord avec le RGPD, j'ai veillé à ce qu'aucune donnée client sensible ne soit traitée inutilement. J'ai formalisé un processus de correction pour garantir la propreté de la base de données future.
3. Analyse Statistique et Détection d'Anomalies : Pour fiabiliser les données de prix, j'ai appliqué des méthodes statistiques avancées :
- Analyse Univariée : Calcul des statistiques descriptives (moyenne, médiane à 23,5 €, min/max).
- Détection d'Outliers : Utilisation de la méthode de l'écart interquartile et représentation par boxplot pour isoler les prix atypiques (allant jusqu'à 225 €) et déterminer s'il s'agissait d'erreurs de saisie ou de produits de luxe légitimes.
4. Analyse de la Performance Commerciale : J'ai calculé le chiffre d'affaires par produit ainsi que le CA total. L'analyse a été complétée par une étude de la loi des 20/80 (Pareto) pour identifier les références stratégiques générant la majorité des revenus. J'ai également étudié la rotation des stocks et les taux de marge pour conseiller le CODIR sur les produits "dormants".
5. Étude de Corrélation : J'ai conclu l'analyse en cherchant des liens entre les variables quantitatives (prix, stock, ventes). Cette étape a permis de confirmer certaines tendances, comme le fait que les produits les plus onéreux présentent généralement une rotation de stock plus lente.
Livrables réalisés
- Notebook Jupyter (Python) : Script complet documentant le nettoyage, les jointures et l'ensemble des calculs statistiques.
- Support de présentation CODIR (PPTX) : Synthèse visuelle incluant les analyses univariées, les graphiques de distribution et les préconisations stratégiques pour l'amélioration des outils de gestion. Consultables ici : https://github.com/GaelleHenaf/OC_DA6---Optimisez_la_gestion_des_donnees_dune_boutique_avec_Python
Résultats Clés
- Consolidation réussie de 100% des produits vendables entre l'ERP et le Web.
- Identification d'un prix médian de 23,5 € et justification des valeurs aberrantes comme étant des produits haut de gamme et non des erreurs.
- Mise en évidence de la corrélation entre les niveaux de stock et la vélocité des ventes pour optimiser la trésorerie.