Pourquoi les imports CSV dérapent souvent
Le CSV semble simple parce qu'il est universel. En réalité, il concentre toutes les ambiguïtés classiques : colonnes mal nommées, adresses incomplètes, formats d'enseignes incohérents, doublons et valeurs manquantes.
Quand ces problèmes ne sont pas traités en amont, ils polluent toute l'analyse. Le temps gagné au départ est alors perdu dans les corrections manuelles, les vérifications croisées et les recalculs.
Mapper les bonnes colonnes dès le premier passage
Un bon import commence par un mapping explicite. Il faut savoir quelles colonnes servent à identifier le point de vente, l'enseigne, l'adresse, le rôle dans l'opération et la métrique de calcul retenue.
Cette étape ne doit pas être pensée comme un simple formulaire technique. C'est un contrôle qualité : si le mapping est clair, les calculs aval deviennent beaucoup plus fiables.
- séparer les identifiants métier des champs d'affichage
- prévoir la résolution des enseignes et groupes
- valider les colonnes critiques avant le calcul
Normaliser sans sur-ingénierie
L'objectif n'est pas de construire un pipeline de data engineering complet. Il s'agit surtout d'obtenir un jeu de données cohérent pour une analyse de concentration précise et rapide.
La meilleure approche consiste à corriger les incohérences les plus coûteuses : enseignes, rôles, adresses, métriques. Au-delà, la sophistication doit rester proportionnée au dossier.
Garder la trace des décisions de nettoyage
Chaque correction importante devrait être visible ou reconstituable : regroupement d'enseignes, exclusion d'un point de vente, changement de rôle, requalification d'un format. Sans cette traçabilité, l'import devient une boîte noire.
Un bon workflow laisse donc une empreinte claire des décisions prises. C'est ce qui permet de rejouer l'analyse, de répondre à une question client et de limiter les risques d'erreur silencieuse.