Traitement CSV big data
1M lignes pas peur — OpenClaw Python local = done
Les merdouilles de traitement CSV
Un million de lignes, Excel va s'endormir
Excel 500k lignes = wheel spinning, 1M lignes = crash. Même ouvert, scroll slow comme la mort.
Nettoyer data à la main = cauchemar : dates 3 formats différents, phone tantôt avec pays tantôt non, lignes dupliquées qu'on supprime puis reviennent, vides tu fais 0 ou delete? … une semaine par dataset, oups j'ai 3 colonnes pas nettoyées.
OpenClaw : Python local, données jamais extérieures
CSV dans OpenClaw, il lance Python local, pandas/polars à discrétion. 2M lignes? quelques secondes.
L'important :Zéro byte sur internet. Données boîte, infos users, financiers — traite avec confiance, zéro souci fuite.
3 templates traitement data Prompts, copie utilise
Résumé par période à graphe multi-table, on a tout.
1M+ lignes ventes : recap par mois + Top10
La commande d'or
Lis ~/data/sales_2025.csv (environ 2M lignes), traite :
1. Ventes totales par mois, tendance
2. Top 10 produits par revenu, nom + total
3. Par région : compte commandes et ticket moyen
4. Résultats export summary.csv, dans ~/data/output/
Pandas + optimisation mém (types spécifiés, chunk si besoin).
C'est LE scénario courant. 2M lignes pandas local quelques secondes, pas upload wait. Recommande Claude Opus, pandas code plus robuste et boundary cases mieux.
Nettoyage data complet : uniq + format + vides
Facile pour débuter
Nettoie ~/data/raw_customers.csv :
1. Doublons exacts supprimé
2. Dates toutes YYYY-MM-DD (data mix : 2025/01/15, 01-15-2025, 2025年1月15日 et autres)
3. Phones unifiés 11 chiffres (remove région, spaces, tirets)
4. Vides : colonnes nombre = médiane, catégories = « inconnu »
5. Rapport : combien de lignes traités, detail par colonne
Enregistre cleaned_customers.csv.
Nettoyage data look simple, manual ouf. IA script tout en quelques secondes, 100x plus rapide que Excel colonne par colonne, zéro erreur.
5 fichiers CSVs fusionnés : créer table large
Techniques avancées
~/data/ a 5 CSVs :
- users.csv (user_id, nom, register_date, région)
- orders.csv (order_id, user_id, product_id, montant, order_date)
- products.csv (product_id, catégorie, marque, prix)
- reviews.csv (user_id, product_id, note, review_date)
- returns.csv (order_id, raison_retour, return_date)
Aide :
1. Fusionner sur user_id + product_id, table large
2. Gérer les one-to-many (user multi-orders)
3. Colonnes dérivées : revenu total user, achats count, note moyenne, retour rate
4. Export merged_wide_table.csv
5. Rapport qualité : % matchés, records non-matchés
Multi-table fusion = base data analyse, facile foirer sur types JOIN. IA choisira left/inner auto par structure, te warn sur les data ballonnements one-to-many.
Config recommandée gros fichiers
Avant de trahir gros fichier, tune ça c'est mieux.
Config OpenClaw gros traitement (.openclaw.yml)
# Config recommandée gros data
sandbox:
memory_limit: 8GB # CSV gros = plus RAM
timeout: 600 # Traitement complexe peut prendre min
allowed_paths:
- ~/data/ # Dossier data autorisé
- ~/output/ # Export
python:
packages: # Libraries data preload
- pandas>=2.0
- polars # 10x faster pandas alt
- openpyxl # Excel read/write
- pyarrow # parquet support
model: claude-opus-4 # Data processing recommande Opus, code quality meilleur
Traitement CSV : OpenClaw vs ChatGPT Code Interpreter
Les deux Python mais différences bonnes.
OpenClaw
- Local exec, fichiers size illimité, 10GB CSV no problème
- Data jamais upload, privacy guaranteé
- Accès DB local, resources réseau interne
- Résultats save local, pas disparu session fin
- Install toute library Python
VS
ChatGPT Code Interpreter
- Upload max ~500MB, gros data = nope
- Data → OpenAI servers, business data = no-no
- Sandbox limité, libraries restrictions
- Session fin = files gone
- Slow network = upload galère
Cas réel
E-commerce ops : année data review
Année finie, review annuelle : 12 mois sales data partout dans CSVs différents, total 5M+ lignes. Boss veut rapport dans 2 jours.
Solution OpenClaw
1 Prompt : fusionner 12 mois, resumer par produit/région/mois, graphs tendances et comparison, rapport complet. Du début à résultats < 20 min. Data local, zero risque info sensible leaked.
Approche manuelle
Excel ouvrir = crash plusieurs. VLOOKUP = gaffe formule. Fusion data = 2 jours d'avant qu'analyse commence, rapide format pretty = zero depth.
Quelques astuces pratiques
CSV ultra-gros (quelques GB+), dis au Prompt « polars au lieu pandas », speed 5-10x mieux. Polars aussi mém usage réduit.
Pas sûr structure? ask IA « lis 20 première lignes, résumé » avant Prompt complet, vérif colonnes/types/empty, first-try success beaucoup plus haut.
CSV avec chinois, mentionne encoding dans Prompt (UTF-8/GBK), sinon garbled résultats, waste round.