Traitement CSV big data

1M lignes pas peur — OpenClaw Python local = done

Les merdouilles de traitement CSV

Un million de lignes, Excel va s'endormir

Excel 500k lignes = wheel spinning, 1M lignes = crash. Même ouvert, scroll slow comme la mort.

Nettoyer data à la main = cauchemar : dates 3 formats différents, phone tantôt avec pays tantôt non, lignes dupliquées qu'on supprime puis reviennent, vides tu fais 0 ou delete? … une semaine par dataset, oups j'ai 3 colonnes pas nettoyées.

OpenClaw : Python local, données jamais extérieures

CSV dans OpenClaw, il lance Python local, pandas/polars à discrétion. 2M lignes? quelques secondes.

L'important :Zéro byte sur internet. Données boîte, infos users, financiers — traite avec confiance, zéro souci fuite.

3 templates traitement data Prompts, copie utilise

Résumé par période à graphe multi-table, on a tout.

1M+ lignes ventes : recap par mois + Top10 La commande d'or
Lis ~/data/sales_2025.csv (environ 2M lignes), traite :

1. Ventes totales par mois, tendance
2. Top 10 produits par revenu, nom + total
3. Par région : compte commandes et ticket moyen
4. Résultats export summary.csv, dans ~/data/output/

Pandas + optimisation mém (types spécifiés, chunk si besoin).
C'est LE scénario courant. 2M lignes pandas local quelques secondes, pas upload wait. Recommande Claude Opus, pandas code plus robuste et boundary cases mieux.
Nettoyage data complet : uniq + format + vides Facile pour débuter
Nettoie ~/data/raw_customers.csv :

1. Doublons exacts supprimé
2. Dates toutes YYYY-MM-DD (data mix : 2025/01/15, 01-15-2025, 2025年1月15日 et autres)
3. Phones unifiés 11 chiffres (remove région, spaces, tirets)
4. Vides : colonnes nombre = médiane, catégories = « inconnu »
5. Rapport : combien de lignes traités, detail par colonne

Enregistre cleaned_customers.csv.
Nettoyage data look simple, manual ouf. IA script tout en quelques secondes, 100x plus rapide que Excel colonne par colonne, zéro erreur.
5 fichiers CSVs fusionnés : créer table large Techniques avancées
~/data/ a 5 CSVs :
- users.csv (user_id, nom, register_date, région)
- orders.csv (order_id, user_id, product_id, montant, order_date)
- products.csv (product_id, catégorie, marque, prix)
- reviews.csv (user_id, product_id, note, review_date)
- returns.csv (order_id, raison_retour, return_date)

Aide :
1. Fusionner sur user_id + product_id, table large
2. Gérer les one-to-many (user multi-orders)
3. Colonnes dérivées : revenu total user, achats count, note moyenne, retour rate
4. Export merged_wide_table.csv
5. Rapport qualité : % matchés, records non-matchés
Multi-table fusion = base data analyse, facile foirer sur types JOIN. IA choisira left/inner auto par structure, te warn sur les data ballonnements one-to-many.

Config recommandée gros fichiers

Avant de trahir gros fichier, tune ça c'est mieux.

Config OpenClaw gros traitement (.openclaw.yml)
# Config recommandée gros data
sandbox:
  memory_limit: 8GB          # CSV gros = plus RAM
  timeout: 600               # Traitement complexe peut prendre min
  allowed_paths:
    - ~/data/                 # Dossier data autorisé
    - ~/output/               # Export

python:
  packages:                   # Libraries data preload
    - pandas>=2.0
    - polars                  # 10x faster pandas alt
    - openpyxl                # Excel read/write
    - pyarrow                 # parquet support

model: claude-opus-4         # Data processing recommande Opus, code quality meilleur

Traitement CSV : OpenClaw vs ChatGPT Code Interpreter

Les deux Python mais différences bonnes.

OpenClaw
  • Local exec, fichiers size illimité, 10GB CSV no problème
  • Data jamais upload, privacy guaranteé
  • Accès DB local, resources réseau interne
  • Résultats save local, pas disparu session fin
  • Install toute library Python
VS
ChatGPT Code Interpreter
  • Upload max ~500MB, gros data = nope
  • Data → OpenAI servers, business data = no-no
  • Sandbox limité, libraries restrictions
  • Session fin = files gone
  • Slow network = upload galère

Cas réel

E-commerce ops : année data review
Année finie, review annuelle : 12 mois sales data partout dans CSVs différents, total 5M+ lignes. Boss veut rapport dans 2 jours.
Solution OpenClaw
1 Prompt : fusionner 12 mois, resumer par produit/région/mois, graphs tendances et comparison, rapport complet. Du début à résultats < 20 min. Data local, zero risque info sensible leaked.
Approche manuelle
Excel ouvrir = crash plusieurs. VLOOKUP = gaffe formule. Fusion data = 2 jours d'avant qu'analyse commence, rapide format pretty = zero depth.

Quelques astuces pratiques

💡 CSV ultra-gros (quelques GB+), dis au Prompt « polars au lieu pandas », speed 5-10x mieux. Polars aussi mém usage réduit.
🎯 Pas sûr structure? ask IA « lis 20 première lignes, résumé » avant Prompt complet, vérif colonnes/types/empty, first-try success beaucoup plus haut.
⚠️ CSV avec chinois, mentionne encoding dans Prompt (UTF-8/GBK), sinon garbled résultats, waste round.
Ce cas vous a aidé ?