Traitement CSV big data

1M lignes pas peur — OpenClaw Python local = done

Les merdouilles de traitement CSV

Un million de lignes, Excel va s'endormir

Excel 500k lignes = wheel spinning, 1M lignes = crash. Même ouvert, scroll slow comme la mort.

Nettoyer data à la main = cauchemar : dates 3 formats différents, phone tantôt avec pays tantôt non, lignes dupliquées qu'on supprime puis reviennent, vides tu fais 0 ou delete? … une semaine par dataset, oups j'ai 3 colonnes pas nettoyées.

OpenClaw : Python local, données jamais extérieures

CSV dans OpenClaw, il lance Python local, pandas/polars à discrétion. 2M lignes? quelques secondes.

L'important :Zéro byte sur internet. Données boîte, infos users, financiers — traite avec confiance, zéro souci fuite.

3 templates traitement data Prompts, copie utilise

Résumé par période à graphe multi-table, on a tout.

1M+ lignes ventes : recap par mois + Top10 La commande d'or

Lis ~/data/sales_2025.csv (environ 2M lignes), traite :

1. Ventes totales par mois, tendance
2. Top 10 produits par revenu, nom + total
3. Par région : compte commandes et ticket moyen
4. Résultats export summary.csv, dans ~/data/output/

Pandas + optimisation mém (types spécifiés, chunk si besoin).

C'est LE scénario courant. 2M lignes pandas local quelques secondes, pas upload wait. Recommande Claude Opus, pandas code plus robuste et boundary cases mieux.

Nettoyage data complet : uniq + format + vides Facile pour débuter

Nettoie ~/data/raw_customers.csv :

1. Doublons exacts supprimé
2. Dates toutes YYYY-MM-DD (data mix : 2025/01/15, 01-15-2025, 2025年1月15日 et autres)
3. Phones unifiés 11 chiffres (remove région, spaces, tirets)
4. Vides : colonnes nombre = médiane, catégories = « inconnu »
5. Rapport : combien de lignes traités, detail par colonne

Enregistre cleaned_customers.csv.

Nettoyage data look simple, manual ouf. IA script tout en quelques secondes, 100x plus rapide que Excel colonne par colonne, zéro erreur.

5 fichiers CSVs fusionnés : créer table large Techniques avancées

~/data/ a 5 CSVs :
- users.csv (user_id, nom, register_date, région)
- orders.csv (order_id, user_id, product_id, montant, order_date)
- products.csv (product_id, catégorie, marque, prix)
- reviews.csv (user_id, product_id, note, review_date)
- returns.csv (order_id, raison_retour, return_date)

Aide :
1. Fusionner sur user_id + product_id, table large
2. Gérer les one-to-many (user multi-orders)
3. Colonnes dérivées : revenu total user, achats count, note moyenne, retour rate
4. Export merged_wide_table.csv
5. Rapport qualité : % matchés, records non-matchés

Multi-table fusion = base data analyse, facile foirer sur types JOIN. IA choisira left/inner auto par structure, te warn sur les data ballonnements one-to-many.

Config recommandée gros fichiers

Avant de trahir gros fichier, tune ça c'est mieux.

Config OpenClaw gros traitement (.openclaw.yml)

# Config recommandée gros data
sandbox:
  memory_limit: 8GB          # CSV gros = plus RAM
  timeout: 600               # Traitement complexe peut prendre min
  allowed_paths:
    - ~/data/                 # Dossier data autorisé
    - ~/output/               # Export

python:
  packages:                   # Libraries data preload
    - pandas>=2.0
    - polars                  # 10x faster pandas alt
    - openpyxl                # Excel read/write
    - pyarrow                 # parquet support

model: claude-opus-4         # Data processing recommande Opus, code quality meilleur

Traitement CSV : OpenClaw vs ChatGPT Code Interpreter

Les deux Python mais différences bonnes.

OpenClaw

Local exec, fichiers size illimité, 10GB CSV no problème
Data jamais upload, privacy guaranteé
Accès DB local, resources réseau interne
Résultats save local, pas disparu session fin
Install toute library Python

ChatGPT Code Interpreter

Upload max ~500MB, gros data = nope
Data → OpenAI servers, business data = no-no
Sandbox limité, libraries restrictions
Session fin = files gone
Slow network = upload galère

Cas réel

E-commerce ops : année data review

Année finie, review annuelle : 12 mois sales data partout dans CSVs différents, total 5M+ lignes. Boss veut rapport dans 2 jours.

Solution OpenClaw

1 Prompt : fusionner 12 mois, resumer par produit/région/mois, graphs tendances et comparison, rapport complet. Du début à résultats < 20 min. Data local, zero risque info sensible leaked.

Approche manuelle

Excel ouvrir = crash plusieurs. VLOOKUP = gaffe formule. Fusion data = 2 jours d'avant qu'analyse commence, rapide format pretty = zero depth.

Quelques astuces pratiques

💡 CSV ultra-gros (quelques GB+), dis au Prompt « polars au lieu pandas », speed 5-10x mieux. Polars aussi mém usage réduit.

🎯 Pas sûr structure? ask IA « lis 20 première lignes, résumé » avant Prompt complet, vérif colonnes/types/empty, first-try success beaucoup plus haut.

⚠️ CSV avec chinois, mentionne encoding dans Prompt (UTF-8/GBK), sinon garbled résultats, waste round.

Ce cas vous a aidé ?