Processamento de CSV grande

Milhão linha sem medo — OpenClaw roda Python e entrega

CSV dá problema

Milhão de linha, Excel desaba

Excel abre 500 mil linha começa a girar, 1 milhão desaba. Conseguiu abrir, scroll trava 5 segundo.

Limpar dado na mão é pesadelo: data tem 3 formato, telefone com e sem área, linha duplicada aparece de novo, missing value você não sabe se bota 0 ou apaga... processo inteiro leva uma semana, sai descobrindo que faltou coluna.

OpenClaw: roda Python local, seu dado fica na sua máquina

Joga o CSV no OpenClaw, ele roda Python no seu PC direto, pandas e polars o quanto precisar. 2 milhão de linha? Lê em segundo.

Principal:seu dado um byte não sobe em servidor nenhum. Dado de venda, user privado, financeiro — processa sem medo de vazar.

3 Prompts de processamento, copia e roda

De resumo até limpeza até mescla, pega o que precisa.

Milhão linha de venda: resume mês + Top 10 Instrução de ouro
Lê ~/data/sales_2025.csv (umas 2 milhão linha), faz isso:

1. Resume por mês, mostra tendência
2. Acha Top 10 produto, quanto vendeu de cada
3. Agrupa por região, conta pedido e ticket médio
4. Salva resultado em ~/data/output/summary.csv

Usa pandas, otimiza memória (tipo dtype, lê em bloco se precisar).
Cenário mais comum de análise. 2 milhão em pandas no PC é segundo, sem medo upload e limite arquivo. Usa Opus, código pandas mais sólido, casos estranho trata melhor.
Limpeza: tira duplicado + padroniza formato + missing value Amigável pra iniciantes
Limpa ~/data/raw_customers.csv:

1. Tira linha duplicada
2. Data padroniza YYYY-MM-DD (original tem 2025/01/15, 01-15-2025, 2025年1月15日)
3. Telefone vira 11 número só (tira código, espaço, barra)
4. Missing: número coloca mediana, categoria coloca "desconhecido"
5. Relatório: quantas linha mexeu, o que fez em cada coluna

Salva limpo em cleaned_customers.csv.
Limpeza parece fácil mas manual perde. Deixa IA faz script roda, bem mais rápido que mexer coluna por coluna em Excel, e não erra.
Mescla arquivos: 5 CSV ligados faz uma tabela só Técnica avançada
~/data/ tem 5 CSV:
- users.csv (ID, nome, data cadastro, região)
- orders.csv (ID pedido, ID user, ID produto, valor, data)
- products.csv (ID, categoria, marca, preço)
- reviews.csv (ID user, ID produto, nota, data)
- returns.csv (ID pedido, motivo devolução, data)

Preciso:
1. Liga tudo pelo user ID e produto ID, uma tabela grande
2. Lida com um user ter vários pedido (um-para-vários)
3. Adiciona: total gasto user, quantos pedido, nota média, taxa devolução
4. Salva em merged_wide_table.csv
5. Relatório de qualidade: % ligada, quantas não achou
Mescla vários arquivo é básico de análise mas JOIN é fácil errar. IA escolhe left/inner/full conforme estrutura, ainda avisa quando é um-para-vários vai inflar dado.

Config pra dado grande

Antes de rodar arquivo gigante, configura isso deixa mais suave.

Config OpenClaw (.openclaw.yml)
# Config recomendado pro dado grande
sandbox:
  memory_limit: 8GB          # CSV grande precisa mais RAM
  timeout: 600               # Processamento pesado demora minuto
  allowed_paths:
    - ~/data/                 # Pasta que pode ler/escrever
    - ~/output/               # Resultado

python:
  packages:                   # Lib pra instalar
    - pandas>=2.0
    - polars                  # Mais rápido que pandas 10x
    - openpyxl                # Ler/escrever Excel
    - pyarrow                 # Suporte parquet

model: claude-opus-4         # Opus pra análise, código melhor

CSV: OpenClaw vs ChatGPT Code Interpreter

Roda Python os dois, mas diferença é clamorosa.

OpenClaw
  • Roda local, arquivo gigante sem problema, 10GB de CSV tranquilo
  • Dado não sobe, privacidade tá ok
  • Acessa banco de dado local, rede interna
  • Resultado fica no PC, não some quando fecha conversa
  • Python lib que quiser instala
VS
ChatGPT Code Interpreter
  • Upload máximo 500MB, dado grande não tira
  • Dado sobe pro servidor OpenAI, dado company não mexe
  • Sandbox apertado, muito lib não entra
  • Chat fecha arquivo some
  • Rede lenta upload demora, experiência ruim

Cenário real

E-commerce: dados do ano
Final de ano, quer revisar todo dado, 12 mês espalhado em monte de CSV, 5 milhão linha total. Chefe quer relatório semana que vem.
Com OpenClaw
Um Prompt só: mescla 12 mês, resume por categoria/região/mês, gera gráfico e tabela, saca relatório pronto. Sai em 20 minuto tudo. Dado fica local, info sensível financeiro não vaza.
Tudo na mão
Abre cada mês em Excel, já trava alguns. Usa VLOOKUP liga dado, errou fórmula tem que debugar. Só mesclar gasta 2 dia, ainda nem começou análise.

Dica de ouro

💡 CSV gigante (alguns GB), no Prompt fala "usa polars em vez de pandas", fica 5-10x mais rápido. Polars também usa menos memória.
🎯 Não sabe como o dado é? Pede IA "lê 20 linha, mostra resumo", vê coluna, tipo, missing — aí escreve Prompt certo, primeira vez funciona.
⚠️ CSV com caractere chinês, fala pro IA no Prompt (UTF-8 / GBK). Se não fala, sai bagunçado, perde conversa.
Esse caso foi útil pra você?