Processamento de CSV grande
Milhão linha sem medo — OpenClaw roda Python e entrega
CSV dá problema
Excel abre 500 mil linha começa a girar, 1 milhão desaba. Conseguiu abrir, scroll trava 5 segundo.
Limpar dado na mão é pesadelo: data tem 3 formato, telefone com e sem área, linha duplicada aparece de novo, missing value você não sabe se bota 0 ou apaga... processo inteiro leva uma semana, sai descobrindo que faltou coluna.
Joga o CSV no OpenClaw, ele roda Python no seu PC direto, pandas e polars o quanto precisar. 2 milhão de linha? Lê em segundo.
Principal:seu dado um byte não sobe em servidor nenhum. Dado de venda, user privado, financeiro — processa sem medo de vazar.
3 Prompts de processamento, copia e roda
De resumo até limpeza até mescla, pega o que precisa.
Lê ~/data/sales_2025.csv (umas 2 milhão linha), faz isso:
1. Resume por mês, mostra tendência
2. Acha Top 10 produto, quanto vendeu de cada
3. Agrupa por região, conta pedido e ticket médio
4. Salva resultado em ~/data/output/summary.csv
Usa pandas, otimiza memória (tipo dtype, lê em bloco se precisar).
Limpa ~/data/raw_customers.csv:
1. Tira linha duplicada
2. Data padroniza YYYY-MM-DD (original tem 2025/01/15, 01-15-2025, 2025年1月15日)
3. Telefone vira 11 número só (tira código, espaço, barra)
4. Missing: número coloca mediana, categoria coloca "desconhecido"
5. Relatório: quantas linha mexeu, o que fez em cada coluna
Salva limpo em cleaned_customers.csv.
~/data/ tem 5 CSV:
- users.csv (ID, nome, data cadastro, região)
- orders.csv (ID pedido, ID user, ID produto, valor, data)
- products.csv (ID, categoria, marca, preço)
- reviews.csv (ID user, ID produto, nota, data)
- returns.csv (ID pedido, motivo devolução, data)
Preciso:
1. Liga tudo pelo user ID e produto ID, uma tabela grande
2. Lida com um user ter vários pedido (um-para-vários)
3. Adiciona: total gasto user, quantos pedido, nota média, taxa devolução
4. Salva em merged_wide_table.csv
5. Relatório de qualidade: % ligada, quantas não achou
Config pra dado grande
Antes de rodar arquivo gigante, configura isso deixa mais suave.
# Config recomendado pro dado grande
sandbox:
memory_limit: 8GB # CSV grande precisa mais RAM
timeout: 600 # Processamento pesado demora minuto
allowed_paths:
- ~/data/ # Pasta que pode ler/escrever
- ~/output/ # Resultado
python:
packages: # Lib pra instalar
- pandas>=2.0
- polars # Mais rápido que pandas 10x
- openpyxl # Ler/escrever Excel
- pyarrow # Suporte parquet
model: claude-opus-4 # Opus pra análise, código melhor
CSV: OpenClaw vs ChatGPT Code Interpreter
Roda Python os dois, mas diferença é clamorosa.
- Roda local, arquivo gigante sem problema, 10GB de CSV tranquilo
- Dado não sobe, privacidade tá ok
- Acessa banco de dado local, rede interna
- Resultado fica no PC, não some quando fecha conversa
- Python lib que quiser instala
- Upload máximo 500MB, dado grande não tira
- Dado sobe pro servidor OpenAI, dado company não mexe
- Sandbox apertado, muito lib não entra
- Chat fecha arquivo some
- Rede lenta upload demora, experiência ruim