Procesamiento CSV Big Data
Millones de filas sin miedo —— OpenClaw corre Python y resuelve
Lo que más da rabia de CSV
Excel abre 500k filas ya empieza a andar lento, 1 millón se cuelga. Finalmente lo abrís, scrolleás 5 segundos y se traba.
Limpiar datos es pesadilla: fechas en 3 formatos, números de celular con y sin código, duplicados que borras y vuelven, valores faltantes sin saber si va 0 o se borra… un archivo una semana, terminas y faltan columnas sin procesar.
Tirabas el CSV a OpenClaw, arranca Python en tu máquina, pandas, polars, lo que sea. 2 millones de filas? Segundos.
La mejor parte:Tus datos ni un byte sube a servidor. Datos de ventas, privacidad de usuarios, balance contable —— procesá sin miedo, la privacidad no te desvela.
3 Prompts de datos, copia directo
De resúmenes a limpiezas a uniones, lo que necesites.
Lee ~/data/sales_2025.csv (~2 millones de filas), hace esto:
1. Suma por mes, gráfico de tendencia
2. Top 10 productos por monto, lista nombres y totales
3. Por región: cuenta órdenes y ticket promedio
4. Exporta a summary.csv en ~/data/output/
Usa pandas, optimizá memoria (tipos de datos, lectura por chunks si necesario).
Limpia ~/data/raw_customers.csv:
1. Borra filas exactamente duplicadas
2. Fechas a YYYY-MM-DD (hay 2025/01/15, 01-15-2025, 2025年1月15日)
3. Celular a 11 dígitos puros (quita código, espacios, guiones)
4. Valores faltantes: números → mediana, categorías → «desconocido»
5. Reporte: cuántas filas procesadas, cambios por columna
Guarda cleaned_customers.csv.
En ~/data/ hay 5 CSVs:
- users.csv (ID usuario, nombre, registro, región)
- orders.csv (ID orden, ID usuario, ID producto, monto, fecha)
- products.csv (ID producto, categoría, marca, precio)
- reviews.csv (ID usuario, ID producto, calificación, fecha)
- returns.csv (ID orden, motivo retorno, fecha)
Necesito:
1. Relaciona los 5 según usuario + producto, tabla ancha
2. Maneja relación uno-a-muchos (un usuario, muchas órdenes)
3. Agrega derivadas: gasto total usuario, compras, promedio calificación, tasa retorno
4. Exporta merged_wide_table.csv
5. Reporte de calidad: % coincidencia, registros sin pareja
Recomendaciones de config para big data
Antes de procesar volúmenes, ajustar estos acelera mucho.
# Big data config recomendado
sandbox:
memory_limit: 8GB # CSV grandes necesitan más RAM
timeout: 600 # Procesos complejos tardan minutos
allowed_paths:
- ~/data/ # Directorio datos
- ~/output/ # Salida
python:
packages:
- pandas>=2.0
- polars # 10x más rápido que pandas
- openpyxl # Leer/escribir Excel
- pyarrow # Parquet support
model: claude-opus-4 # Opus genera código más robusto
CSV: OpenClaw vs ChatGPT Code Interpreter
Ambos corren Python, pero hay diferencia.
- Ejecuta localmente, archivos ilimitados, 10GB CSV sin drama
- Datos no se suben, privacidad garantizada
- Accede base datos local, recursos intranet
- Resultados guardan local, no desaparecen al cerrar
- Instala cualquier librería Python, sin límites
- Subida ~500MB máximo, datos grandes no va
- Datos a servidores OpenAI, empresa no confía
- Sandbox limitado, no todas las librerías caben
- Fin de sesión, archivos se van
- Red lenta, subida eterna