CSV groß Daten Verarbeitung
Million Zeilen nicht Sorge — OpenClaw direkt Python laufen Hilf
CSV Verarbeitung die schlimmen Sachen
Excel öffne 500k Zeilen, fang an zu laden, 1 Million direkt Crash. endlich öffne, scroll-Bar ziehn 5 Sekunden friere.
daten-Bereinigung schrecklich: Datum Format 3 Sorte, Telefonnummer Teil hat Region-Code Teil nicht, Duplikat löschen kommt nochmal, fehlende Wert weiß 0 oder löschen…eine Daten Woche Bereinigung, fertig findet noch Spalte nicht bearbeitet.
CSV Datei zu OpenClaw werfen, es lokal Python Skript starten, pandas, polars leicht aufrufen. 2 Million Zeilen? Sekunden lesen fertig.
Wichtig ist:deine Daten ein Byte nicht hochgeladen Server. Firma Verkauf Daten, Benutzer private Daten, Finanz Report—ruhig verarbeiten, Daten-Sicherheit Nerv entspannen.
3 Daten Verarbeitung Prompts, einfach kopieren verwenden
von zusammenfassen Analyse bis Daten Bereinigung bis multi-Tabelle Zusammenführung, nach Bedarf.
lies ~/data/sales_2025.csv (etwa 2 Million Zeilen), folgendes für mich machen:
1. nach Monat zusammenfassen gesamt Verkauf, monatlich Trend ausgeben
2. finde Verkauf Top 10 Produkte, Produkt Name und Gesamt-Betrag
3. nach Region Gruppe, jede Region Bestellungen Anzahl und durchschnitt Warenkorb
4. Ergebnis zu summary.csv, speichern zu ~/data/output/
pandas benutzen, Gedächtnis Optimierung (dtype angeben, Chunk lesen falls nötig).
Reinige ~/data/raw_customers.csv:
1. genau Duplikat Zeilen entfernen
2. Datum Spalte einheit YYYY-MM-DD (original hat 2025/01/15、01-15-2025、2025年1月15日 etc.)
3. Telefonnummer einheit 11 Ziffer pur Nummer (weg Region-Code, Leer, Strich)
4. Fehlende Wert: Zahl Spalte füll Median, Kategorie Spalte füll „unbekannt"
5. gib Bereinigung Report: Zeilen bearbeitet, Spalte Verarbeitung Detail
Bereinigung fertig speicher cleaned_customers.csv.
~/data/ Ordner 5 CSV Dateien:
- users.csv (Benutzer ID, Name, Register Zeit, Region)
- orders.csv (Bestellung ID, Benutzer ID, Produkt ID, Betrag, Order Zeit)
- products.csv (Produkt ID, Kategorie, Marke, Einzelpreis)
- reviews.csv (Benutzer ID, Produkt ID, Rating, Review Zeit)
- returns.csv (Bestellung ID, Return Grund, Return Zeit)
hilf mir:
1. nach Benutzer ID und Produkt ID diese 5 Tabelle Verknüpfung, breite Tabelle generieren
2. ein-zu-viel Beziehung verarbeiten (ein Benutzer viel Bestellungen)
3. neue Spalte hinzufügen: Benutzer Gesamt-Ausgabe, Kauf Anzahl, durchschnitt Rating, Return Rate
4. speicher merged_wide_table.csv
5. gib Daten Qualität Report: Verknüpfung Match Rate, unmatch Zeilen
Groß Daten Verarbeitung Konfiguration Empfehlung
groß Datei Verarbeitung vorher, diese Konfiguration Anpassung flüsser.
# groß Daten Verarbeitung empfohlen Konfiguration
sandbox:
memory_limit: 8GB # großes CSV braucht mehr Gedächtnis
timeout: 600 # komplex Verarbeitung ein paar Minute
allowed_paths:
- ~/data/ # erlaub read/write Daten Ordner
- ~/output/ # output Ordner
python:
packages: # vorinstall häufig Daten Verarbeitung Lib
- pandas>=2.0
- polars # pandas 10x schneller Alternative
- openpyxl # read/write Excel
- pyarrow # parquet Format support
model: claude-opus-4 # Daten Verarbeitung empfehl Opus, Code Qualität besser
CSV Verarbeitung: OpenClaw vs ChatGPT Code Interpreter
beide Python Skript laufen, aber Unterschied noch groß.
- lokal Ausführung, Datei Größe keine Limit, 10GB CSV auch ok
- Daten nicht upload, Privat Sicherheit Garantie
- kann direkt lokal Datenbank, Intranet Resource zugreifen
- Verarbeitung Resultat direkt lokal speichern, nicht Session Ende weg
- möchte was Python Lib, install, keine Limit
- Datei upload max etwa 500MB, groß Daten nicht verarbeitet
- Daten zu OpenAI Server, Firma Daten nicht brauchen Sorge
- Sandbox limit, viel Lib nicht install
- Session Ende Datei weg, schnell download nötig
- Netz langsam upload lange, Erlebnis sehr schlecht