CSV 大規模データ処理
百万行データ怖くない——OpenClaw が直接 Python で処理
CSV 処理の困ったこと
百万行データ、Excel は直接ダウンする
Excel は 50 万行を開くと回転し始め、100 万行で直接クラッシュします。ようやく開いても、スクロールバーを一つ動かすと 5 秒かかります。
データを手動でクリーニングするのはさらに悪夢:日付フォーマット 3 種類、電話番号は市外局番がある人とない人、重複行を消してもまた出てくる、欠損値は 0 を埋めるべきか削除するべきか……データ処理に 1 週間、完成後「あ、この列を処理し忘れた」。
OpenClaw:ローカル Python 実行、データはあなたの PC を離れない
CSV ファイルを OpenClaw に丸投げしたら、ローカル Python スクリプトが起動、pandas、polars 好きなだけ調べます。200 万行?数秒で読み込み完了。
大切なのは:あなたのデータ 1 バイトもサーバーにアップロードされないことです。会社の販売データ、ユーザープライバシーデータ、財務表——安心して処理できます、データセキュリティの弦を張り続ける必要はありません。
3 つの CSV 処理 Prompt、コピーして直接使用
集計分析からデータクリーニング、複数表統合まで、必要に応じて持って行く。
百万行販売データ:月別集計 + Top10
ゴールデン指示
~/data/sales_2025.csv を読み込み(約 200 万行)、以下の処理をしてください:
1. 月別集計総売上、月別トレンドを出力
2. 売上 Top 10 の製品を抽出、製品名と総金額をリスト
3. 地域別にグループ化、各地域の注文数と平均客単価を統計
4. 結果を summary.csv に出力、~/data/output/ に保存
pandas で処理、メモリ最適化に注意(dtype 指定、必要に応じてチャンク読込)。
これはデータ分析で最一般的なシナリオです。200 万行をローカルの pandas で実行しても秒単位で完成です。アップロード時間とファイルサイズ制限を心配する必要ありません。Claude Opus の使用を推奨、生成 pandas コードはより安定、エッジケース対応が徹底的です。
データクリーニング一気通貫:重複排除 + フォーマット統一 + 欠損値処理
初心者向け
~/data/raw_customers.csv このデータをクリーニング:
1. 完全に重複した行を削除
2. 日付列を YYYY-MM-DD フォーマットに統一(元のデータは 2025/01/15、01-15-2025、2025年1月15日 など複数フォーマット)
3. 電話番号を 11 桁の純粋数字に統一(市外局番、スペース、ハイフン除去)
4. 欠損値処理:数値列は中央値で埋め、分類列は「未知」で埋め
5. クリーニングレポート出力:処理した行数、各列の処理状況
クリーニング後、cleaned_customers.csv に保存。
データクリーニングは簡単に見えますが、手動だと容易にミス。AI にスクリプト作成させたら、Excel で 1 列 1 列修正するより 100 倍速く、ミスも少ない。
複数ファイル統合:5 つの CSV を関連付けて広表を生成
応用技法
~/data/ ディレクトリに 5 つの CSV ファイルがあります:
- users.csv(ユーザー ID、名前、登録日時、地域)
- orders.csv(注文 ID、ユーザー ID、製品 ID、金額、注文日時)
- products.csv(製品 ID、カテゴリー、ブランド、単価)
- reviews.csv(ユーザー ID、製品 ID、評点、評価日時)
- returns.csv(注文 ID、返品理由、返品日時)
以下をお願いします:
1. これら 5 つの表をユーザー ID と製品 ID で関連付け、広表を生成
2. 一対多関係を適切に処理(1 人のユーザーが複数注文)
3. 衍生フィールドを追加:ユーザー総消費、購入回数、平均評点、返品率
4. merged_wide_table.csv にエクスポート
5. データ品質レポート出力:関連マッチ率、未マッチレコード数
複数表統合はデータ分析の基本です。しかし書いていると LEFT JOIN / INNER JOIN のタイプで転んで しまう。AI はあなたの表構造に基づいて自動選択し、さらに一対多で起こりうるデータ膨張問題を教えてくれます。
大規模データ処理設定案
大きなファイルを処理する前に、これらの設定を調べば、もっとスムーズです。
OpenClaw 大規模データ処理設定(.openclaw.yml)
# 大規模データ処理推奨設定
sandbox:
memory_limit: 8GB # 大 CSV はもっと多くのメモリが必要
timeout: 600 # 複雑な処理は数分かかるかもしれません
allowed_paths:
- ~/data/ # 読書きが許可されたデータディレクトリ
- ~/output/ # 出力ディレクトリ
python:
packages: # 事前インストール共用データ処理ライブラリ
- pandas>=2.0
- polars # pandas より 10 倍速い代替案
- openpyxl # Excel 読み書き
- pyarrow # parquet フォーマットサポート
model: claude-opus-4 # データ処理は Opus 推奨、コード品質が高い
CSV 処理:OpenClaw vs ChatGPT Code Interpreter
どちらも Python が実行できますが、差はまだ結構大きいです。
OpenClaw
- ローカル実行、ファイルサイズ無制限、10GB の CSV も大丈夫
- データ零アップロード、プライバシー安全保証
- ローカルデータベース、内ネットリソースに直接アクセス可能
- 処理結果は直接ローカルに保存、セッション終了で消えない
- どの Python ライブラリでもインストール可能、制限なし
VS
ChatGPT Code Interpreter
- ファイルアップロード最大約 500MB、大量データ処理不可
- データが OpenAI サーバーに送信、会社データは使用不可
- サンドボックス環境制限多い、多くのライブラリ装不可
- セッション終了でファイル消失、急いでダウンロード
- ネット遅い時アップロード半日、体験が悪い
実際のシナリオ
e コマース営業:年度データ復盤
年末全年度データ復盤、12 ヶ月販売データが 10 数個 CSV に散在、計 500 万 + 行。上司は明日提出のレポートを要求。
OpenClaw 方案
一つの Prompt で完成:12 ヶ月データ統合、品類/地域/月別多次元集計、トレンド図と対比表生成、完全分析レポート出力。開始から結果まで 20 分未満。データはずっとローカル、財務機密情報漏洩なし。
手動方案
Excel で 1 つずつ開く、開くだけでフリーズする数個。VLOOKUP で関連付け、公式誤記で排査。データ統合だけで 2 日かかり、分析はまだ始まっていません。
いくつかの実用的なコツ
超大型 CSV(G 単位以上)処理時、Prompt で「pandas の代わりに polars を使ってください」と一言だけで、速度が 5~10 倍速くなります。polars のメモリ占有もさらに少なくなります。
データが何かわかりません?先に「前 20 行を読んで、データ概論を教えてください」と AI に言わせます。列名、データタイプ、欠損状況を見たら、処理 Prompt を書きます。一回で成功率がずっと高いです。
中国語を含む CSV 処理時、Prompt でエンコーディングフォーマットを明記(UTF-8 / GBK)。明記しないと文字化けで読み込まれ、対話が無駄になります。