CSV 大規模データ処理

百万行データ怖くない——OpenClaw が直接 Python で処理

CSV 処理の困ったこと

百万行データ、Excel は直接ダウンする

Excel は 50 万行を開くと回転し始め、100 万行で直接クラッシュします。ようやく開いても、スクロールバーを一つ動かすと 5 秒かかります。

データを手動でクリーニングするのはさらに悪夢:日付フォーマット 3 種類、電話番号は市外局番がある人とない人、重複行を消してもまた出てくる、欠損値は 0 を埋めるべきか削除するべきか……データ処理に 1 週間、完成後「あ、この列を処理し忘れた」。

OpenClaw:ローカル Python 実行、データはあなたの PC を離れない

CSV ファイルを OpenClaw に丸投げしたら、ローカル Python スクリプトが起動、pandas、polars 好きなだけ調べます。200 万行?数秒で読み込み完了。

大切なのは:あなたのデータ 1 バイトもサーバーにアップロードされないことです。会社の販売データ、ユーザープライバシーデータ、財務表——安心して処理できます、データセキュリティの弦を張り続ける必要はありません。

3 つの CSV 処理 Prompt、コピーして直接使用

集計分析からデータクリーニング、複数表統合まで、必要に応じて持って行く。

百万行販売データ:月別集計 + Top10 ゴールデン指示
~/data/sales_2025.csv を読み込み(約 200 万行)、以下の処理をしてください:

1. 月別集計総売上、月別トレンドを出力
2. 売上 Top 10 の製品を抽出、製品名と総金額をリスト
3. 地域別にグループ化、各地域の注文数と平均客単価を統計
4. 結果を summary.csv に出力、~/data/output/ に保存

pandas で処理、メモリ最適化に注意(dtype 指定、必要に応じてチャンク読込)。
これはデータ分析で最一般的なシナリオです。200 万行をローカルの pandas で実行しても秒単位で完成です。アップロード時間とファイルサイズ制限を心配する必要ありません。Claude Opus の使用を推奨、生成 pandas コードはより安定、エッジケース対応が徹底的です。
データクリーニング一気通貫:重複排除 + フォーマット統一 + 欠損値処理 初心者向け
~/data/raw_customers.csv このデータをクリーニング:

1. 完全に重複した行を削除
2. 日付列を YYYY-MM-DD フォーマットに統一(元のデータは 2025/01/15、01-15-2025、2025年1月15日 など複数フォーマット)
3. 電話番号を 11 桁の純粋数字に統一(市外局番、スペース、ハイフン除去)
4. 欠損値処理:数値列は中央値で埋め、分類列は「未知」で埋め
5. クリーニングレポート出力:処理した行数、各列の処理状況

クリーニング後、cleaned_customers.csv に保存。
データクリーニングは簡単に見えますが、手動だと容易にミス。AI にスクリプト作成させたら、Excel で 1 列 1 列修正するより 100 倍速く、ミスも少ない。
複数ファイル統合:5 つの CSV を関連付けて広表を生成 応用技法
~/data/ ディレクトリに 5 つの CSV ファイルがあります:
- users.csv(ユーザー ID、名前、登録日時、地域)
- orders.csv(注文 ID、ユーザー ID、製品 ID、金額、注文日時)
- products.csv(製品 ID、カテゴリー、ブランド、単価)
- reviews.csv(ユーザー ID、製品 ID、評点、評価日時)
- returns.csv(注文 ID、返品理由、返品日時)

以下をお願いします:
1. これら 5 つの表をユーザー ID と製品 ID で関連付け、広表を生成
2. 一対多関係を適切に処理(1 人のユーザーが複数注文)
3. 衍生フィールドを追加:ユーザー総消費、購入回数、平均評点、返品率
4. merged_wide_table.csv にエクスポート
5. データ品質レポート出力:関連マッチ率、未マッチレコード数
複数表統合はデータ分析の基本です。しかし書いていると LEFT JOIN / INNER JOIN のタイプで転んで しまう。AI はあなたの表構造に基づいて自動選択し、さらに一対多で起こりうるデータ膨張問題を教えてくれます。

大規模データ処理設定案

大きなファイルを処理する前に、これらの設定を調べば、もっとスムーズです。

OpenClaw 大規模データ処理設定(.openclaw.yml)
# 大規模データ処理推奨設定
sandbox:
  memory_limit: 8GB          # 大 CSV はもっと多くのメモリが必要
  timeout: 600               # 複雑な処理は数分かかるかもしれません
  allowed_paths:
    - ~/data/                 # 読書きが許可されたデータディレクトリ
    - ~/output/               # 出力ディレクトリ

python:
  packages:                   # 事前インストール共用データ処理ライブラリ
    - pandas>=2.0
    - polars                  # pandas より 10 倍速い代替案
    - openpyxl                # Excel 読み書き
    - pyarrow                 # parquet フォーマットサポート

model: claude-opus-4         # データ処理は Opus 推奨、コード品質が高い

CSV 処理:OpenClaw vs ChatGPT Code Interpreter

どちらも Python が実行できますが、差はまだ結構大きいです。

OpenClaw
  • ローカル実行、ファイルサイズ無制限、10GB の CSV も大丈夫
  • データ零アップロード、プライバシー安全保証
  • ローカルデータベース、内ネットリソースに直接アクセス可能
  • 処理結果は直接ローカルに保存、セッション終了で消えない
  • どの Python ライブラリでもインストール可能、制限なし
VS
ChatGPT Code Interpreter
  • ファイルアップロード最大約 500MB、大量データ処理不可
  • データが OpenAI サーバーに送信、会社データは使用不可
  • サンドボックス環境制限多い、多くのライブラリ装不可
  • セッション終了でファイル消失、急いでダウンロード
  • ネット遅い時アップロード半日、体験が悪い

実際のシナリオ

e コマース営業:年度データ復盤
年末全年度データ復盤、12 ヶ月販売データが 10 数個 CSV に散在、計 500 万 + 行。上司は明日提出のレポートを要求。
OpenClaw 方案
一つの Prompt で完成:12 ヶ月データ統合、品類/地域/月別多次元集計、トレンド図と対比表生成、完全分析レポート出力。開始から結果まで 20 分未満。データはずっとローカル、財務機密情報漏洩なし。
手動方案
Excel で 1 つずつ開く、開くだけでフリーズする数個。VLOOKUP で関連付け、公式誤記で排査。データ統合だけで 2 日かかり、分析はまだ始まっていません。

いくつかの実用的なコツ

💡 超大型 CSV(G 単位以上)処理時、Prompt で「pandas の代わりに polars を使ってください」と一言だけで、速度が 5~10 倍速くなります。polars のメモリ占有もさらに少なくなります。
🎯 データが何かわかりません?先に「前 20 行を読んで、データ概論を教えてください」と AI に言わせます。列名、データタイプ、欠損状況を見たら、処理 Prompt を書きます。一回で成功率がずっと高いです。
⚠️ 中国語を含む CSV 処理時、Prompt でエンコーディングフォーマットを明記(UTF-8 / GBK)。明記しないと文字化けで読み込まれ、対話が無駄になります。
この記事は役に立ちましたか?