CSV 大規模データ処理

百万行データ怖くない——OpenClaw が直接 Python で処理

CSV 処理の困ったこと

百万行データ、Excel は直接ダウンする

Excel は 50 万行を開くと回転し始め、100 万行で直接クラッシュします。ようやく開いても、スクロールバーを一つ動かすと 5 秒かかります。

データを手動でクリーニングするのはさらに悪夢：日付フォーマット 3 種類、電話番号は市外局番がある人とない人、重複行を消してもまた出てくる、欠損値は 0 を埋めるべきか削除するべきか……データ処理に 1 週間、完成後「あ、この列を処理し忘れた」。

OpenClaw：ローカル Python 実行、データはあなたの PC を離れない

CSV ファイルを OpenClaw に丸投げしたら、ローカル Python スクリプトが起動、pandas、polars 好きなだけ調べます。200 万行？数秒で読み込み完了。

大切なのは：あなたのデータ 1 バイトもサーバーにアップロードされないことです。会社の販売データ、ユーザープライバシーデータ、財務表——安心して処理できます、データセキュリティの弦を張り続ける必要はありません。

3 つの CSV 処理 Prompt、コピーして直接使用

集計分析からデータクリーニング、複数表統合まで、必要に応じて持って行く。

百万行販売データ：月別集計 + Top10 ゴールデン指示

~/data/sales_2025.csv を読み込み（約 200 万行）、以下の処理をしてください：

1. 月別集計総売上、月別トレンドを出力
2. 売上 Top 10 の製品を抽出、製品名と総金額をリスト
3. 地域別にグループ化、各地域の注文数と平均客単価を統計
4. 結果を summary.csv に出力、~/data/output/ に保存

pandas で処理、メモリ最適化に注意（dtype 指定、必要に応じてチャンク読込）。

これはデータ分析で最一般的なシナリオです。200 万行をローカルの pandas で実行しても秒単位で完成です。アップロード時間とファイルサイズ制限を心配する必要ありません。Claude Opus の使用を推奨、生成 pandas コードはより安定、エッジケース対応が徹底的です。

データクリーニング一気通貫：重複排除 + フォーマット統一 + 欠損値処理初心者向け

~/data/raw_customers.csv このデータをクリーニング：

1. 完全に重複した行を削除
2. 日付列を YYYY-MM-DD フォーマットに統一（元のデータは 2025/01/15、01-15-2025、2025年1月15日 など複数フォーマット）
3. 電話番号を 11 桁の純粋数字に統一（市外局番、スペース、ハイフン除去）
4. 欠損値処理：数値列は中央値で埋め、分類列は「未知」で埋め
5. クリーニングレポート出力：処理した行数、各列の処理状況

クリーニング後、cleaned_customers.csv に保存。

データクリーニングは簡単に見えますが、手動だと容易にミス。AI にスクリプト作成させたら、Excel で 1 列 1 列修正するより 100 倍速く、ミスも少ない。

複数ファイル統合：5 つの CSV を関連付けて広表を生成応用技法

~/data/ ディレクトリに 5 つの CSV ファイルがあります：
- users.csv（ユーザー ID、名前、登録日時、地域）
- orders.csv（注文 ID、ユーザー ID、製品 ID、金額、注文日時）
- products.csv（製品 ID、カテゴリー、ブランド、単価）
- reviews.csv（ユーザー ID、製品 ID、評点、評価日時）
- returns.csv（注文 ID、返品理由、返品日時）

以下をお願いします：
1. これら 5 つの表をユーザー ID と製品 ID で関連付け、広表を生成
2. 一対多関係を適切に処理（1 人のユーザーが複数注文）
3. 衍生フィールドを追加：ユーザー総消費、購入回数、平均評点、返品率
4. merged_wide_table.csv にエクスポート
5. データ品質レポート出力：関連マッチ率、未マッチレコード数

複数表統合はデータ分析の基本です。しかし書いていると LEFT JOIN / INNER JOIN のタイプで転んでしまう。AI はあなたの表構造に基づいて自動選択し、さらに一対多で起こりうるデータ膨張問題を教えてくれます。

大規模データ処理設定案

大きなファイルを処理する前に、これらの設定を調べば、もっとスムーズです。

OpenClaw 大規模データ処理設定（.openclaw.yml）

# 大規模データ処理推奨設定
sandbox:
  memory_limit: 8GB          # 大 CSV はもっと多くのメモリが必要
  timeout: 600               # 複雑な処理は数分かかるかもしれません
  allowed_paths:
    - ~/data/                 # 読書きが許可されたデータディレクトリ
    - ~/output/               # 出力ディレクトリ

python:
  packages:                   # 事前インストール共用データ処理ライブラリ
    - pandas>=2.0
    - polars                  # pandas より 10 倍速い代替案
    - openpyxl                # Excel 読み書き
    - pyarrow                 # parquet フォーマットサポート

model: claude-opus-4         # データ処理は Opus 推奨、コード品質が高い

CSV 処理：OpenClaw vs ChatGPT Code Interpreter

どちらも Python が実行できますが、差はまだ結構大きいです。

OpenClaw

ローカル実行、ファイルサイズ無制限、10GB の CSV も大丈夫
データ零アップロード、プライバシー安全保証
ローカルデータベース、内ネットリソースに直接アクセス可能
処理結果は直接ローカルに保存、セッション終了で消えない
どの Python ライブラリでもインストール可能、制限なし

ChatGPT Code Interpreter

ファイルアップロード最大約 500MB、大量データ処理不可
データが OpenAI サーバーに送信、会社データは使用不可
サンドボックス環境制限多い、多くのライブラリ装不可
セッション終了でファイル消失、急いでダウンロード
ネット遅い時アップロード半日、体験が悪い

実際のシナリオ

e コマース営業：年度データ復盤

年末全年度データ復盤、12 ヶ月販売データが 10 数個 CSV に散在、計 500 万 + 行。上司は明日提出のレポートを要求。

OpenClaw 方案

一つの Prompt で完成：12 ヶ月データ統合、品類/地域/月別多次元集計、トレンド図と対比表生成、完全分析レポート出力。開始から結果まで 20 分未満。データはずっとローカル、財務機密情報漏洩なし。

手動方案

Excel で 1 つずつ開く、開くだけでフリーズする数個。VLOOKUP で関連付け、公式誤記で排査。データ統合だけで 2 日かかり、分析はまだ始まっていません。

いくつかの実用的なコツ

💡 超大型 CSV（G 単位以上）処理時、Prompt で「pandas の代わりに polars を使ってください」と一言だけで、速度が 5～10 倍速くなります。polars のメモリ占有もさらに少なくなります。

🎯 データが何かわかりません？先に「前 20 行を読んで、データ概論を教えてください」と AI に言わせます。列名、データタイプ、欠損状況を見たら、処理 Prompt を書きます。一回で成功率がずっと高いです。

⚠️ 中国語を含む CSV 処理時、Prompt でエンコーディングフォーマットを明記（UTF-8 / GBK）。明記しないと文字化けで読み込まれ、対話が無駄になります。

この記事は役に立ちましたか？