CSV 大資料處理
百萬行資料不用怕 —— OpenClaw 直接跑 Python 幫你搞定
CSV 處理的那些破事
百萬行資料,Excel 直接躺平
Excel 打開 50 萬行就開始轉圈圈,100 萬行直接閃退。好不容易打開了,拖一下捲動條卡 5 秒。
手動清洗資料更是惡夢:日期格式有 3 種、手機號有的帶區號有的不帶、重複行刪了又冒出來、缺失值不知道該填 0 還是刪掉……一份資料搞一週,搞完發現還漏了幾列沒處理。
OpenClaw:本地跑 Python,資料不出你的電腦
把 CSV 檔案往 OpenClaw 一丟,它直接在本地起 Python 指令稿,pandas、polars 隨便調。200 萬行?幾秒鐘讀完。
關鍵是:你的資料一個位元組都不會上傳到任何伺服器。公司的銷售資料、用戶隱私資料、財務報表——放心大膽地處理,資料安全這根弦不用繃著。
3 條資料處理 Prompt,複製直接用
從彙總分析到資料清洗到多表合併,按需拿走。
百萬行銷售資料:按月彙總 + Top10
黃金指令
讀取 ~/data/sales_2025.csv(約 200 萬行),幫我做以下處理:
1. 按月份彙總總銷售額,輸出月度趨勢
2. 找出銷售額 Top 10 的產品,列出產品名和總金額
3. 按地區分組,統計每個地區的訂單數和平均客單價
4. 把結果匯出為 summary.csv,保存到 ~/data/output/
用 pandas 處理,注意記憶體優化(指定 dtype,分塊讀取如果需要)。
這是資料分析最常見的場景。200 萬行在本地跑 pandas 也就幾秒鐘,不用擔心上傳時間和檔案大小限制。建議用 Claude Opus,它生成的 pandas 代碼更穩,邊界情況處理更到位。
資料清洗一條龍:去重 + 格式統一 + 缺失值處理
新手友善
清洗 ~/data/raw_customers.csv 這份資料:
1. 去除完全重複的行
2. 日期列統一為 YYYY-MM-DD 格式(原始資料裡有 2025/01/15、01-15-2025、2025年1月15日 等多種格式)
3. 手機號統一為 11 位純數字(去掉區號、空格、橫線)
4. 缺失值處理:數值列填中位數,分類列填"未知"
5. 輸出清洗報告:處理了多少行、每列的處理情況
清洗後保存為 cleaned_customers.csv。
資料清洗看著簡單,但手動做容易漏。讓 AI 寫指令稿跑一遍,比你在 Excel 裡一列一列改快 100 倍,還不容易出錯。
多檔案合併:5 個 CSV 關聯生成寬表
進階技巧
~/data/ 目錄下有 5 個 CSV 檔案:
- users.csv(用戶ID, 姓名, 註冊時間, 地區)
- orders.csv(訂單ID, 用戶ID, 商品ID, 金額, 下單時間)
- products.csv(商品ID, 品類, 品牌, 單價)
- reviews.csv(用戶ID, 商品ID, 評分, 評價時間)
- returns.csv(訂單ID, 退貨原因, 退貨時間)
幫我:
1. 按用戶ID和商品ID關聯這 5 張表,生成一張寬表
2. 處理好一對多關係(一個用戶多個訂單)
3. 加上衍生欄位:用戶總消費、購買次數、平均評分、退貨率
4. 匯出為 merged_wide_table.csv
5. 輸出資料品質報告:關聯匹配率、未匹配的記錄數
多表合併是資料分析的基本功,但寫起來容易在 JOIN 類型上翻車。AI 會根據你的表結構自動選擇 left join / inner join,還會提醒你一對多可能導致的資料膨脹問題。
大資料處理配置建議
處理大檔案之前,調一下這些配置會更順暢。
OpenClaw 大資料處理配置(.openclaw.yml)
# 大資料處理推薦配置
sandbox:
memory_limit: 8GB # 大 CSV 需要更多記憶體
timeout: 600 # 複雜處理可能跑幾分鐘
allowed_paths:
- ~/data/ # 允許讀寫的資料目錄
- ~/output/ # 輸出目錄
python:
packages: # 預裝常用資料處理庫
- pandas>=2.0
- polars # 比 pandas 快 10 倍的替代方案
- openpyxl # 讀寫 Excel
- pyarrow # parquet 格式支持
model: claude-opus-4 # 資料處理推薦 Opus,代碼品質更高
CSV 處理:OpenClaw vs ChatGPT Code Interpreter
都能跑 Python,但差別還是挺大的。
OpenClaw
- 本地執行,檔案大小無限制,10GB 的 CSV 也沒問題
- 資料不上傳,隱私安全有保障
- 可以直接讀本地資料庫、訪問內網資源
- 處理結果直接保存到本地,不會會話結束就消失
- 想裝什麼 Python 庫就裝什麼,沒有限制
VS
ChatGPT Code Interpreter
- 檔案上傳最大約 500MB,大資料量處理不了
- 資料得傳到 OpenAI 伺服器,公司資料不敢用
- 沙盒環境受限,很多庫裝不了
- 會話結束檔案就沒了,得趕紧下載
- 網路慢的時候上傳半天,體驗很差
真實場景
電商運營:年度資料複盤
年底要做全年資料複盤,12 個月的銷售資料分散在十幾個 CSV 裡,總共 500 多萬行。老闆要求後天出報告。
OpenClaw 方案
一條 Prompt 搞定:合併 12 個月資料,按品類/地區/月份多維度彙總,生成趨勢圖和對比表,輸出一份完整的分析報告。從開始到出結果,不到 20 分鐘。資料全程在本地,財務敏感資訊不用擔心泄露。
手動方案
先在 Excel 裡一個個打開,打開就卡死幾個。用 VLOOKUP 關聯,公式寫錯了還得排查。光資料合併就搞了兩天,還沒開始分析呢。
幾個實用小技巧
處理超大 CSV(幾個 G 以上),在 Prompt 裡提一句「用 polars 代替 pandas」,速度能快 5-10 倍。polars 的記憶體佔用也更小。
不確定資料長什麼樣?先讓 AI 「讀前 20 行,給我資料概覽」,看清楚列名、資料類型、缺失情況,再寫處理 Prompt,一次成功率高很多。
處理包含中文的 CSV 時,記得在 Prompt 裡說明編碼格式(UTF-8 / GBK)。不然讀出來可能是亂碼,浪費一輪對話。