CSV 大数据处理

百万行数据不用怕 —— OpenClaw 直接跑 Python 帮你搞定

CSV 处理的那些破事

百万行数据，Excel 直接躺平

Excel 打开 50 万行就开始转圈圈，100 万行直接闪退。好不容易打开了，拖一下滚动条卡 5 秒。

手动清洗数据更是噩梦：日期格式有 3 种、手机号有的带区号有的不带、重复行删了又冒出来、缺失值不知道该填 0 还是删掉……一份数据搞一周，搞完发现还漏了几列没处理。

OpenClaw：本地跑 Python，数据不出你的电脑

把 CSV 文件往 OpenClaw 一丢，它直接在本地起 Python 脚本，pandas、polars 随便调。200 万行？几秒钟读完。

关键是：你的数据一个字节都不会上传到任何服务器。公司的销售数据、用户隐私数据、财务报表——放心大胆地处理，数据安全这根弦不用绷着。

3 条数据处理 Prompt，复制直接用

从汇总分析到数据清洗到多表合并，按需拿走。

百万行销售数据：按月汇总 + Top10 黄金指令

读取 ~/data/sales_2025.csv（约 200 万行），帮我做以下处理：

1. 按月份汇总总销售额，输出月度趋势
2. 找出销售额 Top 10 的产品，列出产品名和总金额
3. 按地区分组，统计每个地区的订单数和平均客单价
4. 把结果导出为 summary.csv，保存到 ~/data/output/

用 pandas 处理，注意内存优化（指定 dtype，分块读取如果需要）。

这是数据分析最常见的场景。200 万行在本地跑 pandas 也就几秒钟，不用担心上传时间和文件大小限制。建议用 Claude Opus，它生成的 pandas 代码更稳，边界情况处理更到位。

数据清洗一条龙：去重 + 格式统一 + 缺失值处理新手友好

清洗 ~/data/raw_customers.csv 这份数据：

1. 去除完全重复的行
2. 日期列统一为 YYYY-MM-DD 格式（原始数据里有 2025/01/15、01-15-2025、2025年1月15日 等多种格式）
3. 手机号统一为 11 位纯数字（去掉区号、空格、横线）
4. 缺失值处理：数值列填中位数，分类列填"未知"
5. 输出清洗报告：处理了多少行、每列的处理情况

清洗后保存为 cleaned_customers.csv。

数据清洗看着简单，但手动做容易漏。让 AI 写脚本跑一遍，比你在 Excel 里一列一列改快 100 倍，还不容易出错。

多文件合并：5 个 CSV 关联生成宽表进阶技巧

~/data/ 目录下有 5 个 CSV 文件：
- users.csv（用户ID, 姓名, 注册时间, 地区）
- orders.csv（订单ID, 用户ID, 商品ID, 金额, 下单时间）
- products.csv（商品ID, 品类, 品牌, 单价）
- reviews.csv（用户ID, 商品ID, 评分, 评价时间）
- returns.csv（订单ID, 退货原因, 退货时间）

帮我：
1. 按用户ID和商品ID关联这 5 张表，生成一张宽表
2. 处理好一对多关系（一个用户多个订单）
3. 加上衍生字段：用户总消费、购买次数、平均评分、退货率
4. 导出为 merged_wide_table.csv
5. 输出数据质量报告：关联匹配率、未匹配的记录数

多表合并是数据分析的基本功，但写起来容易在 JOIN 类型上翻车。AI 会根据你的表结构自动选择 left join / inner join，还会提醒你一对多可能导致的数据膨胀问题。

大数据处理配置建议

处理大文件之前，调一下这些配置会更顺畅。

OpenClaw 大数据处理配置（.openclaw.yml）

# 大数据处理推荐配置
sandbox:
  memory_limit: 8GB          # 大 CSV 需要更多内存
  timeout: 600               # 复杂处理可能跑几分钟
  allowed_paths:
    - ~/data/                 # 允许读写的数据目录
    - ~/output/               # 输出目录

python:
  packages:                   # 预装常用数据处理库
    - pandas>=2.0
    - polars                  # 比 pandas 快 10 倍的替代方案
    - openpyxl                # 读写 Excel
    - pyarrow                 # parquet 格式支持

model: claude-opus-4         # 数据处理推荐 Opus，代码质量更高

CSV 处理：OpenClaw vs ChatGPT Code Interpreter

都能跑 Python，但差别还是挺大的。

OpenClaw

本地执行，文件大小无限制，10GB 的 CSV 也没问题
数据不上传，隐私安全有保障
可以直接读本地数据库、访问内网资源
处理结果直接保存到本地，不会会话结束就消失
想装什么 Python 库就装什么，没有限制

ChatGPT Code Interpreter

文件上传最大约 500MB，大数据量处理不了
数据得传到 OpenAI 服务器，公司数据不敢用
沙盒环境受限，很多库装不了
会话结束文件就没了，得赶紧下载
网络慢的时候上传半天，体验很差

真实场景

电商运营：年度数据复盘

年底要做全年数据复盘，12 个月的销售数据分散在十几个 CSV 里，总共 500 多万行。老板要求后天出报告。

OpenClaw 方案

一条 Prompt 搞定：合并 12 个月数据，按品类/地区/月份多维度汇总，生成趋势图和对比表，输出一份完整的分析报告。从开始到出结果，不到 20 分钟。数据全程在本地，财务敏感信息不用担心泄露。

手动方案

先在 Excel 里一个个打开，打开就卡死几个。用 VLOOKUP 关联，公式写错了还得排查。光数据合并就搞了两天，还没开始分析呢。

几个实用小技巧

💡 处理超大 CSV（几个 G 以上），在 Prompt 里提一句「用 polars 代替 pandas」，速度能快 5-10 倍。polars 的内存占用也更小。

🎯 不确定数据长什么样？先让 AI 「读前 20 行，给我数据概览」，看清楚列名、数据类型、缺失情况，再写处理 Prompt，一次成功率高很多。

⚠️ 处理包含中文的 CSV 时，记得在 Prompt 里说明编码格式（UTF-8 / GBK）。不然读出来可能是乱码，浪费一轮对话。

这篇案例对你有帮助吗？