CSV 大数据处理

百万行数据不用怕 —— OpenClaw 直接跑 Python 帮你搞定

CSV 处理的那些破事

百万行数据,Excel 直接躺平

Excel 打开 50 万行就开始转圈圈,100 万行直接闪退。好不容易打开了,拖一下滚动条卡 5 秒。

手动清洗数据更是噩梦:日期格式有 3 种、手机号有的带区号有的不带、重复行删了又冒出来、缺失值不知道该填 0 还是删掉……一份数据搞一周,搞完发现还漏了几列没处理。

OpenClaw:本地跑 Python,数据不出你的电脑

把 CSV 文件往 OpenClaw 一丢,它直接在本地起 Python 脚本,pandas、polars 随便调。200 万行?几秒钟读完。

关键是:你的数据一个字节都不会上传到任何服务器。公司的销售数据、用户隐私数据、财务报表——放心大胆地处理,数据安全这根弦不用绷着。

3 条数据处理 Prompt,复制直接用

从汇总分析到数据清洗到多表合并,按需拿走。

百万行销售数据:按月汇总 + Top10 黄金指令
读取 ~/data/sales_2025.csv(约 200 万行),帮我做以下处理:

1. 按月份汇总总销售额,输出月度趋势
2. 找出销售额 Top 10 的产品,列出产品名和总金额
3. 按地区分组,统计每个地区的订单数和平均客单价
4. 把结果导出为 summary.csv,保存到 ~/data/output/

用 pandas 处理,注意内存优化(指定 dtype,分块读取如果需要)。
这是数据分析最常见的场景。200 万行在本地跑 pandas 也就几秒钟,不用担心上传时间和文件大小限制。建议用 Claude Opus,它生成的 pandas 代码更稳,边界情况处理更到位。
数据清洗一条龙:去重 + 格式统一 + 缺失值处理 新手友好
清洗 ~/data/raw_customers.csv 这份数据:

1. 去除完全重复的行
2. 日期列统一为 YYYY-MM-DD 格式(原始数据里有 2025/01/15、01-15-2025、2025年1月15日 等多种格式)
3. 手机号统一为 11 位纯数字(去掉区号、空格、横线)
4. 缺失值处理:数值列填中位数,分类列填"未知"
5. 输出清洗报告:处理了多少行、每列的处理情况

清洗后保存为 cleaned_customers.csv。
数据清洗看着简单,但手动做容易漏。让 AI 写脚本跑一遍,比你在 Excel 里一列一列改快 100 倍,还不容易出错。
多文件合并:5 个 CSV 关联生成宽表 进阶技巧
~/data/ 目录下有 5 个 CSV 文件:
- users.csv(用户ID, 姓名, 注册时间, 地区)
- orders.csv(订单ID, 用户ID, 商品ID, 金额, 下单时间)
- products.csv(商品ID, 品类, 品牌, 单价)
- reviews.csv(用户ID, 商品ID, 评分, 评价时间)
- returns.csv(订单ID, 退货原因, 退货时间)

帮我:
1. 按用户ID和商品ID关联这 5 张表,生成一张宽表
2. 处理好一对多关系(一个用户多个订单)
3. 加上衍生字段:用户总消费、购买次数、平均评分、退货率
4. 导出为 merged_wide_table.csv
5. 输出数据质量报告:关联匹配率、未匹配的记录数
多表合并是数据分析的基本功,但写起来容易在 JOIN 类型上翻车。AI 会根据你的表结构自动选择 left join / inner join,还会提醒你一对多可能导致的数据膨胀问题。

大数据处理配置建议

处理大文件之前,调一下这些配置会更顺畅。

OpenClaw 大数据处理配置(.openclaw.yml)
# 大数据处理推荐配置
sandbox:
  memory_limit: 8GB          # 大 CSV 需要更多内存
  timeout: 600               # 复杂处理可能跑几分钟
  allowed_paths:
    - ~/data/                 # 允许读写的数据目录
    - ~/output/               # 输出目录

python:
  packages:                   # 预装常用数据处理库
    - pandas>=2.0
    - polars                  # 比 pandas 快 10 倍的替代方案
    - openpyxl                # 读写 Excel
    - pyarrow                 # parquet 格式支持

model: claude-opus-4         # 数据处理推荐 Opus,代码质量更高

CSV 处理:OpenClaw vs ChatGPT Code Interpreter

都能跑 Python,但差别还是挺大的。

OpenClaw
  • 本地执行,文件大小无限制,10GB 的 CSV 也没问题
  • 数据不上传,隐私安全有保障
  • 可以直接读本地数据库、访问内网资源
  • 处理结果直接保存到本地,不会会话结束就消失
  • 想装什么 Python 库就装什么,没有限制
VS
ChatGPT Code Interpreter
  • 文件上传最大约 500MB,大数据量处理不了
  • 数据得传到 OpenAI 服务器,公司数据不敢用
  • 沙盒环境受限,很多库装不了
  • 会话结束文件就没了,得赶紧下载
  • 网络慢的时候上传半天,体验很差

真实场景

电商运营:年度数据复盘
年底要做全年数据复盘,12 个月的销售数据分散在十几个 CSV 里,总共 500 多万行。老板要求后天出报告。
OpenClaw 方案
一条 Prompt 搞定:合并 12 个月数据,按品类/地区/月份多维度汇总,生成趋势图和对比表,输出一份完整的分析报告。从开始到出结果,不到 20 分钟。数据全程在本地,财务敏感信息不用担心泄露。
手动方案
先在 Excel 里一个个打开,打开就卡死几个。用 VLOOKUP 关联,公式写错了还得排查。光数据合并就搞了两天,还没开始分析呢。

几个实用小技巧

💡 处理超大 CSV(几个 G 以上),在 Prompt 里提一句「用 polars 代替 pandas」,速度能快 5-10 倍。polars 的内存占用也更小。
🎯 不确定数据长什么样?先让 AI 「读前 20 行,给我数据概览」,看清楚列名、数据类型、缺失情况,再写处理 Prompt,一次成功率高很多。
⚠️ 处理包含中文的 CSV 时,记得在 Prompt 里说明编码格式(UTF-8 / GBK)。不然读出来可能是乱码,浪费一轮对话。
这篇案例对你有帮助吗?