PDF 批量处理

合同、报告、发票 —— 几百份 PDF 一条指令搞定

PDF 的噩梦

几百份 PDF 手动处理、表格复制出来全乱、扫描件没法搜索

领导说「把这 200 份合同里的签约日期和金额都整理到一张表里」。你打开第一份,找到日期,复制,切到 Excel,粘贴。打开第二份……干了一下午才弄了 40 份,还有 160 份。你开始怀疑人生。

PDF 里的表格更绝。看着排版挺整齐的,一复制出来 —— 全挤成一坨。列对不上、数字跟文字混在一起、格式全没了。你花了比手动输入更多的时间去修格式。

还有扫描件。客户发来一堆扫描的 PDF 发票,里面的字根本没法选中,更别提搜索了。你只能对着屏幕一个一个数字手打。打完发现第三张发票的金额看错了,又得重新核对。

OpenClaw 批量处理 PDF:提取、合并、识别一条龙

OpenClaw 可以帮你搞定 PDF 的三大头疼事:

1. 批量信息提取 —— 告诉它「从这些合同里提取日期、金额、甲方」,几百份 PDF 自动扫一遍,结果直接输出成表格。
2. 表格识别 —— PDF 里的表格识别出来转成 Excel,列对齐、数字归数字、文字归文字,不用你手动修格式。
3. OCR 识别 —— 扫描件也能处理。识别出文字后,可以搜索、可以提取、可以翻译。

200 份合同的信息提取?以前要干三天,现在一条指令,喝杯咖啡回来就搞定了。

3 条 PDF 处理 Prompt,复制就能用

信息提取、OCR 转换、批量合并 —— 最常见的 PDF 操作全覆盖。

批量提取合同关键信息 黄金指令
把这个文件夹里的 50 份 PDF 合同,提取出以下信息:

需要提取的字段:
1. 合同编号
2. 签约日期
3. 合同金额(含币种)
4. 甲方名称
5. 乙方名称
6. 合同期限(起止日期)
7. 付款条件(如有)

输出格式:
- 生成一个表格,每份合同一行
- 如果某个字段在合同里找不到,标记为「未找到」
- 最后统计:总合同数、总金额、最早/最晚签约日期

注意:有些合同是扫描件(图片 PDF),需要 OCR 识别后再提取。
律师、法务、采购最常用的场景。这条 Prompt 把需要提取的字段列得很清楚,AI 不会漏提。如果你的合同有其他关键字段(比如违约金条款),往里加就行。
扫描 PDF 表格转 Excel 新手友好
把这份扫描的 PDF 表格识别出来转成 Excel。

要求:
1. 用 OCR 识别表格中的所有文字和数字
2. 保持原始表格的行列结构
3. 数字列识别为数字格式(不要变成文本)
4. 日期列统一格式为 YYYY-MM-DD
5. 如果有合并单元格,按原样保留
6. 识别结果不确定的地方用 [?] 标注

PDF 文件:[上传文件]

输出:Excel 格式,第一行为表头。
扫描件转 Excel 以前要用专业的 OCR 软件,又贵又不一定好用。现在 AI 的识别准确率已经非常高了,特别是印刷体。手写体的话准确率会低一些,记得检查一遍。
批量合并 PDF + 排序 + 加页码 进阶技巧
批量合并这些 PDF 文件,要求如下:

1. 排序规则:按文件名的数字部分升序排列
   例:report_01.pdf → report_02.pdf → report_10.pdf
   (注意是数字排序,不是字母排序,10 应该在 2 后面)

2. 合并后处理:
   - 在每页右下角添加页码(格式:第 X 页 / 共 Y 页)
   - 在合并后的 PDF 开头生成目录页
   - 目录包含每个原始文件的文件名和对应起始页码

3. 输出:
   - 合并后的 PDF 文件
   - 一个日志文件,记录合并了哪些文件、顺序、每个文件的页数

请给出实现这个功能的 Python 脚本(使用 PyPDF2 或 reportlab)。
这条 Prompt 输出的是 Python 脚本,你在本地跑就行。适合经常需要合并 PDF 的场景。脚本保存下来,下次直接用,不用再问 AI。

PDF 处理:OpenClaw vs Adobe Acrobat

OpenClaw
  • 批量信息提取是强项 —— 几百份 PDF 一条指令处理
  • 提取规则完全自定义,想提什么字段都行
  • 可以生成自动化脚本,以后同类任务一键复用
  • OCR + 信息提取 + 格式转换一站式完成
VS
Adobe Acrobat Pro
  • PDF 编辑功能强大 —— 改文字、改图片、改排版都行
  • OCR 识别准确率很高,特别是英文文档
  • 批量处理功能有但操作复杂,需要学 Action Wizard
  • 按年订阅,价格不便宜;信息提取能力有限

真实场景

律师事务所:200 份合同尽职调查
并购项目要做尽职调查,对方提供了 200 多份 PDF 合同。律师需要从每份合同中提取关键条款、到期日、风险点。按传统做法,两个律师助理要干整整一周。
OpenClaw 方案
写好提取 Prompt(合同编号、签约日期、金额、关键条款、风险条款),把 200 份 PDF 批量处理。2 小时出结果,自动整理成表格。律师重点检查 AI 标记出的 15 份有风险条款的合同就行,尽调时间从一周缩短到一天半。
纯人工方案
两个律助一份份看,每份合同 20-30 页,看到第 80 份开始眼花。漏了两个重要的管辖权条款,交割前才发现,差点影响整个交易进度。而且加班到凌晨两点,第二天还要继续看。

几点实用建议

💡 提取信息之前先拿 2-3 份 PDF 试跑一下,看看提取结果对不对。确认准确了再批量跑,避免 200 份全跑完了才发现提取规则写错了。
🎯 如果你经常要处理同类 PDF(比如每月的发票、每季度的报告),让 AI 生成一个 Python 脚本保存下来。以后直接跑脚本,连 Prompt 都不用写。
⚠️ 扫描件的 OCR 识别不是 100% 准确的,特别是手写体、印章覆盖的文字、模糊的扫描件。涉及金额和日期的关键信息,一定要人工复核。
这篇案例对你有帮助吗?