PDF 批量处理

合同、报告、发票 —— 几百份 PDF 一条指令搞定

PDF 的噩梦

几百份 PDF 手动处理、表格复制出来全乱、扫描件没法搜索

领导说「把这 200 份合同里的签约日期和金额都整理到一张表里」。你打开第一份，找到日期，复制，切到 Excel，粘贴。打开第二份……干了一下午才弄了 40 份，还有 160 份。你开始怀疑人生。

PDF 里的表格更绝。看着排版挺整齐的，一复制出来 —— 全挤成一坨。列对不上、数字跟文字混在一起、格式全没了。你花了比手动输入更多的时间去修格式。

还有扫描件。客户发来一堆扫描的 PDF 发票，里面的字根本没法选中，更别提搜索了。你只能对着屏幕一个一个数字手打。打完发现第三张发票的金额看错了，又得重新核对。

OpenClaw 批量处理 PDF：提取、合并、识别一条龙

OpenClaw 可以帮你搞定 PDF 的三大头疼事：

1. 批量信息提取 —— 告诉它「从这些合同里提取日期、金额、甲方」，几百份 PDF 自动扫一遍，结果直接输出成表格。
2. 表格识别 —— PDF 里的表格识别出来转成 Excel，列对齐、数字归数字、文字归文字，不用你手动修格式。
3. OCR 识别 —— 扫描件也能处理。识别出文字后，可以搜索、可以提取、可以翻译。

200 份合同的信息提取？以前要干三天，现在一条指令，喝杯咖啡回来就搞定了。

3 条 PDF 处理 Prompt，复制就能用

信息提取、OCR 转换、批量合并 —— 最常见的 PDF 操作全覆盖。

批量提取合同关键信息黄金指令

把这个文件夹里的 50 份 PDF 合同，提取出以下信息：

需要提取的字段：
1. 合同编号
2. 签约日期
3. 合同金额（含币种）
4. 甲方名称
5. 乙方名称
6. 合同期限（起止日期）
7. 付款条件（如有）

输出格式：
- 生成一个表格，每份合同一行
- 如果某个字段在合同里找不到，标记为「未找到」
- 最后统计：总合同数、总金额、最早/最晚签约日期

注意：有些合同是扫描件（图片 PDF），需要 OCR 识别后再提取。

律师、法务、采购最常用的场景。这条 Prompt 把需要提取的字段列得很清楚，AI 不会漏提。如果你的合同有其他关键字段（比如违约金条款），往里加就行。

扫描 PDF 表格转 Excel 新手友好

把这份扫描的 PDF 表格识别出来转成 Excel。

要求：
1. 用 OCR 识别表格中的所有文字和数字
2. 保持原始表格的行列结构
3. 数字列识别为数字格式（不要变成文本）
4. 日期列统一格式为 YYYY-MM-DD
5. 如果有合并单元格，按原样保留
6. 识别结果不确定的地方用 [?] 标注

PDF 文件：[上传文件]

输出：Excel 格式，第一行为表头。

扫描件转 Excel 以前要用专业的 OCR 软件，又贵又不一定好用。现在 AI 的识别准确率已经非常高了，特别是印刷体。手写体的话准确率会低一些，记得检查一遍。

批量合并 PDF + 排序 + 加页码进阶技巧

批量合并这些 PDF 文件，要求如下：

1. 排序规则：按文件名的数字部分升序排列
   例：report_01.pdf → report_02.pdf → report_10.pdf
   （注意是数字排序，不是字母排序，10 应该在 2 后面）

2. 合并后处理：
   - 在每页右下角添加页码（格式：第 X 页 / 共 Y 页）
   - 在合并后的 PDF 开头生成目录页
   - 目录包含每个原始文件的文件名和对应起始页码

3. 输出：
   - 合并后的 PDF 文件
   - 一个日志文件，记录合并了哪些文件、顺序、每个文件的页数

请给出实现这个功能的 Python 脚本（使用 PyPDF2 或 reportlab）。

这条 Prompt 输出的是 Python 脚本，你在本地跑就行。适合经常需要合并 PDF 的场景。脚本保存下来，下次直接用，不用再问 AI。

PDF 处理：OpenClaw vs Adobe Acrobat

OpenClaw

批量信息提取是强项 —— 几百份 PDF 一条指令处理
提取规则完全自定义，想提什么字段都行
可以生成自动化脚本，以后同类任务一键复用
OCR + 信息提取 + 格式转换一站式完成

Adobe Acrobat Pro

PDF 编辑功能强大 —— 改文字、改图片、改排版都行
OCR 识别准确率很高，特别是英文文档
批量处理功能有但操作复杂，需要学 Action Wizard
按年订阅，价格不便宜；信息提取能力有限

真实场景

律师事务所：200 份合同尽职调查

并购项目要做尽职调查，对方提供了 200 多份 PDF 合同。律师需要从每份合同中提取关键条款、到期日、风险点。按传统做法，两个律师助理要干整整一周。

OpenClaw 方案

写好提取 Prompt（合同编号、签约日期、金额、关键条款、风险条款），把 200 份 PDF 批量处理。2 小时出结果，自动整理成表格。律师重点检查 AI 标记出的 15 份有风险条款的合同就行，尽调时间从一周缩短到一天半。

纯人工方案

两个律助一份份看，每份合同 20-30 页，看到第 80 份开始眼花。漏了两个重要的管辖权条款，交割前才发现，差点影响整个交易进度。而且加班到凌晨两点，第二天还要继续看。

几点实用建议

💡 提取信息之前先拿 2-3 份 PDF 试跑一下，看看提取结果对不对。确认准确了再批量跑，避免 200 份全跑完了才发现提取规则写错了。

🎯 如果你经常要处理同类 PDF（比如每月的发票、每季度的报告），让 AI 生成一个 Python 脚本保存下来。以后直接跑脚本，连 Prompt 都不用写。

⚠️ 扫描件的 OCR 识别不是 100% 准确的，特别是手写体、印章覆盖的文字、模糊的扫描件。涉及金额和日期的关键信息，一定要人工复核。

这篇案例对你有帮助吗？