PDF 批量處理
合同、報告、發票 —— 幾百份 PDF 一條指令搞定
PDF 的惡夢
幾百份 PDF 手動處理、表格複製出來全亂、掃描件沒法搜尋
領導說「把這 200 份合同裡的簽約日期和金額都整理到一張表裡」。你打開第一份,找到日期,複製,切到 Excel,貼上。打開第二份……幹了一下午才弄了 40 份,還有 160 份。你開始懷疑人生。
PDF 裡的表格更絕。看著排版挺整齊的,一複製出來 —— 全擠成一坨。列對不上、數字跟文字混在一起、格式全沒了。你花了比手動輸入更多的時間去修格式。
還有掃描件。客戶發來一堆掃描的 PDF 發票,裡面的字根本沒法選中,更別提搜尋了。你只能對著螢幕一個一個數字手打。打完發現第三張發票的金額看錯了,又得重新核對。
OpenClaw 批量處理 PDF:提取、合併、識別一條龍
OpenClaw 可以幫你搞定 PDF 的三大頭疼事:
1. 批量資訊提取 —— 告訴它「從這些合同裡提取日期、金額、甲方」,幾百份 PDF 自動掃一遍,結果直接輸出成表格。
2. 表格識別 —— PDF 裡的表格識別出來轉成 Excel,列對齊、數字歸數字、文字歸文字,不用你手動修格式。
3. OCR 識別 —— 掃描件也能處理。識別出文字後,可以搜尋、可以提取、可以翻譯。
200 份合同的資訊提取?以前要幹三天,現在一條指令,喝杯咖啡回來就搞定了。
3 條 PDF 處理 Prompt,複製就能用
資訊提取、OCR 轉換、批量合併 —— 最常見的 PDF 操作全涵蓋。
批量提取合同關鍵資訊
黃金指令
把這個文件夾裡的 50 份 PDF 合同,提取出以下資訊:
需要提取的欄位:
1. 合同編號
2. 簽約日期
3. 合同金額(含幣種)
4. 甲方名稱
5. 乙方名稱
6. 合同期限(起止日期)
7. 付款條件(如有)
輸出格式:
- 生成一個表格,每份合同一行
- 如果某個欄位在合同裡找不到,標記為「未找到」
- 最後統計:總合同數、總金額、最早/最晚簽約日期
注意:有些合同是掃描件(圖片 PDF),需要 OCR 識別後再提取。
律師、法務、採購最常用的場景。這條 Prompt 把需要提取的欄位列得很清楚,AI 不會漏提。如果你的合同有其他關鍵欄位(比如違約金條款),往裡加就行。
掃描 PDF 表格轉 Excel
新手友善
把這份掃描的 PDF 表格識別出來轉成 Excel。
要求:
1. 用 OCR 識別表格中的所有文字和數字
2. 保持原始表格的行列結構
3. 數字列識別為數字格式(不要變成文本)
4. 日期列統一格式為 YYYY-MM-DD
5. 如果有合併單元格,按原樣保留
6. 識別結果不確定的地方用 [?] 標注
PDF 檔案:[上傳檔案]
輸出:Excel 格式,第一行為表頭。
掃描件轉 Excel 以前要用專業的 OCR 軟體,又貴又不一定好用。現在 AI 的識別準確率已經非常高了,特別是印刷體。手寫體的話準確率會低一些,記得檢查一遍。
批量合併 PDF + 排序 + 加頁碼
進階技巧
批量合併這些 PDF 檔案,要求如下:
1. 排序規則:按檔名的數字部分升序排列
例:report_01.pdf → report_02.pdf → report_10.pdf
(注意是數字排序,不是字母排序,10 應該在 2 後面)
2. 合併後處理:
- 在每頁右下角添加頁碼(格式:第 X 頁 / 共 Y 頁)
- 在合併後的 PDF 開頭生成目錄頁
- 目錄包含每個原始檔案的檔名和對應起始頁碼
3. 輸出:
- 合併後的 PDF 檔案
- 一個日誌檔案,記錄合併了哪些檔案、順序、每個檔案的頁數
請給出實現這個功能的 Python 指令稿(使用 PyPDF2 或 reportlab)。
這條 Prompt 輸出的是 Python 指令稿,你在本地跑就行。適合經常需要合併 PDF 的場景。指令稿保存下來,下次直接用,不用再問 AI。
PDF 處理:OpenClaw vs Adobe Acrobat
OpenClaw
- 批量資訊提取是強項 —— 幾百份 PDF 一條指令處理
- 提取規則完全自訂,想提什麼欄位都行
- 可以生成自動化指令稿,以後同類任務一鍵複用
- OCR + 資訊提取 + 格式轉換一站式完成
VS
Adobe Acrobat Pro
- PDF 編輯功能強大 —— 改文字、改圖片、改排版都行
- OCR 識別準確率很高,特別是英文檔案
- 批量處理功能有但操作複雜,需要學 Action Wizard
- 按年訂閱,價格不便宜;資訊提取能力有限
真實場景
律師事務所:200 份合同盡職調查
並購專案要做盡職調查,對方提供了 200 多份 PDF 合同。律師需要從每份合同中提取關鍵條款、到期日、風險點。按傳統做法,兩個律師助理要幹整整一週。
OpenClaw 方案
寫好提取 Prompt(合同編號、簽約日期、金額、關鍵條款、風險條款),把 200 份 PDF 批量處理。2 小時出結果,自動整理成表格。律師重點檢查 AI 標記出的 15 份有風險條款的合同就行,盡調時間從一週縮短到一天半。
純人工方案
兩個律助一份份看,每份合同 20-30 頁,看到第 80 份開始眼花。漏了兩個重要的管轄權條款,交割前才發現,差點影響整個交易進度。而且加班到凌晨兩點,第二天還要繼續看。
幾點實用建議
提取資訊之前先拿 2-3 份 PDF 試跑一下,看看提取結果對不對。確認準確了再批量跑,避免 200 份全跑完了才發現提取規則寫錯了。
如果你經常要處理同類 PDF(比如每月的發票、每季度的報告),讓 AI 生成一個 Python 指令稿保存下來。以後直接跑指令稿,連 Prompt 都不用寫。
掃描件的 OCR 識別不是 100% 準確的,特別是手寫體、印章覆蓋的文字、模糊的掃描件。涉及金額和日期的關鍵資訊,一定要人工複核。