PDF 批量處理

合同、報告、發票 —— 幾百份 PDF 一條指令搞定

PDF 的惡夢

幾百份 PDF 手動處理、表格複製出來全亂、掃描件沒法搜尋

領導說「把這 200 份合同裡的簽約日期和金額都整理到一張表裡」。你打開第一份，找到日期，複製，切到 Excel，貼上。打開第二份……幹了一下午才弄了 40 份，還有 160 份。你開始懷疑人生。

PDF 裡的表格更絕。看著排版挺整齊的，一複製出來 —— 全擠成一坨。列對不上、數字跟文字混在一起、格式全沒了。你花了比手動輸入更多的時間去修格式。

還有掃描件。客戶發來一堆掃描的 PDF 發票，裡面的字根本沒法選中，更別提搜尋了。你只能對著螢幕一個一個數字手打。打完發現第三張發票的金額看錯了，又得重新核對。

OpenClaw 批量處理 PDF：提取、合併、識別一條龍

OpenClaw 可以幫你搞定 PDF 的三大頭疼事：

1. 批量資訊提取 —— 告訴它「從這些合同裡提取日期、金額、甲方」，幾百份 PDF 自動掃一遍，結果直接輸出成表格。
2. 表格識別 —— PDF 裡的表格識別出來轉成 Excel，列對齊、數字歸數字、文字歸文字，不用你手動修格式。
3. OCR 識別 —— 掃描件也能處理。識別出文字後，可以搜尋、可以提取、可以翻譯。

200 份合同的資訊提取？以前要幹三天，現在一條指令，喝杯咖啡回來就搞定了。

3 條 PDF 處理 Prompt，複製就能用

資訊提取、OCR 轉換、批量合併 —— 最常見的 PDF 操作全涵蓋。

批量提取合同關鍵資訊黃金指令

把這個文件夾裡的 50 份 PDF 合同，提取出以下資訊：

需要提取的欄位：
1. 合同編號
2. 簽約日期
3. 合同金額（含幣種）
4. 甲方名稱
5. 乙方名稱
6. 合同期限（起止日期）
7. 付款條件（如有）

輸出格式：
- 生成一個表格，每份合同一行
- 如果某個欄位在合同裡找不到，標記為「未找到」
- 最後統計：總合同數、總金額、最早/最晚簽約日期

注意：有些合同是掃描件（圖片 PDF），需要 OCR 識別後再提取。

律師、法務、採購最常用的場景。這條 Prompt 把需要提取的欄位列得很清楚，AI 不會漏提。如果你的合同有其他關鍵欄位（比如違約金條款），往裡加就行。

掃描 PDF 表格轉 Excel 新手友善

把這份掃描的 PDF 表格識別出來轉成 Excel。

要求：
1. 用 OCR 識別表格中的所有文字和數字
2. 保持原始表格的行列結構
3. 數字列識別為數字格式（不要變成文本）
4. 日期列統一格式為 YYYY-MM-DD
5. 如果有合併單元格，按原樣保留
6. 識別結果不確定的地方用 [?] 標注

PDF 檔案：[上傳檔案]

輸出：Excel 格式，第一行為表頭。

掃描件轉 Excel 以前要用專業的 OCR 軟體，又貴又不一定好用。現在 AI 的識別準確率已經非常高了，特別是印刷體。手寫體的話準確率會低一些，記得檢查一遍。

批量合併 PDF + 排序 + 加頁碼進階技巧

批量合併這些 PDF 檔案，要求如下：

1. 排序規則：按檔名的數字部分升序排列
   例：report_01.pdf → report_02.pdf → report_10.pdf
   （注意是數字排序，不是字母排序，10 應該在 2 後面）

2. 合併後處理：
   - 在每頁右下角添加頁碼（格式：第 X 頁 / 共 Y 頁）
   - 在合併後的 PDF 開頭生成目錄頁
   - 目錄包含每個原始檔案的檔名和對應起始頁碼

3. 輸出：
   - 合併後的 PDF 檔案
   - 一個日誌檔案，記錄合併了哪些檔案、順序、每個檔案的頁數

請給出實現這個功能的 Python 指令稿（使用 PyPDF2 或 reportlab）。

這條 Prompt 輸出的是 Python 指令稿，你在本地跑就行。適合經常需要合併 PDF 的場景。指令稿保存下來，下次直接用，不用再問 AI。

PDF 處理：OpenClaw vs Adobe Acrobat

OpenClaw

批量資訊提取是強項 —— 幾百份 PDF 一條指令處理
提取規則完全自訂，想提什麼欄位都行
可以生成自動化指令稿，以後同類任務一鍵複用
OCR + 資訊提取 + 格式轉換一站式完成

Adobe Acrobat Pro

PDF 編輯功能強大 —— 改文字、改圖片、改排版都行
OCR 識別準確率很高，特別是英文檔案
批量處理功能有但操作複雜，需要學 Action Wizard
按年訂閱，價格不便宜；資訊提取能力有限

真實場景

律師事務所：200 份合同盡職調查

並購專案要做盡職調查，對方提供了 200 多份 PDF 合同。律師需要從每份合同中提取關鍵條款、到期日、風險點。按傳統做法，兩個律師助理要幹整整一週。

OpenClaw 方案

寫好提取 Prompt（合同編號、簽約日期、金額、關鍵條款、風險條款），把 200 份 PDF 批量處理。2 小時出結果，自動整理成表格。律師重點檢查 AI 標記出的 15 份有風險條款的合同就行，盡調時間從一週縮短到一天半。

純人工方案

兩個律助一份份看，每份合同 20-30 頁，看到第 80 份開始眼花。漏了兩個重要的管轄權條款，交割前才發現，差點影響整個交易進度。而且加班到凌晨兩點，第二天還要繼續看。

幾點實用建議

💡 提取資訊之前先拿 2-3 份 PDF 試跑一下，看看提取結果對不對。確認準確了再批量跑，避免 200 份全跑完了才發現提取規則寫錯了。

🎯 如果你經常要處理同類 PDF（比如每月的發票、每季度的報告），讓 AI 生成一個 Python 指令稿保存下來。以後直接跑指令稿，連 Prompt 都不用寫。

⚠️ 掃描件的 OCR 識別不是 100% 準確的，特別是手寫體、印章覆蓋的文字、模糊的掃描件。涉及金額和日期的關鍵資訊，一定要人工複核。

這篇案例對你有幫助嗎？