PDF バッチ処理

契約書、レポート、請求書——数百の PDF を一つの指示で完了

PDF の悪夢

数百の PDF を手動処理、表をコピーすると全てグチャグチャ、スキャン済みファイルは検索不可

リーダーが「この 200 個の契約書の締約日と金額をすべて 1 つの表にまとめて」と言いました。最初のファイルを開いて内容を見て、日付を見つけてコピーし、Excel に切り替えてペーストします。2 つ目のファイルを開く…… 午後を半日費やしても 40 個しか処理できず、残り 160 個があります。人生について疑問に思い始めます。

PDF の表はもっとひどいです。見た目はきちんと整列しているように見えますが、コピーすると——全てグチャグチャです。列が合わない、数字とテキストが混在している、フォーマットが全部なくなっている。フォーマットを修正するのに、手動入力より時間がかかってしまいます。

さらに、スキャン済みファイルもあります。顧客から一連のスキャン済み PDF 請求書が送られてきて、その中のテキストは選択できず、検索はなおさらできません。画面を見ながら 1 つずつ数字を手で入力する必要があります。完成後、3 つ目の請求書の金額を誤って読み、再度チェックする必要があります。

OpenClaw で PDF を一括処理：抽出、統合、認識一気通貫

OpenClaw は PDF の 3 つの大きなトラブルを解決できます：

1. バッチ情報抽出 ——「これらの契約書から日付、金額、甲方を抽出して」と指示すれば、数百の PDF が自動で扫一遍され、結果は直接表形式で出力されます。
2. 表認識 ——PDF 内の表が認識され、Excel に変換され、列が揃えられ、数字は数字、テキストはテキストで、手動でフォーマットを修正する必要がありません。
3. OCR 認識 ——スキャン済みファイルも処理できます。テキスト認識後、検索、抽出、翻訳ができます。

200 個の契約書の情報抽出？以前は 3 日かかりましたが、今は 1 つの指示で、コーヒーを飲んで戻ってくれば完了です。

3 つの PDF 処理 Prompt、コピーして直接使用

情報抽出、OCR 変換、バッチ統合——最も一般的な PDF 操作がすべてカバーされています。

契約書の主要情報をバッチ抽出ゴールデン指示

このフォルダ内の 50 個の PDF 契約書から、以下の情報を抽出してください：

抽出する項目：
1. 契約番号
2. 締約日
3. 契約金額（通貨を含む）
4. 甲方の名称
5. 乙方の名称
6. 契約期間（開始日と終了日）
7. 支払い条件（ある場合）

出力フォーマット：
- 表を生成、各契約書を 1 行に
- 契約書内で特定の項目が見つからない場合は、「見つかりません」とマーク
- 最後に統計：契約書の総数、総金額、最早/最遅締約日

注意：一部の契約書はスキャン済み（画像 PDF）で、OCR 認識後に抽出する必要があります。

弁護士、法務、調達が最も使用するシナリオです。この Prompt は抽出する項目を明確にリストアップしているため、AI は漏れません。契約書に他の主要項目（例えば、違約金条項）がある場合は、追加するだけです。

スキャン PDF 表を Excel に変換初心者向け

このスキャン済み PDF 表を認識して Excel に変換してください。

要件：
1. OCR で表内のすべてのテキストと数字を認識
2. 元の表の行列構造を保持
3. 数字列を数字形式に認識（テキストに変更しない）
4. 日付列を YYYY-MM-DD 形式に統一
5. 統合セルがある場合は、元のまま保持
6. 認識結果が不確かな場所は [?] で標注

PDF ファイル：[ファイルを アップロード]

出力：Excel フォーマット、最初の行はヘッダー。

スキャン済みファイルを Excel に変換するために、以前は専門の OCR ソフトウェアを使用する必要があり、高くて使いやすくありませんでした。現在、AI の認識精度は既に非常に高くなっており、特に印刷文字です。手書き文字の場合、精度は低くなるため、チェックしてください。

PDF をバッチ統合 + ソート + ページ番号追加応用技法

これらの PDF ファイルをバッチ統合し、以下の要件があります：

1. ソートルール：ファイル名の数字部分で昇順にソート
   例：report_01.pdf → report_02.pdf → report_10.pdf
   （注意：文字ソートではなく数字ソート、10 は 2 の後ろ）

2. 統合後処理：
   - 各ページの右下隅にページ番号を追加（フォーマット：第 X ページ / 共 Y ページ）
   - 統合後の PDF の最初に目次ページを生成
   - 目次には各元のファイルのファイル名と対応する開始ページ番号が含まれます

3. 出力：
   - 統合後の PDF ファイル
   - ログファイル、どのファイルを統合したか、順序、各ファイルのページ数を記録

この機能を実装する Python スクリプト（PyPDF2 または reportlab を使用）を提供してください。

この Prompt の出力は Python スクリプト、ローカルで実行するだけです。PDF を頻繁に統合する必要がある場合に適しています。スクリプトを保存しておけば、次回は直接使用でき、AI に聞く必要がありません。

PDF 処理：OpenClaw vs Adobe Acrobat

OpenClaw

バッチ情報抽出は得意——数百の PDF を一つの指示で処理
抽出ルールは完全にカスタマイズ可能、どのフィールドでも抽出可能
自動化スクリプトを生成でき、同類タスクは後で一発で再利用可能
OCR + 情報抽出 + フォーマット変換一站式完成

Adobe Acrobat Pro

PDF 編集機能が強力——テキストを変更、画像を変更、レイアウトを変更できます
OCR 認識精度が非常に高く、特に英語ドキュメント
バッチ処理機能があるが操作が複雑で、Action Wizard を学ぶ必要があります
年間サブスクリプション、価格が安くはない；情報抽出機能が限定的

実際のシナリオ

法律事務所：200 個の契約書デューディリジェンス

M&A プロジェクトはデューディリジェンスを実施する必要があり、相手方は 200 以上の PDF 契約書を提供しました。弁護士はそれぞれの契約書から主要条項、満期日、リスクポイントを抽出する必要があります。従来のやり方では、2 人の弁護士アシスタントが 1 週間丸々かかります。

OpenClaw 方案

抽出 Prompt（契約番号、締約日、金額、主要条項、リスク条項）を作成し、200 個の PDF をバッチ処理します。2 時間で結果が出て、自動的に表に整理されます。弁護士はリスク条項とマークされた 15 個の契約書をチェックするだけで、デューディリジェンス時間は 1 週間から 1 日半に短縮されます。

完全手動方案

2 人の弁護士アシスタントが 1 つずつチェック、各契約書は 20～30 ページ、80 個目から目がかすんできます。2 つの重要な司法管轄条項を漏らし、決済の直前に発見され、取引進度全体に影響する可能性があります。さらに、深夜 2 時まで残業し、翌日もチェック続行する必要があります。

いくつかの実用的なアドバイス

💡 情報抽出の前に 2～3 個の PDF でテスト実行して、抽出結果が正しいか確認してください。確認後にバッチ実行し、200 個すべてが実行完了してから抽出ルールが間違っていることに気づくことを避けてください。

🎯 同じ種類の PDF を定期的に処理する必要がある場合（毎月の請求書、四半期報告書など）、AI に Python スクリプトを生成させて保存してください。今後は直接スクリプトを実行でき、Prompt さえ書く必要がありません。

⚠️ スキャン済みファイルの OCR 認識は 100% 正確ではなく、特に手書き、スタンプで覆われた文字、ぼやけたスキャン。金額と日付が関わる主要情報は、必ず人工でチェックしてください。

この記事は役に立ちましたか？