PDF バッチ処理
契約書、レポート、請求書——数百の PDF を一つの指示で完了
PDF の悪夢
リーダーが「この 200 個の契約書の締約日と金額をすべて 1 つの表にまとめて」と言いました。最初のファイルを開いて内容を見て、日付を見つけてコピーし、Excel に切り替えてペーストします。2 つ目のファイルを開く…… 午後を半日費やしても 40 個しか処理できず、残り 160 個があります。人生について疑問に思い始めます。
PDF の表はもっとひどいです。見た目はきちんと整列しているように見えますが、コピーすると——全てグチャグチャです。列が合わない、数字とテキストが混在している、フォーマットが全部なくなっている。フォーマットを修正するのに、手動入力より時間がかかってしまいます。
さらに、スキャン済みファイルもあります。顧客から一連のスキャン済み PDF 請求書が送られてきて、その中のテキストは選択できず、検索はなおさらできません。画面を見ながら 1 つずつ数字を手で入力する必要があります。完成後、3 つ目の請求書の金額を誤って読み、再度チェックする必要があります。
OpenClaw は PDF の 3 つの大きなトラブルを解決できます:
1. バッチ情報抽出 ——「これらの契約書から日付、金額、甲方を抽出して」と指示すれば、数百の PDF が自動で扫一遍され、結果は直接表形式で出力されます。
2. 表認識 ——PDF 内の表が認識され、Excel に変換され、列が揃えられ、数字は数字、テキストはテキストで、手動でフォーマットを修正する必要がありません。
3. OCR 認識 ——スキャン済みファイルも処理できます。テキスト認識後、検索、抽出、翻訳ができます。
200 個の契約書の情報抽出? 以前は 3 日かかりましたが、今は 1 つの指示で、コーヒーを飲んで戻ってくれば完了です。
3 つの PDF 処理 Prompt、コピーして直接使用
情報抽出、OCR 変換、バッチ統合——最も一般的な PDF 操作がすべてカバーされています。
このフォルダ内の 50 個の PDF 契約書から、以下の情報を抽出してください:
抽出する項目:
1. 契約番号
2. 締約日
3. 契約金額(通貨を含む)
4. 甲方の名称
5. 乙方の名称
6. 契約期間(開始日と終了日)
7. 支払い条件(ある場合)
出力フォーマット:
- 表を生成、各契約書を 1 行に
- 契約書内で特定の項目が見つからない場合は、「見つかりません」とマーク
- 最後に統計:契約書の総数、総金額、最早/最遅締約日
注意:一部の契約書はスキャン済み(画像 PDF)で、OCR 認識後に抽出する必要があります。
このスキャン済み PDF 表を認識して Excel に変換してください。
要件:
1. OCR で表内のすべてのテキストと数字を認識
2. 元の表の行列構造を保持
3. 数字列を数字形式に認識(テキストに変更しない)
4. 日付列を YYYY-MM-DD 形式に統一
5. 統合セルがある場合は、元のまま保持
6. 認識結果が不確かな場所は [?] で標注
PDF ファイル:[ファイルを アップロード]
出力:Excel フォーマット、最初の行はヘッダー。
これらの PDF ファイルをバッチ統合し、以下の要件があります:
1. ソートルール:ファイル名の数字部分で昇順にソート
例:report_01.pdf → report_02.pdf → report_10.pdf
(注意:文字ソートではなく数字ソート、10 は 2 の後ろ)
2. 統合後処理:
- 各ページの右下隅にページ番号を追加(フォーマット:第 X ページ / 共 Y ページ)
- 統合後の PDF の最初に目次ページを生成
- 目次には各元のファイルのファイル名と対応する開始ページ番号が含まれます
3. 出力:
- 統合後の PDF ファイル
- ログファイル、どのファイルを統合したか、順序、各ファイルのページ数を記録
この機能を実装する Python スクリプト(PyPDF2 または reportlab を使用)を提供してください。
PDF 処理:OpenClaw vs Adobe Acrobat
- バッチ情報抽出は得意——数百の PDF を一つの指示で処理
- 抽出ルールは完全にカスタマイズ可能、どのフィールドでも抽出可能
- 自動化スクリプトを生成でき、同類タスクは後で一発で再利用可能
- OCR + 情報抽出 + フォーマット変換一站式完成
- PDF 編集機能が強力——テキストを変更、画像を変更、レイアウトを変更できます
- OCR 認識精度が非常に高く、特に英語ドキュメント
- バッチ処理機能があるが操作が複雑で、Action Wizard を学ぶ必要があります
- 年間サブスクリプション、価格が安くはない;情報抽出機能が限定的