PDF Batch Verarbeitung
Verträge, Berichte, Rechnungen — Hunderte PDFs ein Befehl erledigt
PDFs Albtraum
Vorgesetzter sagt „aus diesen 200 Verträgen alle Unterzeichnungsdaten und Beträge in eine Tabelle". Du öffnest das erste, findest das Datum, kopierst es, wechselst zu Excel, klebst es ein. Öffnest das zweite... nach einem ganzen Nachmittag hast du 40 geschafft, 160 noch zu gehen. Du fragst dich, ob das Leben Sinn hat.
Tabellen in PDF sind noch schlimmer. Sieht aufgeräumt aus, aber rauskopiert — alles verstopft zusammen. Spalten stimmen nicht, Zahlen und Text vermischt, Formatierung weg. Du brauchst mehr Zeit Formatierung zu reparieren als manuell einzugeben.
Dann noch gescannte Dateien. Kundin sendet einen Haufen gescannte PDF Rechnungen, die Schrift ist nicht auswählbar, von suchen keine Spur. Du musst jede Ziffer manuell abtippen. Nach Fertigstellung merkst du dass dritte Rechnung hat Fehler bei Betrag, musst nochmal prüfen.
OpenClaw kann drei große PDF Kopfschmerzen für dich lösen:
1. Batch Information Extraction — sag ihm „aus diesen Verträgen Datum, Betrag, Vertragspartner rausziehen", Hunderte PDFs automatisch durchsuchen, Ergebnisse direkt als Tabelle raus.
2. Tabellen-Erkennung — PDF Tabellen erkennen und zu Excel konvertieren, Spalten stimmen, Zahlen bleiben Zahlen, Text bleibt Text, keine manuelle Formatierung nötig.
3. OCR-Erkennung — gescannte Dateien auch möglich. Nach Text erkennen kann durchsucht, kann extrahiert, kann übersetzt werden.
200 Verträge Infos extrahieren? Früher 3 Tage nötig, jetzt ein Befehl, Kaffee trinken und fertig.
3 PDF Verarbeitungs Prompts, einfach kopieren und verwenden
Information Extraction, OCR Konvertierung, Batch Zusammenführung — alle häufigen PDF Operationen abgedeckt.
Diese 50 PDF Verträge in dem Ordner extrahieren folgende Infos:
zu extrahierende Felder:
1. Vertragsnummer
2. Unterzeichnungsdatum
3. Vertragsbetrag (mit Währung)
4. Vertragspartner A Name
5. Vertragspartner B Name
6. Vertragslaufzeit (Anfang bis Ende Datum)
7. Zahlungsbedingungen (falls vorhanden)
Ausgabeformat:
- Tabelle erstellen, ein Vertrag pro Zeile
- Falls Feld nicht gefunden, „Nicht gefunden" markieren
- Zum Schluss: Gesamtverträge, Gesamtbetrag, frühestes/spätestes Unterzeichnungsdatum
Hinweis: Manche Verträge sind gescannte (Bild PDFs), müssen OCR erkennen dann extrahieren.
Diese gescannte PDF Tabelle erkennen und zu Excel umwandeln.
Anforderungen:
1. OCR erkennt alle Schrift und Zahlen in der Tabelle
2. Original-Tabellenstruktur (Zeilen und Spalten) beibehalten
3. Zahlenspalten als Zahlenformat erkennen (nicht Text)
4. Datumsspalten einheitlich YYYY-MM-DD Format
5. Falls zusammengeführte Zellen, unverändert beibehalten
6. Erkennungsunsicherheit mit [?] markieren
PDF Datei: [Datei hochladen]
Ausgabe: Excel Format, erste Zeile ist Header.
Diese PDF Dateien batch zusammenführen, folgendermaßen:
1. Sortierungsregel: Nach Dateinamennummern aufsteigend sortieren
Beispiel: report_01.pdf → report_02.pdf → report_10.pdf
(Achtung: Numerische Sortierung, nicht alphabetisch, 10 kommt nach 2)
2. Nach Zusammenführung:
- Seitenzahl rechts unten auf jeder Seite (Format: Seite X von Y)
- Am Anfang der zusammengeführten PDF Inhaltsverzeichnis generieren
- Inhaltsverzeichnis: jede Originaldatei Name und entsprechende Anfangsseite
3. Ausgabe:
- Zusammengeführte PDF Datei
- Eine Log Datei: welche Dateien zusammengeführt wurden, Reihenfolge, Seitenanzahl pro Datei
Bitte Python Skript geben (mit PyPDF2 oder reportlab).
PDF Verarbeitung: OpenClaw vs Adobe Acrobat
- Batch Information Extraction ist Stärke — Hunderte PDFs ein Befehl
- Extraction Regeln komplett anpassbar, was auch immer rausziehen
- Kann automatisierte Skripte generieren, künftige ähnliche Aufgaben sofort wiedernutzbar
- OCR + Information Extraction + Format Umwandlung alles in einem
- PDF Bearbeitungsfunktionen sehr stark — Text ändern, Bilder ändern, Layout ändern
- OCR Erkennungsgenauigkeit sehr hoch, besonders englisch
- Batch Verarbeitung möglich aber kompliziert, braucht Action Wizard Lernen
- Jahres-Abo, nicht billig; Information Extraction Fähigkeit begrenzt