Traitement PDF en batch
Contrats, rapports, factures — des centaines de PDFs d'une seule commande
Le cauchemar des PDF
Le boss dit « sorts-moi la date et le montant des 200 contrats dans une table ». Tu ouvres le premier, trouves la date, copies, colles dans Excel. Deuxième… t'as passé tout l'aprèm juste pour 40, il t'en reste 160. Tu commences sérieusement à déprimer.
Les tableaux dans les PDF c'est l'enfer. Ça ressemble bien organisé à l'écran, mais tu copies ça sort en vrac. Les colonnes se décalent, les chiffres et le texte se mélangent, la mise en forme part en fumée. T'y passes plus de temps à réparer que si tu l'avais tapé à la main.
Et puis les scans. Des PDFs factures scannées, les caractères tu peux pas les sélectionner, encore moins les chercher. Tu dois regarder l'écran et taper chaque chiffre. T'as tapé le montant de la 3e facture en travers, tu dois tout revérifier.
OpenClaw règle les 3 problèmes majeurs des PDF :
1. Extraction d'infos en batch — dis-lui « sors la date, le montant, les parties de ces contrats », il scanne les 200 PDFs tout seul, résultat en table.
2. Reconnaissance de tableaux — les tableaux PDF reconnus et convertis en Excel, colonnes alignées, chiffres avec chiffres, texte avec texte, pas besoin de reparer la mise en forme.
3. OCR de scans — même les scans, il les reconnaît. Après OCR tu peux chercher, extraire, traduire.
200 contrats d'infos à extraire ? avant 3 jours de taf, maintenant une commande et un café plus tard c'est bon.
3 modèles Prompt de traitement PDF, copie c'est bon
Extraction d'infos, conversion OCR, fusion batch — tous les ops PDF courants couverts.
Extrais de ces 50 PDFs contrats du dossier les infos suivantes :
Champs à extraire :
1. Numéro de contrat
2. Date de signature
3. Montant du contrat (devise incluse)
4. Nom partie A
5. Nom partie B
6. Durée du contrat (dates début/fin)
7. Conditions de paiement (si présentes)
Format de sortie :
- Générer un tableau, une ligne par contrat
- Si un champ manque dans le contrat, marquer « non trouvé »
- Stats finales : nombre total, montant total, dates première/dernière signature
Note : certains contrats sont des scans (images en PDF), OCR puis extraction.
Convertis ce tableau PDF scanné en Excel.
Exigences :
1. OCR tous les caractères et chiffres du tableau
2. Garder la structure lignes/colonnes d'origine
3. Colonnes chiffres en format numérique (pas texte)
4. Colonnes dates unifiées YYYY-MM-DD
5. Cellules fusionnées gardées comme telles
6. Endroits incertains marqués [?]
Fichier PDF : [upload]
Résultat : format Excel, première ligne = en-têtes.
Fusionne ces PDFs en respectant :
1. Ordre : trier par la partie numérique des noms de fichiers
Exemple : report_01.pdf → report_02.pdf → report_10.pdf
(tri numérique, pas alphabétique, 10 après 2)
2. Après fusion :
- Numéroter chaque page bas droite (format : Page X / Total Y)
- Générer une page table des matières au début
- Table : nom original du fichier + page de début
3. Sortie :
- Le PDF fusionné
- Un log des fichiers fusionnés, ordre, pages par fichier
Donne un script Python (PyPDF2 ou reportlab).
Traitement PDF : OpenClaw vs Adobe Acrobat
- Extraire infos batch c'est la force — des centaines de PDF d'une seule commande
- Les règles d'extraction complètement personnalisables, extraire ce que tu veux
- Générer des scripts auto, réutiliser pour des tâches similaires plus tard
- OCR + extraction d'infos + conversion format, tout en un
- L'édition PDF puissante — changer texte, images, mise en forme
- OCR très précis, spécialement sur documents anglais
- Batch processing oui mais compliqué, faut apprendre l'Action Wizard
- Abonnement annuel, pas donné ; l'extraction d'infos limitée