Procesamiento en lote de PDFs
Contratos, reportes, facturas —— cientos de PDFs con un comando
La pesadilla de los PDFs
El jefe dice «extrae de estos 200 contratos la fecha de firma y el monto, todo en una hoja». Abres el primero, buscas la fecha, copias, cambias a Excel, pegas. Segundo archivo… después de media tarde apenas completaste 40, y quedan 160. Empiezas a dudar de tu existencia.
Las tablas en PDF son lo peor. Se ve bien formateado, pero cuando lo copias se convierte en un desastre. Las columnas no alinean, números con texto revueltos, todo el formato se pierde. Gastas más tiempo arreglando formato que si lo escribieras manualmente.
Y luego están los archivos escaneados. Clientes mandan montones de facturas en PDF escaneadas, el texto ni se puede seleccionar, mucho menos buscar. Solo queda escribir manualmente los números viendo la pantalla. Y después de terminar, te das cuenta que leíste mal el monto de la tercera factura, tienes que revisar todo de nuevo.
OpenClaw te ayuda con los tres grandes dolores de cabeza con PDFs:
1. Extracción de información en lote —— dile «extrae de estos contratos: fecha, monto, partes», y automáticamente procesa cientos de PDFs y te da los resultados en tabla.
2. Reconocimiento de tablas —— reconoce tablas de PDF y las convierte a Excel, columnas alineadas, números son números, texto es texto, sin que tengas que ajustar formato.
3. OCR —— también procesa archivos escaneados. Después de reconocer el texto, puedes buscarlo, extraerlo, traducirlo.
¿200 contratos? Antes eran tres días, ahora un comando, vuelves con el café y está listo.
3 Prompts de procesamiento PDF, copiar y usar
Extracción de información, conversión OCR, fusión en lote —— los usos más comunes de PDFs, todos cubiertos.
De esta carpeta, extrae de los 50 PDFs de contratos la siguiente información:
Campos a extraer:
1. Número de contrato
2. Fecha de firma
3. Monto del contrato (con moneda)
4. Nombre de la parte A
5. Nombre de la parte B
6. Duración del contrato (fechas inicio-fin)
7. Términos de pago (si aplica)
Formato de salida:
- Genera una tabla, una fila por contrato
- Si no encuentras un campo, marca como «No encontrado»
- Al final, suma: cantidad de contratos, monto total, fecha más antigua/reciente
Importante: algunos contratos son escaneos (PDF de imagen), necesitas OCR antes de extraer.
Convierte este PDF de tabla escaneado a Excel.
Requisitos:
1. Reconoce todos los textos y números con OCR
2. Mantén la estructura original de filas y columnas
3. Columnas numéricas como números (no texto)
4. Columnas de fecha con formato YYYY-MM-DD
5. Si hay celdas fusionadas, mantenlas como originales
6. Donde no estés seguro del reconocimiento, marca con [?]
Archivo PDF: [subir archivo]
Salida: formato Excel, primera fila es encabezado.
Fusiona estos PDFs, con estos requisitos:
1. Orden: por número en el nombre de archivo, ascendente
Ejemplo: report_01.pdf → report_02.pdf → report_10.pdf
(ordenar numéricamente, no alfabéticamente, 10 después de 2)
2. Después de fusionar:
- Agrega número de página en esquina inferior derecha (formato: Página X / Total Y)
- Crea tabla de contenidos al inicio
- La tabla lista cada archivo original y su página inicial
3. Resultados:
- PDF fusionado
- Log de la operación (qué se fusionó, en qué orden, cuántas páginas)
Proporciona script Python (usa PyPDF2 o reportlab).
Procesamiento PDF: OpenClaw vs Adobe Acrobat
- Extracción en lote es la fortaleza —— cientos de PDFs en un comando
- Reglas de extracción totalmente personalizables, extrae lo que quieras
- Puede generar scripts automáticos, reutilizables para tareas similares luego
- OCR + extracción + conversión de formato, todo en uno
- Edición de PDF muy poderosa —— cambiar texto, imágenes, formato
- OCR muy preciso, especialmente con documentos en inglés
- Procesamiento en lote existe pero es complicado, hay que aprender Action Wizard
- Suscripción anual, cara; capacidades limitadas de extracción