Procesamiento en lote de PDFs

Contratos, reportes, facturas —— cientos de PDFs con un comando

La pesadilla de los PDFs

Cientos de PDFs procesados manualmente, tablas copiadas que salen hechas un desastre, archivos escaneados sin opción de búsqueda

El jefe dice «extrae de estos 200 contratos la fecha de firma y el monto, todo en una hoja». Abres el primero, buscas la fecha, copias, cambias a Excel, pegas. Segundo archivo… después de media tarde apenas completaste 40, y quedan 160. Empiezas a dudar de tu existencia.

Las tablas en PDF son lo peor. Se ve bien formateado, pero cuando lo copias se convierte en un desastre. Las columnas no alinean, números con texto revueltos, todo el formato se pierde. Gastas más tiempo arreglando formato que si lo escribieras manualmente.

Y luego están los archivos escaneados. Clientes mandan montones de facturas en PDF escaneadas, el texto ni se puede seleccionar, mucho menos buscar. Solo queda escribir manualmente los números viendo la pantalla. Y después de terminar, te das cuenta que leíste mal el monto de la tercera factura, tienes que revisar todo de nuevo.

OpenClaw procesa PDFs en lote: extrae, fusiona, reconoce —— todo de una vez

OpenClaw te ayuda con los tres grandes dolores de cabeza con PDFs:

1. Extracción de información en lote —— dile «extrae de estos contratos: fecha, monto, partes», y automáticamente procesa cientos de PDFs y te da los resultados en tabla.
2. Reconocimiento de tablas —— reconoce tablas de PDF y las convierte a Excel, columnas alineadas, números son números, texto es texto, sin que tengas que ajustar formato.
3. OCR —— también procesa archivos escaneados. Después de reconocer el texto, puedes buscarlo, extraerlo, traducirlo.

¿200 contratos? Antes eran tres días, ahora un comando, vuelves con el café y está listo.

3 Prompts de procesamiento PDF, copiar y usar

Extracción de información, conversión OCR, fusión en lote —— los usos más comunes de PDFs, todos cubiertos.

Extracción en lote de información de contratos Instrucción dorada
De esta carpeta, extrae de los 50 PDFs de contratos la siguiente información:

Campos a extraer:
1. Número de contrato
2. Fecha de firma
3. Monto del contrato (con moneda)
4. Nombre de la parte A
5. Nombre de la parte B
6. Duración del contrato (fechas inicio-fin)
7. Términos de pago (si aplica)

Formato de salida:
- Genera una tabla, una fila por contrato
- Si no encuentras un campo, marca como «No encontrado»
- Al final, suma: cantidad de contratos, monto total, fecha más antigua/reciente

Importante: algunos contratos son escaneos (PDF de imagen), necesitas OCR antes de extraer.
Lo que usan constantemente abogados, legales, compras. Este Prompt es muy claro en qué campos extraer, el AI no se va a saltar nada. Si tus contratos tienen otros campos importantes (como cláusulas de multa), solo agrégalos.
PDF de tabla escaneado, convertir a Excel Amigable para principiantes
Convierte este PDF de tabla escaneado a Excel.

Requisitos:
1. Reconoce todos los textos y números con OCR
2. Mantén la estructura original de filas y columnas
3. Columnas numéricas como números (no texto)
4. Columnas de fecha con formato YYYY-MM-DD
5. Si hay celdas fusionadas, mantenlas como originales
6. Donde no estés seguro del reconocimiento, marca con [?]

Archivo PDF: [subir archivo]

Salida: formato Excel, primera fila es encabezado.
Antes convertir escaneos a Excel requería software OCR especializado, caro y difícil. Hoy los LLMs reconocen con altísima precisión, especialmente texto impreso. Para manuscrita baja un poco, revisa después.
Fusión en lote de PDFs + ordenar + numerar páginas Técnicas avanzadas
Fusiona estos PDFs, con estos requisitos:

1. Orden: por número en el nombre de archivo, ascendente
   Ejemplo: report_01.pdf → report_02.pdf → report_10.pdf
   (ordenar numéricamente, no alfabéticamente, 10 después de 2)

2. Después de fusionar:
   - Agrega número de página en esquina inferior derecha (formato: Página X / Total Y)
   - Crea tabla de contenidos al inicio
   - La tabla lista cada archivo original y su página inicial

3. Resultados:
   - PDF fusionado
   - Log de la operación (qué se fusionó, en qué orden, cuántas páginas)

Proporciona script Python (usa PyPDF2 o reportlab).
Este Prompt te da un script Python listo, lo corres en tu máquina. Perfecto para cuando necesitas fusionar PDFs regularmente. Guarda el script, la próxima vez lo ejecutas sin preguntar al AI.

Procesamiento PDF: OpenClaw vs Adobe Acrobat

OpenClaw
  • Extracción en lote es la fortaleza —— cientos de PDFs en un comando
  • Reglas de extracción totalmente personalizables, extrae lo que quieras
  • Puede generar scripts automáticos, reutilizables para tareas similares luego
  • OCR + extracción + conversión de formato, todo en uno
VS
Adobe Acrobat Pro
  • Edición de PDF muy poderosa —— cambiar texto, imágenes, formato
  • OCR muy preciso, especialmente con documentos en inglés
  • Procesamiento en lote existe pero es complicado, hay que aprender Action Wizard
  • Suscripción anual, cara; capacidades limitadas de extracción

Caso real

Despacho de abogados: diligencia debida de 200 contratos
Fusión y adquisición, necesitan diligencia debida, el otro lado manda 200+ PDFs de contratos. Los abogados necesitan extraer cláusulas clave, fechas de vencimiento, riesgos. El método clásico: dos asistentes legales una semana entera.
Solución OpenClaw
Escribe Prompt para extraer (número, firma, monto, cláusulas clave, riesgos), procesa los 200 PDFs. En 2 horas tienes los resultados en tabla. Los abogados revisan a fondo los 15 archivos que el AI marcó como riesgosos, reduciendo la diligencia debida de una semana a un día y medio.
Solución pura manual
Dos asistentes un archivo tras otro, cada contrato 20-30 páginas, al archivo 80 ya la vista se empieza a nublar. Se saltan dos cláusulas de jurisdicción importantes, se descubren justo antes del cierre, casi arruina todo. Y trabajan hasta las 2 AM, con más trabajo al día siguiente.

Algunos consejos prácticos

💡 Antes de extraer, prueba con 2-3 PDFs para ver si los resultados son correctos. Una vez confirmados, entonces procesa en lote, evita terminar 200 y que todo esté mal.
🎯 Si constantemente procesas el mismo tipo de PDF (facturas mensuales, reportes trimestrales), pídele al AI que genere un script Python y guárdalo. Próxima vez ejecutas el script directamente, sin escribir Prompt.
⚠️ OCR de escaneos no es 100% preciso, especialmente con manuscrita, sellos encima, borrosidad. Para montos y fechas que son críticos, SIEMPRE revisa manualmente.
¿Te sirvió este caso?