Processamento de PDF em lote

Contrato, relatório, nota — centenas de PDFs com um comando

PDF é um pesadelo

Centenas de PDF pra processar na mão, tabela copia errada, arquivo digitalizado não procura nada

Chefe fala "tira a data de assinatura e o valor de 200 contratos e joga em uma planilha". Você abre o primeiro, acha a data, copia, abre Excel, cola. Abre o segundo... passa a tarde inteira e só fez 40, faltam 160. Começa a questionar a vida.

Tabela em PDF é pior. Parece tudo bonitinho, mas copia e sai tudo amontoado. Coluna não bate, número junto com texto, formato some. Gasta mais tempo consertando formato do que digitando na mão.

Aí tem arquivo escaneado. Cliente manda monte de nota fiscal escaneada, o texto dentro não tem como selecionar, quanto mais procurar. Fica digitando número por número. Termina, vê que errou a terceira nota, precisa revisar tudo de novo.

OpenClaw processa PDF em lote: extrai, junta, lê tudo de uma vez

OpenClaw resolve os três problemas chatos de PDF:

1. Extração em lote — Fala "pega data, valor, empresa dos contratos", centenas de PDF são lidos em segundo, resultado sai como planilha.
2. Leitura de tabelas — Tabela do PDF vira Excel, coluna reta, número é número, texto é texto, não fica bagunçado.
3. Leitura com OCR — Arquivo escaneado também funciona. Depois de ler, consegue procurar, extrair, traduzir.

200 contratos pra extrair info? Antes levava três dias, agora é um Prompt, toma um café que volta pronto.

3 Prompts de processamento de PDF, copia e manda

Extração, OCR, junção de lote — os PDFs mais comuns todos cobertos.

Extrair informações-chave de contratos em lote Instrução de ouro
Pega 50 PDFs de contrato que tá nessa pasta, extrai essas infos:

Campos que precisa:
1. Número do contrato
2. Data de assinatura
3. Valor (com moeda)
4. Nome da empresa A
5. Nome da empresa B
6. Prazo (data início e fim)
7. Condição de pagamento (se tem)

Formato de saída:
- Uma tabela com um contrato por linha
- Se não achar um campo, marca como "não encontrado"
- No final, totaliza: quantos contratos, valor total, primeiro e último contrato

Obs: tem escaneado (PDF imagem), vai precisar ler com OCR antes de extrair.
Advogado, jurídico, compras usam isso todo dia. Esse Prompt deixa bem claro que precisa extrair, IA não perde info. Se teu contrato tem outro campo importante (tipo multa por atraso), joga na lista.
Tabela escaneada vira Excel Amigável pra iniciantes
Lê esse PDF escaneado e tabela vira Excel.

Precisa:
1. Usa OCR pra ler tudo da tabela
2. Mantém a estrutura de linhas e colunas
3. Coluna de número vira número formato (não texto)
4. Coluna de data padroniza como YYYY-MM-DD
5. Se tem célula merged, mantém como era
6. Quando tem dúvida de leitura, marca com [?]

Arquivo PDF: [upload]

Saída: Excel com tabela, primeira linha é cabeçalho.
Tabela escaneada em Excel antes era software OCR profissional, caro e nem sempre funciona bem. Agora IA tá muito bom em ler impresso, especialmente de máquina. Manuscrito é mais fraco, mas tem jeito.
Juntar PDF em lote + ordena + numera página Técnica avançada
Junta esses PDFs aqui, seguindo regra:

1. Ordena por número do arquivo
   Exemplo: relatorio_01.pdf → relatorio_02.pdf → relatorio_10.pdf
   (ordena por número, não por letra, 10 vem depois de 2)

2. Depois de juntar:
   - Coloca número de página no canto inferior direito (Página X de Y)
   - Gera página de índice no começo
   - Índice tem nome do arquivo original + página onde começa

3. Resultado:
   - Um PDF com tudo juntado
   - Um arquivo de log com qual arquivo virou qual página, quantos PDFs

Me faz um script Python (usa PyPDF2 ou reportlab).
Esse Prompt sai com script Python, roda na sua máquina. Bom pra quem toda hora precisa juntar PDF. Salva esse script, próxima vez roda direto, não fica pedindo Prompt de novo.

Processamento de PDF: OpenClaw vs Adobe Acrobat

OpenClaw
  • Lote é a força — centenas de PDF processadas com um comando
  • Regra de extração é totalmente customizável, extrai o que quiser
  • Consegue gerar script, reutiliza pra tudo que é parecido depois
  • OCR + extração + conversão tudo junto num lugar
VS
Adobe Acrobat Pro
  • Edição é bem poderosa — muda texto, imagem, layout
  • OCR muito preciso, especialmente inglês
  • Lote existe mas é complicado, precisa aprender Action Wizard
  • Assinatura anual, não é barato. Extração é limitada.

Cenário real

Escritório de advocacia: due diligence de 200 contratos
Tem negócio de fusão/aquisição, precisa revisar 200 PDFs de contrato. Advogado precisa extrair cláusula-chave, vencimento, risco. Método tradicional, dois assistentes gastam uma semana inteira.
Jeito OpenClaw
Escreve Prompt de extração (número, data, valor, cláusula importante, risco), manda os 200 PDF em lote. Saí em 2 horas, tabela pronta. Advogado revisa as 15 que IA marcou como tendo risco, due diligence sai de uma semana em um dia e meio.
Jeito na mão
Dois assistentes lendo um por um, 20-30 páginas cada, por volta do 80º contrato a visão fica embaçada. Perde dois termos legais importantes, descobre antes de fechar, quase prejudica o negócio. Além de ficar acordado até duas da manhã, próximo dia também tá mal.

Algumas dicas práticas

💡 Antes de rodar em 200, testa com 2-3 PDFs. Vê se tá extraindo certo. Confirma que tá bom aí roda em lote, evita mandar rodar 200 e depois descobrir que o Prompt tá errado.
🎯 Se todo mês vem PDF do mesmo tipo (nota fiscal, relatório), deixa IA fazer um script Python salvo aí. Próxima vez só roda o script, Prompt nem precisa escrever de novo.
⚠️ OCR de escaneado não é 100% certeiro, especialmente escrita à mão, arquivo com carimbo cobrindo, ou scan ruim. Número e data sendo chave de verdade, sempre revisa na mão depois.
Esse caso foi útil pra você?