Processamento de PDF em lote
Contrato, relatório, nota — centenas de PDFs com um comando
PDF é um pesadelo
Chefe fala "tira a data de assinatura e o valor de 200 contratos e joga em uma planilha". Você abre o primeiro, acha a data, copia, abre Excel, cola. Abre o segundo... passa a tarde inteira e só fez 40, faltam 160. Começa a questionar a vida.
Tabela em PDF é pior. Parece tudo bonitinho, mas copia e sai tudo amontoado. Coluna não bate, número junto com texto, formato some. Gasta mais tempo consertando formato do que digitando na mão.
Aí tem arquivo escaneado. Cliente manda monte de nota fiscal escaneada, o texto dentro não tem como selecionar, quanto mais procurar. Fica digitando número por número. Termina, vê que errou a terceira nota, precisa revisar tudo de novo.
OpenClaw resolve os três problemas chatos de PDF:
1. Extração em lote — Fala "pega data, valor, empresa dos contratos", centenas de PDF são lidos em segundo, resultado sai como planilha.
2. Leitura de tabelas — Tabela do PDF vira Excel, coluna reta, número é número, texto é texto, não fica bagunçado.
3. Leitura com OCR — Arquivo escaneado também funciona. Depois de ler, consegue procurar, extrair, traduzir.
200 contratos pra extrair info? Antes levava três dias, agora é um Prompt, toma um café que volta pronto.
3 Prompts de processamento de PDF, copia e manda
Extração, OCR, junção de lote — os PDFs mais comuns todos cobertos.
Pega 50 PDFs de contrato que tá nessa pasta, extrai essas infos:
Campos que precisa:
1. Número do contrato
2. Data de assinatura
3. Valor (com moeda)
4. Nome da empresa A
5. Nome da empresa B
6. Prazo (data início e fim)
7. Condição de pagamento (se tem)
Formato de saída:
- Uma tabela com um contrato por linha
- Se não achar um campo, marca como "não encontrado"
- No final, totaliza: quantos contratos, valor total, primeiro e último contrato
Obs: tem escaneado (PDF imagem), vai precisar ler com OCR antes de extrair.
Lê esse PDF escaneado e tabela vira Excel.
Precisa:
1. Usa OCR pra ler tudo da tabela
2. Mantém a estrutura de linhas e colunas
3. Coluna de número vira número formato (não texto)
4. Coluna de data padroniza como YYYY-MM-DD
5. Se tem célula merged, mantém como era
6. Quando tem dúvida de leitura, marca com [?]
Arquivo PDF: [upload]
Saída: Excel com tabela, primeira linha é cabeçalho.
Junta esses PDFs aqui, seguindo regra:
1. Ordena por número do arquivo
Exemplo: relatorio_01.pdf → relatorio_02.pdf → relatorio_10.pdf
(ordena por número, não por letra, 10 vem depois de 2)
2. Depois de juntar:
- Coloca número de página no canto inferior direito (Página X de Y)
- Gera página de índice no começo
- Índice tem nome do arquivo original + página onde começa
3. Resultado:
- Um PDF com tudo juntado
- Um arquivo de log com qual arquivo virou qual página, quantos PDFs
Me faz um script Python (usa PyPDF2 ou reportlab).
Processamento de PDF: OpenClaw vs Adobe Acrobat
- Lote é a força — centenas de PDF processadas com um comando
- Regra de extração é totalmente customizável, extrai o que quiser
- Consegue gerar script, reutiliza pra tudo que é parecido depois
- OCR + extração + conversão tudo junto num lugar
- Edição é bem poderosa — muda texto, imagem, layout
- OCR muito preciso, especialmente inglês
- Lote existe mas é complicado, precisa aprender Action Wizard
- Assinatura anual, não é barato. Extração é limitada.