PDF 대량 처리
계약서, 보고서, 영수증 —— 수백 개 PDF 한 번에 처리
PDF의 악몽
리더가 「이 200개 계약서에서 서명 날짜하고 금액을 모두 정리해 한 장으로 만들어」라고 해. 첫 번째 열고 날짜 찾고 복사, Excel로 가서 붙여넣고. 두 번째 열고… 오후 내내 해서 40개밖에 못 했어, 아직 160개 남았어. 인생을 의심하기 시작해.
PDF의 표는 더 진짜. 보기엔 깔끔하게 정렬되어 있는데 복사하면 —— 다 뭉쳐 버려. 열이 안 맞고, 숫자하고 글자가 섞여 있고, 포맷이 다 없어져. 포맷 수정하는 데 손으로 입력하는 것보다 더 많은 시간을 써.
스캔본도 있어. 거래처가 보낸 스캔 영수증 PDF인데, 안 글자는 선택도 안 되고, 검색은 더더욱 안 돼. 화면 보고 숫자를 일일이 손으로 쳐야 해. 다 치고 보니 세 번째 영수증 금액을 잘못 봤어, 다시 확인해야 해.
OpenClaw가 PDF의 세 가지 골치 아픈 일을 처리해 줄 수 있어:
1. 대량 정보 추출 —— 「이 계약서들에서 날짜, 금액, 을측 이름 추출해」라고 말하면, 수백 개 PDF 자동으로 한 번에 스캔, 결과 바로 표로 출력.
2. 표 인식 —— PDF의 표를 인식해서 Excel로 변환, 열 정렬, 숫자는 숫자로, 글자는 글자로, 포맷 수정할 필요 없어.
3. OCR 인식 —— 스캔본도 처리 가능. 글자 인식 후에는 검색할 수 있고, 추출할 수 있고, 번역도 가능.
200개 계약서 정보 추출? 전에는 3일 걸렸어, 지금은 한 명령어, 커피 마시고 돌아오면 끝.
3가지 PDF 처리 Prompt, 복사해서 쓰면 돼
정보 추출, OCR 변환, 대량 병합 —— 제일 흔한 PDF 작업 다 커버.
폴더의 50개 PDF 계약서에서 아래 정보를 추출해:
추출할 필드:
1. 계약 번호
2. 서명 날짜
3. 계약 금액 (화폐 포함)
4. 을 회사명
5. 을 회사명
6. 계약 기간 (시작 및 종료 날짜)
7. 결제 조건 (있으면)
출력 포맷:
- 표 생성, 계약서마다 한 행
- 어떤 필드를 계약서에서 못 찾으면 「미발견」으로 표시
- 마지막 통계: 전체 계약서 수, 총 금액, 가장 이른/늦은 서명 날짜
주의: 어떤 계약서는 스캔본 (이미지 PDF)일 수 있으니, OCR 인식 후 추출 필요.
이 스캔 PDF 표를 인식해서 Excel로 바꿔.
요구 사항:
1. OCR로 표의 모든 글자와 숫자 인식
2. 원본 표의 행·열 구조 유지
3. 숫자 열을 숫자 포맷으로 인식 (글자 아님)
4. 날짜 열을 YYYY-MM-DD로 통일
5. 병합된 셀이 있으면 원래대로 유지
6. 인식이 확실하지 않은 부분은 [?]로 표시
PDF 파일: [파일 업로드]
출력: Excel 포맷, 첫 행은 헤더.
이 PDF 파일들을 대량 병합, 요구 사항:
1. 정렬 규칙: 파일명의 숫자 부분으로 오름차순 정렬
예: report_01.pdf → report_02.pdf → report_10.pdf
(글자 정렬이 아니라 숫자 정렬, 10이 2 뒤에)
2. 병합 후 처리:
- 각 페이지 오른쪽 아래 페이지 번호 추가 (포맷: 제X페 / 총 Y페)
- 병합된 PDF 앞에 목차 페이지 생성
- 목차는 각 원본 파일명과 시작 페이지 번호 포함
3. 출력:
- 병합된 PDF 파일
- 로그 파일, 어떤 파일들을 병합했고 순서, 각 파일의 페이지 수 기록
이 기능을 구현하는 Python 스크립트 제공해 (PyPDF2 또는 reportlab 사용).
PDF 처리: OpenClaw vs Adobe Acrobat
- 대량 정보 추출은 전문 —— 수백 개 PDF 한 번에 한 명령어로
- 추출 규칙 완전히 커스텀, 어떤 필드든 추출 가능
- 자동화 스크립트 생성 가능, 나중에 같은 종류 작업 한 번에 복용
- OCR + 정보 추출 + 포맷 변환 원스톱
- PDF 편집 기능 강력 —— 글자 수정, 그림 수정, 레이아웃 수정 다 돼
- OCR 인식 정확도 높음, 특히 영문 문서
- 대량 처리 기능 있지만 조작 복잡, Action Wizard 배워야 함
- 연 단위 구독, 가격 비싼 편; 정보 추출 능력 제한