PDF 대량 처리

계약서, 보고서, 영수증 —— 수백 개 PDF 한 번에 처리

PDF의 악몽

수백 개 PDF 손으로 처리, 표 복사해서 다 엉망, 스캔본은 검색 불가

리더가 「이 200개 계약서에서 서명 날짜하고 금액을 모두 정리해 한 장으로 만들어」라고 해. 첫 번째 열고 날짜 찾고 복사, Excel로 가서 붙여넣고. 두 번째 열고… 오후 내내 해서 40개밖에 못 했어, 아직 160개 남았어. 인생을 의심하기 시작해.

PDF의 표는 더 진짜. 보기엔 깔끔하게 정렬되어 있는데 복사하면 —— 다 뭉쳐 버려. 열이 안 맞고, 숫자하고 글자가 섞여 있고, 포맷이 다 없어져. 포맷 수정하는 데 손으로 입력하는 것보다 더 많은 시간을 써.

스캔본도 있어. 거래처가 보낸 스캔 영수증 PDF인데, 안 글자는 선택도 안 되고, 검색은 더더욱 안 돼. 화면 보고 숫자를 일일이 손으로 쳐야 해. 다 치고 보니 세 번째 영수증 금액을 잘못 봤어, 다시 확인해야 해.

OpenClaw 대량 처리 PDF: 추출, 병합, 인식 일괄 처리

OpenClaw가 PDF의 세 가지 골치 아픈 일을 처리해 줄 수 있어:

1. 대량 정보 추출 —— 「이 계약서들에서 날짜, 금액, 을측 이름 추출해」라고 말하면, 수백 개 PDF 자동으로 한 번에 스캔, 결과 바로 표로 출력.
2. 표 인식 —— PDF의 표를 인식해서 Excel로 변환, 열 정렬, 숫자는 숫자로, 글자는 글자로, 포맷 수정할 필요 없어.
3. OCR 인식 —— 스캔본도 처리 가능. 글자 인식 후에는 검색할 수 있고, 추출할 수 있고, 번역도 가능.

200개 계약서 정보 추출? 전에는 3일 걸렸어, 지금은 한 명령어, 커피 마시고 돌아오면 끝.

3가지 PDF 처리 Prompt, 복사해서 쓰면 돼

정보 추출, OCR 변환, 대량 병합 —— 제일 흔한 PDF 작업 다 커버.

대량 계약서 핵심 정보 추출 황금 지침
폴더의 50개 PDF 계약서에서 아래 정보를 추출해:

추출할 필드:
1. 계약 번호
2. 서명 날짜
3. 계약 금액 (화폐 포함)
4. 을 회사명
5. 을 회사명
6. 계약 기간 (시작 및 종료 날짜)
7. 결제 조건 (있으면)

출력 포맷:
- 표 생성, 계약서마다 한 행
- 어떤 필드를 계약서에서 못 찾으면 「미발견」으로 표시
- 마지막 통계: 전체 계약서 수, 총 금액, 가장 이른/늦은 서명 날짜

주의: 어떤 계약서는 스캔본 (이미지 PDF)일 수 있으니, OCR 인식 후 추출 필요.
변호사, 법무, 구매 담당자가 가장 많이 쓰는 상황. 이 Prompt는 추출할 필드를 명확히 해서 AI가 빼먹지 않아. 계약서에 다른 핵심 필드가 있으면 (예: 위약금 조항), 그냥 추가하면 돼.
스캔 PDF 표 Excel로 변환 초보자 친화적
이 스캔 PDF 표를 인식해서 Excel로 바꿔.

요구 사항:
1. OCR로 표의 모든 글자와 숫자 인식
2. 원본 표의 행·열 구조 유지
3. 숫자 열을 숫자 포맷으로 인식 (글자 아님)
4. 날짜 열을 YYYY-MM-DD로 통일
5. 병합된 셀이 있으면 원래대로 유지
6. 인식이 확실하지 않은 부분은 [?]로 표시

PDF 파일: [파일 업로드]

출력: Excel 포맷, 첫 행은 헤더.
스캔본을 Excel로 바꾸는 건 전에는 고가의 OCR 소프트웨어를 써야 했는데, 비싸고 좋지도 않아. 지금 AI의 인식율은 이미 굉장히 높아, 특히 인쇄된 글씨. 손글씨는 정확도가 좀 낮으니까 검사는 반드시 할 것.
대량 PDF 병합 + 정렬 + 페이지 번호 고급 팁
이 PDF 파일들을 대량 병합, 요구 사항:

1. 정렬 규칙: 파일명의 숫자 부분으로 오름차순 정렬
   예: report_01.pdf → report_02.pdf → report_10.pdf
   (글자 정렬이 아니라 숫자 정렬, 10이 2 뒤에)

2. 병합 후 처리:
   - 각 페이지 오른쪽 아래 페이지 번호 추가 (포맷: 제X페 / 총 Y페)
   - 병합된 PDF 앞에 목차 페이지 생성
   - 목차는 각 원본 파일명과 시작 페이지 번호 포함

3. 출력:
   - 병합된 PDF 파일
   - 로그 파일, 어떤 파일들을 병합했고 순서, 각 파일의 페이지 수 기록

이 기능을 구현하는 Python 스크립트 제공해 (PyPDF2 또는 reportlab 사용).
이 Prompt의 출력은 Python 스크립트야, 로컬에서 실행하면 돼. PDF를 자주 병합해야 하는 상황에 딱. 스크립트 저장해 두고 다음에 바로 써, AI에게 또 물어볼 필요 없어.

PDF 처리: OpenClaw vs Adobe Acrobat

OpenClaw
  • 대량 정보 추출은 전문 —— 수백 개 PDF 한 번에 한 명령어로
  • 추출 규칙 완전히 커스텀, 어떤 필드든 추출 가능
  • 자동화 스크립트 생성 가능, 나중에 같은 종류 작업 한 번에 복용
  • OCR + 정보 추출 + 포맷 변환 원스톱
VS
Adobe Acrobat Pro
  • PDF 편집 기능 강력 —— 글자 수정, 그림 수정, 레이아웃 수정 다 돼
  • OCR 인식 정확도 높음, 특히 영문 문서
  • 대량 처리 기능 있지만 조작 복잡, Action Wizard 배워야 함
  • 연 단위 구독, 가격 비싼 편; 정보 추출 능력 제한

실제 시나리오

로펌: 200개 계약서 실사
인수합병 프로젝트 실사를 하려고 하는데, 거래 상대가 200개가 넘는 PDF 계약서를 줬어. 변호사는 각 계약서에서 핵심 조항, 만료일, 위험 요소를 추출해야 해. 일반적인 방법이면 두 명의 변호사 보조가 꼬박 일주일을 해야 해.
OpenClaw 방법
추출 Prompt를 잘 쓰고 (계약 번호, 서명 날짜, 금액, 핵심 조항, 위험 조항), 200개 PDF를 대량 처리. 2시간이면 결과 나와, 자동으로 표로 정리돼. 변호사는 AI가 표시한 위험 조항 있는 15개 계약서만 중점 검토하면 돼, 실사 시간이 1주에서 1일 반으로 줄어들어.
완전 수작업 방법
두 명 보조가 계약서를 일일이 봐, 각 계약서 20~30페이지, 80번째까지 가면 눈이 흐려져. 중요한 관할권 조항 2개를 빠뜨려서, 거래 전에 발견해, 거래 진행이 거의 늦어질 뻔. 그리고 자정 두 시까지 야근, 다음날도 계속 봐야 해.

몇 가지 실용 팁

💡 정보를 뽑기 전에 먼저 2~3개 PDF로 테스트해, 추출 결과 맞는지 봐. 확인되면 대량으로 돌려, 200개를 다 실행하고 나서 추출 규칙을 잘못 썼다는 걸 알면 곤란해.
🎯 같은 종류의 PDF를 자주 처리하면 (예: 매달 영수증, 매분기 보고서), AI한테 Python 스크립트를 만들어달라고 해서 저장해 둬. 나중에 바로 스크립트 실행, Prompt 쓸 필요도 없어.
⚠️ 스캔본 OCR 인식은 100% 정확하지 않아, 특히 손글씨, 인장이 덮인 글씨, 흐릿한 스캔본. 금액하고 날짜 같은 중요 정보는 반드시 사람이 검수해.
이 사례가 도움이 됐나요?