웹 데이터 채집

크롤러 배울 필요 없어 — AI더러 뭘 원하냐고 하면 스크립트 생성해줄 거야

데이터 긁으려니 왜 이렇게 힘들어

크롤러 못 짜고, 반봉 시스템은 뚫리지 않고, 데이터는 엉망

그냥 웹 페이지 데이터를 정렬하려는 거 아니야? 튜토리얼 찾으니: requests, BeautifulSoup, XPath, CSS 선택기…… 단어만 해도 일반인은 포기할 판이야.

겨우 튜토리얼 따라 돌렸더니 다음 날 웹사이트가 Cloudflare 인증 추가했고, 내 IP는 차단되고, 인증 코드 팝업이 계속 떠. 완전 끝.

데이터 긁었어도 형식이 난장판 — HTML 태그가 섞여있고, 가격은 통화 기호가 붙어있고, 날짜 형식은 4~5가지가 섞여있어. 데이터 정제가 긁기보다 오래 걸려. 진짜 답답해.

OpenClaw: 넌 뭘 원하는 데이터라고 해줘, 난 스크립트로 긁어올게

크롤러 기술을 배울 필요 없어. 그냥 OpenClaw에 어느 웹페이지를 긁을 건지, 어떤 필드를 원하는지 말해. 자동으로 페이지 구조 분석하고 완성된 크롤러 스크립트 만들어줄 거야.

반봉? 무작위 대기, User-Agent 바꾸기, 동적 로딩 처리하는 법을 알아. 페이지 넘기기? 몇 페이지를 원하냐고 하면 자동으로 페이지네이션 로직 완성해.

긁은 데이터는 바로 깔끔한 구조화 형식: CSV, JSON, Excel 골라. 웹사이트가 개편되어도 다시 돌리면 새로운 페이지 구조에 자동 맞춤.

채집 Prompt 3개, 가져가서 바로 써

초급부터 고급까지, 가장 흔한 채집 시나리오 다 커버.

두메이 Top250 영화 데이터 채집 황금 명령어

두메이 Top 250 영화 데이터 캡처해줄래:

URL: https://movie.douban.com/top250

필요한 필드:
- 영화명 (한글명 + 영문명)
- 별점
- 평가자 수
- 감독
- 개봉 연도
- 한줄평

요구 조건:
1. 자동 페이지 넘김, 250개 영화 다 캡처
2. 요청 간격 2~3초, 너무 빠르지 말기
3. 평가자 수는 숫자만, "명 평가" 같은 텍스트는 빼기
4. CSV로 저장, 별점 높은 순으로 정렬

두메이는 크롤링 연습 정석이야. 페이지 구조가 안정적이고 반봉이 심하지 않아. 빈도 조절은 꼭 해. 저쪽 서버에 피해주면 안 되니까.

경쟁사 가격 주기적 모니터링 고급 팁

경쟁사 가격 감시 스크립트 만들어줄래:

감시 대상 (5개 경쟁사 가격 페이지):
- [경쟁사A 가격 페이지 URL]
- [경쟁사B 가격 페이지 URL]
- [경쟁사C 가격 페이지 URL]
- [경쟁사D 가격 페이지 URL]
- [경쟁사E 가격 페이지 URL]

기능 요구:
1. 매일 아침 9시 각 경쟁사 현재 가격 자동 캡처
2. 어제 가격이랑 비교, 변화가 있으면 빨강 표시
3. 로컬 SQLite에 데이터 저장, 나중에 조회 가능하게
4. 매주 가격 변화 추세 그래프 생성 (matplotlib)
5. 가격 변동이 5%를 넘으면 알람 로그 출력

schedule로 스케줄, requests + BeautifulSoup로 캡처. 예외 처리 필수 — 네트워크 타임아웃이나 페이지 변화에도 안 터지도록.

마케팅팀이 장기간 경쟁사 동향 추적할 때 좋아. 스크립트 생성 후 서버에 올려 crontab으로 돌리면 돼. 경쟁사가 많으면 AI더러 멀티스레딩 추가하라고 하면 채집 속도가 몇 배.

웹페이지 표 한번에 빼내기 초보자 친화

이 웹페이지의 표 데이터 빼내줄래:

URL: [웹페이지 주소 붙여넣기]

요구 조건:
1. 페이지 안의 모든 표 자동 인식
2. 표 데이터 Excel 형식으로 정리
3. 각 표별로 시트 분리, 시트명은 표 제목
4. 표 제목 유지, 데이터 형식 자동 인식 (숫자, 날짜, 백분율)
5. ~/data/extracted_tables.xlsx로 저장

가장 간단한 채집 작업이야. 보고서나 통계 페이지의 표 데이터 빠르게 뽑아낼 수 있어. 대부분 웹 표는 pandas의 read_html 한 줄이면 끝, 코드 간단해.

데이터 채집: OpenClaw vs 팔팔이/기차장

시각화 채집기는 배우기 빠르지만 천장이 낮지.

OpenClaw

한국말로 요구사항 설명, AI가 자동 크롤러 코드 생성
코드 투명, 로직 수정하고 싶으면 언제든 수정
JS 동적 렌더링, 로그인 상태, 여러 반봉 처리 가능
데이터 정제와 채집 한번에, 이중 처리 안 해도 돼
스크립트 서버에 바로 배포, 정시 작업 실행, 추가 비용 없음

팔팔이 / 기차장

시각화 클릭으로 설정하니 배우기 빠름
복잡한 페이지는 설정이 안 되네
JS 렌더링 페이지는 그냥 포기
데이터 정제 능력 약함, 뽑은 뒤도 손봐야 함
정시 작업은 유료 버전만, 1년에 몇천원대

크롤러 안전 설정

크롤러 돌리기 전에 이 안전 설정들을 확인해.

크롤러 보안 설정 (.openclaw.yml)

# 크롤러 프로젝트 추천 설정
sandbox:
  network: true               # 네트워크 접근 허용
  timeout: 300                # 채집은 몇 분 걸릴 수도
  allowed_paths:
    - ~/data/                 # 데이터 저장 폴더

scraping:
  respect_robots_txt: true    # robots.txt 규칙 따르기
  request_delay: 2            # 요청 간격 (초), 너무 빠르지 말기
  max_retries: 3              # 실패 재시도 횟수
  user_agent_rotate: true     # User-Agent 자동 바꾸기
  timeout_per_request: 30     # 단일 요청 타임아웃 (초)

python:
  packages:
    - requests
    - beautifulsoup4
    - selenium                # JS 렌더링 페이지 필요할 때
    - pandas                  # 데이터 정리와 내보내기

합법 안내

⚠️ 데이터 채집할 땐 법률과 웹사이트 이용약관 꼭 따르자.
1. 대상 사이트의 robots.txt 확인, 금지된 경로 건드리지 말기.
2. 채집 빈도 조절, 저쪽 서버 마비시키지 말기.
3. 개인 정보 데이터 (전화, 이메일) 주의, 합법 근거 확인
4. 뽑은 데이터 상업 목적 사용하기 전에, 법무팀 상담.

💡 데이터양이 적으면 (백 줄 미만) OpenClaw 샌드박스에서 끝낼 수 있어. 데이터 많거나 오래 실행해야 하면, AI더러 스크립트 생성하게 하고 서버에 배포.

이 사례가 도움이 됐나요?