Coleta de dado de página
Sem saber escrever scraper — fala pro IA qual dado quer, resto deixa ela fazer
Por que coletar dado é tão difícil
Só queria pegar dado da página e organizar, resultado procura tutorial: requests, BeautifulSoup, XPath, seletor CSS — só o jargão já desanima metade.
Consegue rodar seguindo tutorial, dia seguinte site colocou CloudFlare, IP tá bloqueado, captcha aparece, deu ruim.
Consegue baixar dado, formato é bagunça mesmo — tem campo com tag HTML, tem preço com símbolo de moeda, data tem 4 formato misturado. Limpeza de dado toma mais tempo que coleta, tá querendo desistir.
Não precisa aprender stack de web scraping, só fala pro OpenClaw qual página quer coleta, qual campo precisa, ele analisa estrutura sozinho, gera script completo de scraper.
Anti-scraping? Ele sabe: coloca delay aleatório, roda User-Agent diferente, processa carregamento dinâmico. Paginação? Fala quantas página quer e ele arruma lógica de página automático.
Dado coletado sai em formato organizado: CSV, JSON, Excel como quiser. Se site reformular, roda de novo, ele se adapta à estrutura nova.
3 prompt de coleta, pega e usa
Do iniciante ao avançado, toca em cenário mais comum de coleta.
Me coleta dado de filme Top 250 do IMDb:
URL: https://www.imdb.com/chart/top250/
Campo que precisa:
- Nome do filme (em inglês + em português se tiver)
- Nota de avaliação IMDb
- Número de pessoa que avaliou
- Diretor
- Ano de lançamento
- Frase curta de sinopse
Requisito:
1. Automático vira página, coleta 250 filme completo
2. Espera 2-3 segundo entre requisição, sem pressa
3. Número de avaliação tira só número, tira text "pessoas avaliaram"
4. Salva em arquivo CSV, ordena da nota mais alta pra mais baixa
Me escreve script de monitoramento de preço de concorrente:
Alvo de monitoramento (5 página de preço de concorrente):
- [URL de preço concorrente A]
- [URL de preço concorrente B]
- [URL de preço concorrente C]
- [URL de preço concorrente D]
- [URL de preço concorrente E]
Funcionalidade:
1. Automático coleta preço atual todo dia 9 da manhã
2. Compara com preço de ontem, se mudou marca em vermelho
3. Guarda em SQLite local, fácil de consulta depois
4. Toda semana gera gráfico de mudança de preço (matplotlib)
5. Se preço mudou mais de 5%, escreve aviso em log
Usa schedule pro cronometragem, requests + BeautifulSoup pra coleta.
Trata erro: timeout de rede ou página mudou não quebra script.
Me extrai dado de tabela dessa página:
URL: [cola link da página]
Requisito:
1. Automático acha todas tabela da página
2. Arruma dado em arquivo Excel
3. Cada tabela numa Sheet diferente, nome Sheet usa título da tabela
4. Guarda cabeçalho, reconhece formato de dado (número, data, porcentagem)
5. Salva em ~/data/extracted_tables.xlsx
Coleta de dado: OpenClaw vs Octoparse/WebKing
Ferramenta visual coleta fácil pra começar, mas limite é baixo.
- Fala requisito em português, IA gera código de scraper automático
- Código é público, quer mexer na lógica muda quando quiser
- Consegue lidar com JS renderizado, precisa login, todo tipo de anti-scraping
- Limpeza de dado junto com coleta, sem etapa 2, fácil
- Script roda direto em servidor pra tarefa agendada, sem custo
- Clicar pra configurar, inicio rápido demais
- Mas página complexa muita vez não consegue configurar
- Página que renderiza com JS vai dar ruim
- Limpeza de dado fraco, exporta precisa mexer mais
- Tarefa agendada é versão paga, custa muito por ano
Segurança em coleta de dado
Antes de rodar scraper, essas configuração de segurança merece atenção.
# Configuração recomendada pra projeto de scraping
sandbox:
network: true # Libera acesso à rede
timeout: 300 # Coleta pode levar tempo
allowed_paths:
- ~/data/ # Pasta pra guardar
scraping:
respect_robots_txt: true # Respeita robots.txt
request_delay: 2 # Intervalo entre requisição em segundo, sem pressa
max_retries: 3 # Tenta de novo se falha
user_agent_rotate: true # Muda User-Agent automático
timeout_per_request: 30 # Timeout por requisição em segundo
python:
packages:
- requests
- beautifulsoup4
- selenium # Pra página que renderiza JS
- pandas # Pra organizar e exportar
Lembrete de conformidade
1. Antes confirma robots.txt do site alvo, caminho que diz proibido não mexe.
2. Controla frequência de coleta, não derruba servidor de ninguém.
3. Se envolver dado pessoal (telefone, email) muito cuidado, só se tiver base legal.
4. Antes de usar dado coletado pra negócio, conversa com pessoal de lei.