Coleta de dado de página

Sem saber escrever scraper — fala pro IA qual dado quer, resto deixa ela fazer

Por que coletar dado é tão difícil

Não sabe escrever scraper, consegue contornar anti-scraping, dado fica bagunçado

Só queria pegar dado da página e organizar, resultado procura tutorial: requests, BeautifulSoup, XPath, seletor CSS — só o jargão já desanima metade.

Consegue rodar seguindo tutorial, dia seguinte site colocou CloudFlare, IP tá bloqueado, captcha aparece, deu ruim.

Consegue baixar dado, formato é bagunça mesmo — tem campo com tag HTML, tem preço com símbolo de moeda, data tem 4 formato misturado. Limpeza de dado toma mais tempo que coleta, tá querendo desistir.

OpenClaw: você fala qual dado quer, ele escreve script pra coletar

Não precisa aprender stack de web scraping, só fala pro OpenClaw qual página quer coleta, qual campo precisa, ele analisa estrutura sozinho, gera script completo de scraper.

Anti-scraping? Ele sabe: coloca delay aleatório, roda User-Agent diferente, processa carregamento dinâmico. Paginação? Fala quantas página quer e ele arruma lógica de página automático.

Dado coletado sai em formato organizado: CSV, JSON, Excel como quiser. Se site reformular, roda de novo, ele se adapta à estrutura nova.

3 prompt de coleta, pega e usa

Do iniciante ao avançado, toca em cenário mais comum de coleta.

Coleta de dado de filme Top 250 do IMDb Comando ouro

Me coleta dado de filme Top 250 do IMDb:

URL: https://www.imdb.com/chart/top250/

Campo que precisa:
- Nome do filme (em inglês + em português se tiver)
- Nota de avaliação IMDb
- Número de pessoa que avaliou
- Diretor
- Ano de lançamento
- Frase curta de sinopse

Requisito:
1. Automático vira página, coleta 250 filme completo
2. Espera 2-3 segundo entre requisição, sem pressa
3. Número de avaliação tira só número, tira text "pessoas avaliaram"
4. Salva em arquivo CSV, ordena da nota mais alta pra mais baixa

IMDb é prática clássica pra coleta, estrutura de página é estável, anti-scraping não é severo. Atenção no ritmo, não derruba servidor de ninguém.

Monitoramento de preço de concorrente com timer Dica avançada

Me escreve script de monitoramento de preço de concorrente:

Alvo de monitoramento (5 página de preço de concorrente):
- [URL de preço concorrente A]
- [URL de preço concorrente B]
- [URL de preço concorrente C]
- [URL de preço concorrente D]
- [URL de preço concorrente E]

Funcionalidade:
1. Automático coleta preço atual todo dia 9 da manhã
2. Compara com preço de ontem, se mudou marca em vermelho
3. Guarda em SQLite local, fácil de consulta depois
4. Toda semana gera gráfico de mudança de preço (matplotlib)
5. Se preço mudou mais de 5%, escreve aviso em log

Usa schedule pro cronometragem, requests + BeautifulSoup pra coleta.
Trata erro: timeout de rede ou página mudou não quebra script.

Bom pra departamento de marketing acompanhar concorrente a longo prazo. Script pronto joga em servidor, roda com crontab. Se concorrente for muito, pode deixar IA adicionar multithread, coleta fica muito mais rápida.

Tabela de página extraída rapidinho Amigo de iniciante

Me extrai dado de tabela dessa página:

URL: [cola link da página]

Requisito:
1. Automático acha todas tabela da página
2. Arruma dado em arquivo Excel
3. Cada tabela numa Sheet diferente, nome Sheet usa título da tabela
4. Guarda cabeçalho, reconhece formato de dado (número, data, porcentagem)
5. Salva em ~/data/extracted_tables.xlsx

Tarefa de coleta mais simples, bom pra coleta rápida de dado de relatório, tabela de página de estatística. Maioria tabela de web usa pandas read_html que resolve, é uma linha só.

Coleta de dado: OpenClaw vs Octoparse/WebKing

Ferramenta visual coleta fácil pra começar, mas limite é baixo.

OpenClaw

Fala requisito em português, IA gera código de scraper automático
Código é público, quer mexer na lógica muda quando quiser
Consegue lidar com JS renderizado, precisa login, todo tipo de anti-scraping
Limpeza de dado junto com coleta, sem etapa 2, fácil
Script roda direto em servidor pra tarefa agendada, sem custo

Octoparse / WebKing

Clicar pra configurar, inicio rápido demais
Mas página complexa muita vez não consegue configurar
Página que renderiza com JS vai dar ruim
Limpeza de dado fraco, exporta precisa mexer mais
Tarefa agendada é versão paga, custa muito por ano

Segurança em coleta de dado

Antes de rodar scraper, essas configuração de segurança merece atenção.

Configuração de segurança pra web scraping (.openclaw.yml)

# Configuração recomendada pra projeto de scraping
sandbox:
  network: true               # Libera acesso à rede
  timeout: 300                # Coleta pode levar tempo
  allowed_paths:
    - ~/data/                 # Pasta pra guardar

scraping:
  respect_robots_txt: true    # Respeita robots.txt
  request_delay: 2            # Intervalo entre requisição em segundo, sem pressa
  max_retries: 3              # Tenta de novo se falha
  user_agent_rotate: true     # Muda User-Agent automático
  timeout_per_request: 30     # Timeout por requisição em segundo

python:
  packages:
    - requests
    - beautifulsoup4
    - selenium                # Pra página que renderiza JS
    - pandas                  # Pra organizar e exportar

Lembrete de conformidade

⚠️ Coleta de dado: respeita lei e condição de uso do site.
1. Antes confirma robots.txt do site alvo, caminho que diz proibido não mexe.
2. Controla frequência de coleta, não derruba servidor de ninguém.
3. Se envolver dado pessoal (telefone, email) muito cuidado, só se tiver base legal.
4. Antes de usar dado coletado pra negócio, conversa com pessoal de lei.

💡 Dado pequeno (algumas centena) deixa OpenClaw rodar na caixa de areia mesmo. Dado grande, precisa rodar muito tempo, deixa OpenClaw gerar script, você roda em servidor seu.

Esse caso foi útil pra você?