Web scraping automático
Sin aprender scraping — dile a la IA qué datos quieres, ella raspa
Por qué raspar datos es tan complicado
Solo quieres juntar datos de una web, buscas tutorial: requests, BeautifulSoup, XPath, selectores CSS... solo la terminología asusta. Media humanidad desiste de entrada.
Logras que funcione el tutorial, al día siguiente la web tiene Cloudflare, tu IP está bloqueada, captchas por doquier, game over.
Aunque bajes los datos, vienen hechos desorden — algunos campos con tags HTML, precios con símbolos de moneda, fechas en tres formatos distintos. Limpiar cuesta más que raspar, una tortura.
No necesitas saber scraping. Dile a OpenClaw qué web rascar y qué campos sacar, ella analiza la estructura automática y genera el script completo.
¿Anti-scraping? Sabe agregar delays aleatorios, rotar User-Agent, manejo dinámico. ¿Paginación? Dile cuántas páginas, ella se encarga. ¿JavaScript? Selenium lista.
Datos bajados ya salen limpios, formato estructurado: CSV, JSON, Excel a tu gusto. Web se rediseña también sin problema, ejecutas de nuevo, ella se adapta.
3 prompts para web scraping, úsalos ya
Desde principiante a avanzado, cubre lo más común.
Raspa datos de las Top 250 películas de Douban:
URL: https://movie.douban.com/top250
Campos a rascar:
- Nombre de película (chino + inglés)
- Puntuación Douban
- Número de calificaciones
- Director
- Año de estreno
- Una frase de resumen
Requisitos:
1. Autopaginación, raspa todas las 250
2. Cada petición con delay de 2-3 segundos, no muy rápido
3. Número de calificaciones sin el texto "personas evaluaron", solo números
4. Guarda como CSV, ordena por puntuación de mayor a menor
Escribe un script de monitoreo de precios de competencia:
Objetivos (5 URLs de precio de competencia):
- [URL competidor A]
- [URL competidor B]
- [URL competidor C]
- [URL competidor D]
- [URL competidor E]
Funcionalidades:
1. Raspa precio actual de cada competidor 9 AM diariamente
2. Compara con precio de ayer, si cambió márca en rojo
3. Guarda todo en SQLite local para consultas después
4. Una vez por semana genera gráfico de tendencia de precio (matplotlib)
5. Si el precio sube/baja >5%, log de alerta
Usa schedule para horarios, requests + BeautifulSoup para raspar.
Manejo de excepciones: timeout de red o cambio de estructura no rompan nada.
Raspa las tablas de esta web y sácalas:
URL: [pega el link]
Requisitos:
1. Busca automáticamente todas las tablas en la página
2. Ordena en formato Excel
3. Cada tabla en su Sheet, el nombre es el título de la tabla
4. Encabezados incluidos, tipos de datos automáticos (números, fechas, porcentajes)
5. Guarda en ~/data/extracted_tables.xlsx
Web scraping: OpenClaw vs software automático (8Legs, RoboTask)
Programas visuales son rápidos de aprender, pero techo bajo.
- Tecleas en español qué raspar, IA genera el script
- Código completamente visible, cambias lógica cuando quieras
- Maneja JS dinámico, sesiones de login, anti-scraping de todo tipo
- Limpieza y raspa juntas, no necesitas procesamiento después
- Script listo para deploying en servidor para tareas automáticas, cero costo extra
- Sí, se aprende rápido con cliqueos
- Páginas complejas casi nunca se dejan configurar
- Webs con JS rendering: ni hablar
- Limpieza de datos limitada, necesitas trabajo extra
- Tareas automáticas solo versión de pago, cuesta varios miles al año
Configuración de seguridad para web scraping
Antes de raspar, configura esto bien.
# Config recomendado para proyectos de scraping
sandbox:
network: true # Acceso a internet habilitado
timeout: 300 # Raspar puede tomar minutos
allowed_paths:
- ~/data/ # Carpeta de datos
scraping:
respect_robots_txt: true # Respeta robots.txt
request_delay: 2 # Espera entre peticiones (segundos)
max_retries: 3 # Reintentos si falla
user_agent_rotate: true # Rota User-Agent automático
timeout_per_request: 30 # Timeout por petición (segundos)
python:
packages:
- requests
- beautifulsoup4
- selenium # Para páginas con JS
- pandas # Procesamiento y exportación
Aviso de cumplimiento
1. Revisa robots.txt del sitio, no toques lo que prohibe.
2. Controla la velocidad de raspa, no colapses el servidor.
3. Datos personales (teléfono, email): mucho cuidado, asegúrate de tener derecho legal.
4. Datos raspados para negocio: consulta a legal antes.