Scraping données web
Pas besoin d'apprendre scraping — dis à l'IA quoi tu veux, elle scrappe
Pourquoi c'est galère de scraper des données
T'as juste besoin d'organiser les données du site en une base, tu cherches un tuto : requests, BeautifulSoup, XPath, sélecteurs CSS… rien que la terminologie ça te rebute déjà.
Bon tu suis le tuto, ça marche, demain le site ajoute Cloudflare, ton IP se prend un ban, des captchas popup, direct c'est mort.
Même si tu attrapes les données, c'est dégueulasse — des champs avec du HTML, des prix avec symbole monnaie, les dates c'est trois formats mélangés. Le temps à nettoyer après c'est plus long que la collection, sérieusement ça tue.
Besoin pas d'apprendre la stack scraping, dis juste à OpenClaw quel site tu veux scraper, quels champs tu veux, et il analyse la structure du site, boom script complet.
Anti-scrape ? Il connaît les délais random, User-Agent rotation, gestion du chargement dynamique. Pagination ? Dis combien de pages il en faut, logique de scroll auto.
Les données une fois sorties c'est clean en format structuré : CSV, JSON, Excel pick ton truc. Site change ? T'as besoin de le relancer, il adapte la structure auto.
3 Prompts de scraping, cop-colle et go
Débutants à avancé, scénarios classiques les plus courants.
Scrape les data des 250 films Douban Top :
URL: https://movie.douban.com/top250
Champs à scraper :
- Titre film (nom chinois + nom anglais)
- Score Douban
- Nombre d'avis
- Réalisateur
- Année sortie
- Courte critique
Exigences :
1. Pagination auto, scrap tous les 250
2. Attente 2-3 sec entre requêtes, lent
3. Nombre avis juste chiffres, enlever "personnes qui ont voté"
4. Sauvegarde CSV, sort par score haut vers bas
Écris un script monitoring de prix concurrents :
Cibles (5 pages tarifs concurrents) :
- [URL page tarif concurrent A]
- [URL page tarif concurrent B]
- [URL page tarif concurrent C]
- [URL page tarif concurrent D]
- [URL page tarif concurrent E]
Fonctionnalités :
1. 9h du matin scrape auto les tarifs courants de chaque concurrent
2. Compare avec hier, change ? Marque en rouge
3. Stockage local SQLite pour future query
4. Graph tendance prix par semaine (matplotlib)
5. Prix change > 5% ? Alerte log
Utilise schedule pour timing, requests + BeautifulSoup pour scraping.
Handle exceptions : timeout ou page change = crash pas, log l'erreur.
Extrait les données du tableau web :
URL: [Colle le lien]
Exigences :
1. Auto-identifie tous les tableaux
2. Organise en Excel
3. Chaque tableau = un onglet séparé, noms = titres
4. Garde entête, format data auto (chiffres, dates, %)
5. Sauvegarde ~/data/extracted_tables.xlsx
Scraping : OpenClaw vs Octoparse/Getdata
Les outils visuels, facile de rentrer, plafond vite atteint.
- Tu dis en français ce que tu veux, IA génère code scraping
- Code complètement transparent, modifie la logique quand tu veux
- Gère JS rendu, login session, tous les anti-scrape
- Nettoyage et scraping même fois, zéro deuxième traitement
- Script déploie direct serveur avec cron, zéro coût après
- Point-clique interface, vrai facile de commencer
- Mais pages compliqués tu peux pas config
- Pages JS-rendu tu as pas de chance
- Nettoyage data limité, export faut retraiter
- Tâches timing faut payer version pro, quelques milliers par an
Config sécurité scraping
Avant de lancer les scripts, configure ces settings. De la base mais important.
# Recommandé pour projets scraping
sandbox:
network: true # allow internet
timeout: 300 # collection peut prendre temps
allowed_paths:
- ~/data/ # folder stockage data
scraping:
respect_robots_txt: true # suit robots.txt
request_delay: 2 # délai entre requêtes (sec), pas trop vite
max_retries: 3 # retry si fail
user_agent_rotate: true # switch User-Agent auto
timeout_per_request: 30 # timeout par request (sec)
python:
packages:
- requests
- beautifulsoup4
- selenium # pour JS-rendu pages
- pandas # data org et export
Compliance reminder
1. Checker robots.txt du site, chemins où scrape interdite tu touches pas.
2. Rate limite, fais pas cracher le serveur.
3. Data perso (téléphone, email) extra attention, tu dois avoir le droit d'utiliser.
4. Data commerciale ? Parle à ton legal avant.