Scraping données web

Pas besoin d'apprendre scraping — dis à l'IA quoi tu veux, elle scrappe

Pourquoi c'est galère de scraper des données

Pas de compétences scraping, anti-scrape impossible à contourner, données en bazar total

T'as juste besoin d'organiser les données du site en une base, tu cherches un tuto : requests, BeautifulSoup, XPath, sélecteurs CSS… rien que la terminologie ça te rebute déjà.

Bon tu suis le tuto, ça marche, demain le site ajoute Cloudflare, ton IP se prend un ban, des captchas popup, direct c'est mort.

Même si tu attrapes les données, c'est dégueulasse — des champs avec du HTML, des prix avec symbole monnaie, les dates c'est trois formats mélangés. Le temps à nettoyer après c'est plus long que la collection, sérieusement ça tue.

OpenClaw : tu dis que tu veux scraper, il écrit le script

Besoin pas d'apprendre la stack scraping, dis juste à OpenClaw quel site tu veux scraper, quels champs tu veux, et il analyse la structure du site, boom script complet.

Anti-scrape ? Il connaît les délais random, User-Agent rotation, gestion du chargement dynamique. Pagination ? Dis combien de pages il en faut, logique de scroll auto.

Les données une fois sorties c'est clean en format structuré : CSV, JSON, Excel pick ton truc. Site change ? T'as besoin de le relancer, il adapte la structure auto.

3 Prompts de scraping, cop-colle et go

Débutants à avancé, scénarios classiques les plus courants.

Récupération data films Douban Top250 Commande or
Scrape les data des 250 films Douban Top :

URL: https://movie.douban.com/top250

Champs à scraper :
- Titre film (nom chinois + nom anglais)
- Score Douban
- Nombre d'avis
- Réalisateur
- Année sortie
- Courte critique

Exigences :
1. Pagination auto, scrap tous les 250
2. Attente 2-3 sec entre requêtes, lent
3. Nombre avis juste chiffres, enlever "personnes qui ont voté"
4. Sauvegarde CSV, sort par score haut vers bas
Douban c'est classique pour s'entraîner, structure stable, anti-scrape pas trop strict. Mais respecte la fréquence, cause pas de surcharge au serveur.
Monitoring prix concurrents en continu Technique avancée
Écris un script monitoring de prix concurrents :

Cibles (5 pages tarifs concurrents) :
- [URL page tarif concurrent A]
- [URL page tarif concurrent B]
- [URL page tarif concurrent C]
- [URL page tarif concurrent D]
- [URL page tarif concurrent E]

Fonctionnalités :
1. 9h du matin scrape auto les tarifs courants de chaque concurrent
2. Compare avec hier, change ? Marque en rouge
3. Stockage local SQLite pour future query
4. Graph tendance prix par semaine (matplotlib)
5. Prix change > 5% ? Alerte log

Utilise schedule pour timing, requests + BeautifulSoup pour scraping.
Handle exceptions : timeout ou page change = crash pas, log l'erreur.
Parfait pour le marketing track les concurrents longue durée. Scrip généré, balance sur serveur avec crontab et go. Plusieurs concurrents ? Dis à l'IA d'ajouter multithreading, perfo× plusieurs fois.
Tables web : extraction rapide Débutant-friendly
Extrait les données du tableau web :

URL: [Colle le lien]

Exigences :
1. Auto-identifie tous les tableaux
2. Organise en Excel
3. Chaque tableau = un onglet séparé, noms = titres
4. Garde entête, format data auto (chiffres, dates, %)
5. Sauvegarde ~/data/extracted_tables.xlsx
Task de scraping le plus simple, super pour vite attraper rapports, data tables d'un site. La plupart des tables web tu les sors avec juste pandas read_html, une ligne de code.

Scraping : OpenClaw vs Octoparse/Getdata

Les outils visuels, facile de rentrer, plafond vite atteint.

OpenClaw
  • Tu dis en français ce que tu veux, IA génère code scraping
  • Code complètement transparent, modifie la logique quand tu veux
  • Gère JS rendu, login session, tous les anti-scrape
  • Nettoyage et scraping même fois, zéro deuxième traitement
  • Script déploie direct serveur avec cron, zéro coût après
VS
Octoparse / Getdata
  • Point-clique interface, vrai facile de commencer
  • Mais pages compliqués tu peux pas config
  • Pages JS-rendu tu as pas de chance
  • Nettoyage data limité, export faut retraiter
  • Tâches timing faut payer version pro, quelques milliers par an

Config sécurité scraping

Avant de lancer les scripts, configure ces settings. De la base mais important.

Config sécurité scraping (.openclaw.yml)
# Recommandé pour projets scraping
sandbox:
  network: true               # allow internet
  timeout: 300                # collection peut prendre temps
  allowed_paths:
    - ~/data/                 # folder stockage data

scraping:
  respect_robots_txt: true    # suit robots.txt
  request_delay: 2            # délai entre requêtes (sec), pas trop vite
  max_retries: 3              # retry si fail
  user_agent_rotate: true     # switch User-Agent auto
  timeout_per_request: 30     # timeout par request (sec)

python:
  packages:
    - requests
    - beautifulsoup4
    - selenium                # pour JS-rendu pages
    - pandas                  # data org et export
Ce cas vous a aidé ?