Web-Daten Scraping
Keine Scraper-Fähigkeiten? Sag AI welche Daten, Rest ist ihre Arbeit
Daten scrapen – warum ist das bloß so schwer
Du willst bloß Daten von der Seite sammeln, Google-Such sagt: requests, BeautifulSoup, XPath, CSS-Selektoren... bloß die Namen schrecken die Hälfte ab.
Endlich Tutorial durchgearbeitet und läufts, morgen hat die Seite Cloudflare-Verifizierung, IP geblockt, Captchas überall, game over.
Daten runtergeladen, totales Format-Chaos – HTML-Tags in Feldern, Preis mit Währungs-Symbol, Datums-Formate vier verschiedene Varianten. Daten-Bereinigung dauert länger als das Scraping selbst, echt frustrierend.
Nicht Scraping-Technik lernen, sondern OpenClaw sagen welche Seite, welche Felder – es analysiert automatisch die Struktur, schreibt fertigen Scraper.
Anti-Scraping? Es kennt Verzögerungen, User-Agent-Rotation, dynamische Seiten. Pagination? Sag wie viele Seiten, es regelt die Logik.
Gescrapte Daten direkt sauberes Format: CSV, JSON, Excel – deine Wahl. Seite ändert Design? Einfach nochmal laufen, es passt sich an.
3 Scraping-Prompts – ready to go
Von Anfänger bis fortgeschritten, die häufigsten Szenarien.
Scrape IMDb Top 250 Filme Daten:
URL: https://www.imdb.com/chart/top250/
Felder die du brauchst:
- Film-Titel (Deutsch + English)
- IMDb-Rating
- Bewertungs-Anzahl
- Regie
- Jahr
- Kurz-Rezension
Anforderungen:
1. Automatisch durch alle Seiten, alle 250 scrapen
2. Zwischen Anfragen 2-3 Sekunden Pause, nicht zu aggressiv
3. Bewertungs-Anzahl ohne "Bewertungen" Text, nur Zahl
4. Speicher als CSV, nach Rating absteigend sortiert
Schreib Konkurrenten-Preis-Monitor:
Überwachungs-Ziele (5 Konkurrenten Preis-Seiten):
- [Konkurrent A Preis-Seite URL]
- [Konkurrent B Preis-Seite URL]
- [Konkurrent C Preis-Seite URL]
- [Konkurrent D Preis-Seite URL]
- [Konkurrent E Preis-Seite URL]
Anforderungen:
1. Jeden Morgen 9 Uhr Konkurrenten-Preise scrapen
2. Mit Gestern vergleichen, Änderung rot markieren
3. Daten lokal in SQLite, später easy abfragen
4. Wöchentlich Trend-Grafik (matplotlib)
5. Preisänderung über 5% – Alarm-Log
Verwendung: schedule für Timer, requests + BeautifulSoup für Scraping.
Fehlerbehandlung einbauen – Netzwerk-Timeout oder Seiten-Änderung = nicht abstürzen.
Extrahiere die Tabellen-Daten von dieser Seite:
URL: [Link hier]
Anforderungen:
1. Alle Tabellen auf der Seite auto-erkennen
2. Daten in Excel sortieren
3. Jede Tabelle eins Sheet, Sheet-Name = Tabellen-Titel
4. Header behalten, Daten auto-format (Zahl, Datum, Prozent)
5. Speicher als ~/data/extracted_tables.xlsx
Daten-Scraping: OpenClaw vs. Web-Scraper-Software
Visuelle Scraper sind einfach, aber Decke niedrig.
- Deutsche Befehle, AI generiert Scraper-Code
- Code komplett transparent, Logik anpassen wenn nötig
- JavaScript-Rendering, Login-States, Anti-Scraping alles möglich
- Daten-Bereinigung mit scraping kombiniert – kein zweiter Schritt
- Skripts direkt auf Server für Cron-Jobs, Null Zusatz-Kosten
- Punkt-und-Klick Setup, Start wirklich schnell
- Komplexe Seiten? Oft nicht zu konfigurieren
- JavaScript-Rendering? Eher nicht
- Daten-Bereinigung dünn, muss danach nochmal
- Cron-Jobs kosten extra, pro Jahr paar tausend
Web-Scraper Sicherheit-Setup
Vor Scraping-Start – diese Safety-Einstellung konfigurieren.
# Scraping-Projekt Setup-Empfehlung
sandbox:
network: true # Internet-Zugriff erlaubt
timeout: 300 # Scraping kann Minuten brauchen
allowed_paths:
- ~/data/ # Daten-Verzeichnis
scraping:
respect_robots_txt: true # robots.txt respektieren
request_delay: 2 # Anfrage-Verzögerung (Sek), nicht zu schnell
max_retries: 3 # Retry bei Fehler
user_agent_rotate: true # User-Agent auto wechseln
timeout_per_request: 30 # Request-Timeout (Sek)
python:
packages:
- requests
- beautifulsoup4
- selenium # JavaScript-Seiten brauchen das
- pandas # Daten-Sortierung und Export
Compliance-Hinweis
1. Zielseite robots.txt lesen, No-Scrape-Pfade nicht anfassen.
2. Scraping-Tempo kontrollieren, keine Server-Überlastung.
3. Personen-Daten (Telefon, Email) sehr vorsichtig, Recht zum Nutzen nachweisen.
4. Gescrapte Daten kommerziell nutzen? Juristen fragen zuerst.