Web Data Scraping

Web scraping technique न सीखो — AI को बोलो क्या चाहिए, rest सब होगा

Data scrape करना इतना मुश्किल क्यों है

Web scraping नहीं जानते, anti-scraping pass नहीं कर सकते, data अलग-अलग format में आता है

तुम सिर्फ website से data collect करना चाहते हो, tutorial देखते हो: requests, BeautifulSoup, XPath, CSS selectors — सिर्फ terms से आधे लोग हार मान लेते हैं।

मुश्किल से tutorial follow करके चलाया, अगले दिन website ने Cloudflare add किया, IP ban हो गया, CAPTCHA आ गया, सब खत्म।

Data scraped भी हो गया, format ही mess है — कुछ fields में HTML tags, कुछ में currency symbols, कुछ में dates की 3-4 format अलग-अलग। Data cleaning ही collection से ज्यादा समय लगता है, सच में हार मान जाते हो।

OpenClaw: तुम कहो क्या data चाहिए, यह script लिख के ले आएगा

Web scraping techniques न सीखो, सीधे OpenClaw को बोलो कौन सी website, कौन से fields चाहिए, यह खुद page structure समझ जाएगा, complete scraper script बना देगा।

Anti-scraping? जानता है random delay कैसे add करते हैं, User-Agent कैसे rotate करते हैं, dynamic loading कैसे handle करते हैं। Pagination? कह दो कितने pages चाहिए, खुद manage करेगा।

Scraped data clean structured format में आता है: CSV, JSON, Excel जो चाहो। Website update हो गई? फिर से script चलाओ, खुद नया page structure adapt करेगा।

3 scraping Prompt, use कर सकते हो तुरंत

Beginner से advanced तक, सब common scraping scenarios cover हैं।

Douban Top 250 movies data scrape करो गोल्डन कमांड

Douban Top 250 movies का data scrape करो:

URL: https://movie.douban.com/top250

Fields जो चाहिए:
- Movie name (Chinese + English)
- Douban score
- Number of ratings
- Director
- Release year
- One-line comment

Requirements:
1. Auto-pagination, 250 सब movies scrape करो
2. हर request में 2-3 सेकंड gap, बहुत fast नहीं
3. Rating count में सिर्फ number, "人评价" text remove करो
4. CSV file में save करो, score से high to low sort करो

Douban beginner scraping practice के लिए classic target है, page structure stable है, anti-scraping strict नहीं है। frequency control रखो, server को problem न हो।

Competitor price monitoring timer task advanced technique

Competitor price monitoring script बनाओ:

Monitoring targets (5 competitors की pricing pages):
- [Competitor A price page URL]
- [Competitor B price page URL]
- [Competitor C price page URL]
- [Competitor D price page URL]
- [Competitor E price page URL]

Features:
1. हर दिन 9 AM को सब competitors के current price scrape करो
2. कल के price से compare करो, change हो तो highlight करो
3. Local SQLite में store करो, आसानी से query करने के लिए
4. हर हफ्ते price change trend graph बनाओ (matplotlib)
5. 5% से ज्यादा price change तो alert log में लिखो

Schedule library use करो, requests + BeautifulSoup से scrape करो।
Exception handling add करो, network timeout या page change से crash न हो।

Market team के लिए competitor tracking के लिए perfect है। Script generate होने के बाद server पर लगा दो, crontab से चलता रहेगा। अगर competitors ज्यादा हैं तो AI को multi-threading add करने के लिए कह सकते हो, speed कई गुना बढ़ जाएगी।

Web page का table data एक click से extract करो शुरुआत करना आसान

इस web page के table data निकाल दो:

URL: [paste करो web link]

Requirements:
1. Page के सब tables automatically identify करो
2. Table data को Excel format में organize करो
3. हर table एक अलग Sheet, Sheet का नाम table का title हो
4. Column headers preserve रखो, data format auto-detect करो (numbers, dates, percentages)
5. ~/data/extracted_tables.xlsx में save करो

सबसे simple extraction task, fast tabular data grab करने के लिए perfect है। Pandas की read_html function से most web tables handle हो जाते हैं, एक line का code।

Data scraping: OpenClaw vs Octoparse/WebHarvest

Visual scraping tools fast है सीखना, लेकिन ceiling low है।

OpenClaw

Hindi में requirement बता, AI खुद scraper code बना दे
Code completely transparent, logic change करना instant
JS dynamic rendering, login pages, सब anti-scraping handle कर सकता है
Data cleaning और scraping एक साथ, दोबारा process नहीं करना पड़ता
Script सीधे server पर deploy करो, timer task चलती रहेगी, extra cost zero

Octoparse / WebHarvest

Visual point-and-click, सच में जल्दी सीख जाते हो
लेकिन complex page के लिए configuration काफी मुश्किल होता है
JS rendering वाले pages basically impossible
Data cleaning capability limited, exported data को दोबारा process करना पड़ता है
Scheduled tasks के लिए paid version चाहिए, हजारों annually

Web scraper safety setup

Scraper चलाने से पहले, ये safety settings configure कर दो।

Web scraper safety config (.openclaw.yml)

# Scraper project recommended config
sandbox:
  network: true               # Network access allow करो
  timeout: 300                # Scraping कुछ minutes ले सकता है
  allowed_paths:
    - ~/data/                 # Data storage directory

scraping:
  respect_robots_txt: true    # robots.txt rules follow करो
  request_delay: 2            # Request delay (seconds), बहुत fast नहीं
  max_retries: 3              # Failure retry count
  user_agent_rotate: true     # Auto rotate User-Agent
  timeout_per_request: 30     # Single request timeout (seconds)

python:
  packages:
    - requests
    - beautifulsoup4
    - selenium                # JS rendering pages के लिए
    - pandas                  # Data organize और export करने के लिए

Legal compliance reminder

⚠️ Data scrape करते समय legal rules और website terms follow करना ज़रूरी है।
1. पहले target website का robots.txt check करो, जहां scraping banned है वहां नहीं जाना।
2. Scraping frequency control करो, server को overload न करो।
3. Personal data (phone, email) को बहुत carefully handle करो, legal right check करके ही use करो।
4. Scraped data को commercial purpose में लाने से पहले, legal team से consult करो।

💡 Data quantity कम हो (कुछ सौ items) तो OpenClaw sandbox में direct complete कर सकते हो। Data ज्यादा हो, long-running होगा, तो script generate करवा के खुद server पर deploy करो।

क्या ये केस आपके काम आया?