Web Data Scraping
Web scraping technique न सीखो — AI को बोलो क्या चाहिए, rest सब होगा
Data scrape करना इतना मुश्किल क्यों है
तुम सिर्फ website से data collect करना चाहते हो, tutorial देखते हो: requests, BeautifulSoup, XPath, CSS selectors — सिर्फ terms से आधे लोग हार मान लेते हैं।
मुश्किल से tutorial follow करके चलाया, अगले दिन website ने Cloudflare add किया, IP ban हो गया, CAPTCHA आ गया, सब खत्म।
Data scraped भी हो गया, format ही mess है — कुछ fields में HTML tags, कुछ में currency symbols, कुछ में dates की 3-4 format अलग-अलग। Data cleaning ही collection से ज्यादा समय लगता है, सच में हार मान जाते हो।
Web scraping techniques न सीखो, सीधे OpenClaw को बोलो कौन सी website, कौन से fields चाहिए, यह खुद page structure समझ जाएगा, complete scraper script बना देगा।
Anti-scraping? जानता है random delay कैसे add करते हैं, User-Agent कैसे rotate करते हैं, dynamic loading कैसे handle करते हैं। Pagination? कह दो कितने pages चाहिए, खुद manage करेगा।
Scraped data clean structured format में आता है: CSV, JSON, Excel जो चाहो। Website update हो गई? फिर से script चलाओ, खुद नया page structure adapt करेगा।
3 scraping Prompt, use कर सकते हो तुरंत
Beginner से advanced तक, सब common scraping scenarios cover हैं।
Douban Top 250 movies का data scrape करो:
URL: https://movie.douban.com/top250
Fields जो चाहिए:
- Movie name (Chinese + English)
- Douban score
- Number of ratings
- Director
- Release year
- One-line comment
Requirements:
1. Auto-pagination, 250 सब movies scrape करो
2. हर request में 2-3 सेकंड gap, बहुत fast नहीं
3. Rating count में सिर्फ number, "人评价" text remove करो
4. CSV file में save करो, score से high to low sort करो
Competitor price monitoring script बनाओ:
Monitoring targets (5 competitors की pricing pages):
- [Competitor A price page URL]
- [Competitor B price page URL]
- [Competitor C price page URL]
- [Competitor D price page URL]
- [Competitor E price page URL]
Features:
1. हर दिन 9 AM को सब competitors के current price scrape करो
2. कल के price से compare करो, change हो तो highlight करो
3. Local SQLite में store करो, आसानी से query करने के लिए
4. हर हफ्ते price change trend graph बनाओ (matplotlib)
5. 5% से ज्यादा price change तो alert log में लिखो
Schedule library use करो, requests + BeautifulSoup से scrape करो।
Exception handling add करो, network timeout या page change से crash न हो।
इस web page के table data निकाल दो:
URL: [paste करो web link]
Requirements:
1. Page के सब tables automatically identify करो
2. Table data को Excel format में organize करो
3. हर table एक अलग Sheet, Sheet का नाम table का title हो
4. Column headers preserve रखो, data format auto-detect करो (numbers, dates, percentages)
5. ~/data/extracted_tables.xlsx में save करो
Data scraping: OpenClaw vs Octoparse/WebHarvest
Visual scraping tools fast है सीखना, लेकिन ceiling low है।
- Hindi में requirement बता, AI खुद scraper code बना दे
- Code completely transparent, logic change करना instant
- JS dynamic rendering, login pages, सब anti-scraping handle कर सकता है
- Data cleaning और scraping एक साथ, दोबारा process नहीं करना पड़ता
- Script सीधे server पर deploy करो, timer task चलती रहेगी, extra cost zero
- Visual point-and-click, सच में जल्दी सीख जाते हो
- लेकिन complex page के लिए configuration काफी मुश्किल होता है
- JS rendering वाले pages basically impossible
- Data cleaning capability limited, exported data को दोबारा process करना पड़ता है
- Scheduled tasks के लिए paid version चाहिए, हजारों annually
Web scraper safety setup
Scraper चलाने से पहले, ये safety settings configure कर दो।
# Scraper project recommended config
sandbox:
network: true # Network access allow करो
timeout: 300 # Scraping कुछ minutes ले सकता है
allowed_paths:
- ~/data/ # Data storage directory
scraping:
respect_robots_txt: true # robots.txt rules follow करो
request_delay: 2 # Request delay (seconds), बहुत fast नहीं
max_retries: 3 # Failure retry count
user_agent_rotate: true # Auto rotate User-Agent
timeout_per_request: 30 # Single request timeout (seconds)
python:
packages:
- requests
- beautifulsoup4
- selenium # JS rendering pages के लिए
- pandas # Data organize और export करने के लिए
Legal compliance reminder
1. पहले target website का robots.txt check करो, जहां scraping banned है वहां नहीं जाना।
2. Scraping frequency control करो, server को overload न करो।
3. Personal data (phone, email) को बहुत carefully handle करो, legal right check करके ही use करो।
4. Scraped data को commercial purpose में लाने से पहले, legal team से consult करो।