網頁數據採集

不用學爬蟲 ── 告訴 AI 你要什麼數據，剩下的它來

想抓個數據，怎麼就這麼難

不會寫爬蟲、反爬繞不過、數據亂成一鍋粥

你只是想把網頁上的數據整理下來而已，結果一搜教程：requests、BeautifulSoup、XPath、CSS選擇器……光術語就能勸退一半人。

好不容易照著教程跑通了，第二天網站加了 Cloudflare 驗證、IP 被封了、驗證碼彈出來了，直接歇菜。

就算數據抓下來了，格式也是一團糟──有的欄位帶 HTML 標籤、有的價格帶貨幣符號、有的日期格式三四種混著來。清洗數據的時間比採集還長，真的會謝。

OpenClaw：你說要什麼數據，它寫腳本去抓

不用學爬蟲技術棧，直接告訴 OpenClaw 你想採集哪個網頁、要哪些欄位，它會自動分析頁面結構，幫你生成完整的爬蟲腳本。

反爬？它知道怎麼加隨機延遲、輪換 User-Agent、處理動態加載。翻頁？告訴它要抓多少頁，自動搞定分頁邏輯。

抓完的數據直接就是乾淨的結構化格式：CSV、JSON、Excel 隨你選。網站改版了也不怕，重新跑一次，它會適應新的頁面結構。

3 條採集 Prompt，拿走就能用

從入門到進階，覆蓋最常見的採集場景。

豆瓣 Top250 電影數據採集黃金指令

幫我採集豆瓣 Top 250 電影的數據：

URL: https://movie.douban.com/top250

需要採集的欄位：
- 電影名稱（中文名 + 英文名）
- 豆瓣評分
- 評價人數
- 導演
- 上映年份
- 一句話短評

要求：
1. 自動翻頁，採集全部 250 部
2. 每次請求間隔 2-3 秒，別太快
3. 評價人數只保留數字，去掉"人評價"這種文字
4. 保存為 CSV 檔案，按評分從高到低排序

豆瓣是練手採集的經典目標，頁面結構穩定，反爬不算嚴。記得控制頻率，別給人家伺服器添麻煩。

競品價格定時監控進階技巧

幫我寫一個競品價格監控腳本：

監控目標（5 個競品的定價頁面）：
- [競品A價格頁URL]
- [競品B價格頁URL]
- [競品C價格頁URL]
- [競品D價格頁URL]
- [競品E價格頁URL]

功能要求：
1. 每天早上 9 點自動採集各競品的當前售價
2. 和昨天的價格做對比，有變化就標紅
3. 數據存入本地 SQLite，方便後續查詢
4. 每週生成一份價格變化趨勢圖（matplotlib）
5. 價格變動超過 5% 時，輸出告警日誌

用 schedule 做定時，requests + BeautifulSoup 採集。
加上異常處理，網路超時或頁面變了不要崩。

適合市場部長期跟蹤競品動態。腳本生成後丟到伺服器用 crontab 跑就行。競品多的話可以讓 AI 加上多執行緒，採集效率翻幾倍。

網頁表格一鍵提取新手友善

幫我把這個網頁上的表格數據提取出來：

URL: [貼上網頁連結]

要求：
1. 自動識別頁面中的所有表格
2. 把表格數據整理成 Excel 格式
3. 每個表格單獨一個 Sheet，Sheet 名用表格標題
4. 保留表頭，數據格式自動識別（數字、日期、百分比）
5. 保存到 ~/data/extracted_tables.xlsx

最簡單的採集任務，適合快速抓取報告、統計頁面上的表格數據。大多數網頁表格用 pandas 的 read_html 就能搞定，一行代碼的事。

數據採集：OpenClaw vs 八爪魚/火車頭

可視化採集器入門快，但天花板太低。

OpenClaw

用中文描述需求，AI 自動生成爬蟲代碼
代碼完全透明，想改邏輯隨時改
能處理 JS 動態渲染、登入態、各種反爬
數據清洗和採集一步到位，不用二次處理
腳本直接部署到伺服器跑定時任務，零額外成本

八爪魚 / 火車頭

可視化點選配置，上手確實快
但碰到複雜頁面經常配不出來
JS 渲染的頁面基本抓瞎
數據清洗能力有限，導出還得再加工
定時任務要付費版，一年好幾千

爬蟲安全配置

跑爬蟲之前，這些安全設置記得配好。

爬蟲安全配置（.openclaw.yml）

# 爬蟲項目推薦配置
sandbox:
  network: true               # 允許網路訪問
  timeout: 300                # 採集可能需要幾分鐘
  allowed_paths:
    - ~/data/                 # 數據存儲目錄

scraping:
  respect_robots_txt: true    # 遵守 robots.txt 規則
  request_delay: 2            # 請求間隔（秒），別太快
  max_retries: 3              # 失敗重試次數
  user_agent_rotate: true     # 自動輪換 User-Agent
  timeout_per_request: 30     # 單次請求超時（秒）

python:
  packages:
    - requests
    - beautifulsoup4
    - selenium                # 需要渲染 JS 的頁面
    - pandas                  # 數據整理和導出

合規提醒

⚠️ 採集數據務必遵守法律法規和網站使用條款。
1. 先檢查目標網站的 robots.txt，標明禁止抓取的路徑不要碰。
2. 控制採集頻率，別把人家伺服器搞崩了。
3. 涉及個人隱私數據（手機號、郵箱等）要格外小心，確保你有合法使用的依據。
4. 抓取的數據用於商業目的前，建議諮詢法務。

💡 數據量不大（幾百條以內）可以直接讓 OpenClaw 在沙盒裡跑完。數據量大、需要長時間運行的，讓它生成腳本，你自己部署到伺服器上。

這篇案例對你有幫助嗎？