A/B 測試與實驗分析

不拍腦袋做決策 —— 讓資料告訴你哪個方案更好

A/B 測試的坑，踩過的人都懂

實驗設計不會、結果看不懂、樣本量算不對

想做個 A/B 測試，結果第一步就卡住了：樣本量到底要多少？跑多久才算夠？分流比例怎麼定？

好不容易跑完了，對著一堆數字發呆：p 值 0.08 算顯著嗎？置信區間跨零了是什麼意思？提升率 1.5% 到底值不值得上線？

最後拍腦袋上了，結果線上效果和測試不一樣。回頭一看，實驗期間正好趕上促銷，資料被污染了都不知道。白忙活一場。

OpenClaw：從設計實驗到解讀結果，全程帶你

不用翻統計學教材了。把你的需求告訴 OpenClaw，它幫你算樣本量、設計分流方案、寫分析代碼。

資料跑完了？把結果一貼，它直接幫你做統計檢驗、計算置信區間、判斷是否顯著——還會用大白話告訴你結論，不用糾結那些統計術語到底什麼意思。關鍵是分析代碼在本地跑，你的業務資料不用上傳到任何地方。

3 條 A/B 測試 Prompt，複製直接用

從實驗設計到資料分析到結果解讀，按需拿走。

設計 A/B 測試方案 + 計算樣本量黃金指令

我要對落地頁做 A/B 測試，幫我完成以下事情：

背景資訊：
- 當前落地頁轉化率約 3.2%
- 期望最小提升幅度：相對提升 10%（即從 3.2% 提升到 3.52%）
- 日均訪客約 5000 人
- 顯著性水平 α = 0.05，統計功效 1-β = 0.8

請：
1. 計算每組最少需要多少樣本量
2. 按日均流量估算需要跑多少天
3. 給出分流方案（50/50 還是其他比例更好）
4. 列出實驗期間需要注意的事項（節假日、促銷等干擾因素）
5. 輸出一份完整的實驗設計文檔

樣本量計算是 A/B 測試最關鍵的一步。算少了結論不可靠，算多了浪費時間和流量。讓 AI 幫你算，還會提醒你那些容易忽略的坑，比如多重比較校正、新奇效應等。推薦用 Opus 模型，統計推理更準。

分析 A/B 測試資料，給出統計結論黃金指令

我的 A/B 測試跑完了，資料在 ~/data/ab_test_results.csv，格式如下：
- user_id: 用戶ID
- group: A 或 B（A 是對照組，B 是實驗組）
- converted: 0 或 1（是否轉化）
- revenue: 付費金額（0 表示未付費）
- timestamp: 進入實驗的時間

請幫我：
1. 計算兩組的轉化率和人均收入
2. 做卡方檢驗（轉化率）和 t 檢驗（收入），給出 p 值和置信區間
3. 檢查樣本比例是否均衡，有沒有資料品質問題
4. 畫出兩組的轉化率和收入對比圖
5. 用大白話給出結論：該不該上線 B 方案？

這條 Prompt 涵蓋了 A/B 測試分析的完整流程。特別注意最後一點——讓 AI 用大白話說結論。統計數字再漂亮，老闆看不懂也白搭。

大白話解讀 A/B 測試結果新手友善

幫我用大白話解釋一下這個 A/B 測試結果，我要拿去給老闆彙報：

- 對照組 A：10000 人，轉化 320 人，轉化率 3.20%
- 實驗組 B：10000 人，轉化 345 人，轉化率 3.45%
- p 值 = 0.03
- 相對提升率 = 7.8%
- 95% 置信區間：[0.8%, 14.9%]

問題：
1. 這個結果統計上顯著嗎？顯著意味著什麼？
2. 提升 7.8% 在業務上有意義嗎？
3. 置信區間這麼寬，說明什麼？
4. 綜合來看，你建議上線 B 方案嗎？為什麼？

很多人分析做完了，到彙報環節卡殼。p 值、置信區間這些概念，你自己懂了不算，得讓老闆也聽得明白。這條 Prompt 就是幫你翻譯的。

A/B 測試分析：OpenClaw vs 傳統方案

工具不同，能力邊界差很多。

OpenClaw

從實驗設計到資料分析到結果解讀，全流程涵蓋
用自然語言描述需求，不用學統計軟體
分析代碼本地執行，業務資料不外洩
靈活度高：想做貝葉斯分析、分層分析、長期效應分析都行
不只給數字，還給業務建議和風險提示

Google Optimize / 手動 Excel 分析

Google Optimize 已停服（2023 年 9 月），替代品要付費
Excel 做統計檢驗很麻煩，公式容易出錯
傳統工具只給數字，不幫你解讀業務含義
想做高級分析（貝葉斯、CUPED 方差縮減）基本沒戲
分析方法固定，沒法根據你的具體場景靈活調整

真實場景

產品經理：優化付費轉化率

老闆說這個季度付費轉化率要提升 10%。你有 3 個優化方案，但不知道哪個靠譜，不敢直接全量上線。得跑 A/B 測試，但你上次用 Excel 分析的那個實驗，被資料團隊說方法不對……

OpenClaw 方案

把 3 個方案告訴 OpenClaw，它幫你設計多組實驗方案，算好樣本量和實驗週期。跑完之後資料一匯出，再讓它做統計檢驗和效果對比。最後輸出一份老闆能看懂的分析報告，結論清楚、資料扎實，評審會上直接用。全程 1 小時搞定。

純手動方案

樣本量公式從網上找，算了三遍三個結果。資料跑完用 Excel 做卡方檢驗，公式抄錯了一個參數。報告寫得全是統計術語，老闆看完問「所以到底上不上？」。來回改了 3 版報告，一週過去了。

幾個實用小技巧

💡 A/B 測試最常見的錯誤是「偷看資料」——實驗還沒跑夠就看結果，覺得差不多了就停。這叫「提前停止偏差」，會導致假陽性。讓 AI 幫你算好需要多少天，到了再看。

🎯 如果你的指標是收入而不是轉化率，記得在 Prompt 裡說明。收入資料通常是右偏分布，需要用不同的檢驗方法（比如 Mann-Whitney U），直接用 t 檢驗可能不準。AI 會幫你選對方法。

⚠️ 實驗期間避開大促、節假日等特殊時段。如果避不開，在 Prompt 裡告訴 AI 哪幾天是特殊日，讓它在分析時做剔除或分層處理。

這篇案例對你有幫助嗎？