A/B 测试与实验分析
别拍脑袋了 —— 让数据告诉你哪个方案更好
A/B 测试的那些坑
样本量算不对、p 值看不懂、结果出来了还在吵
产品经理说「我们做个 A/B 测试吧」,然后所有人都沉默了。
第一个问题:需要多少样本量?跑多少天?你凭感觉说「一周吧」,数据分析师说「至少两周」,老板说「三天够了吧」——谁也说服不了谁。
好不容易跑完了,第二个问题来了:结果怎么看?p 值 0.08 算显著吗?置信区间 [-0.5%, 2.3%] 是什么意思?你对着统计学课本翻了半小时,越看越迷糊。
最要命的是第三个问题:结果出来了,两边还是在吵。设计师说「B 方案明明视觉上更好」,运营说「A 方案留存更高」。你发现大家看的指标都不一样。这测试白跑了。
OpenClaw 帮你设计实验 + 分析结果 + 写报告
整个 A/B 测试流程,OpenClaw 都能帮上忙。
实验前:告诉它你的日活、当前转化率、期望提升幅度,它帮你算出需要多少样本、跑多少天,还会提醒你注意分流策略和干扰因素。
实验中:把中间数据丢给它,它能帮你判断是否可以提前结束(当然也会告诉你「偷看」数据的风险)。
实验后:给它两组数据,它自动做显著性检验、算置信区间、出分析报告。结论说人话,不说黑话。
最实用的是——它会用你能听懂的方式解释统计结果。不是「p < 0.05 拒绝零假设」,而是「B 方案的注册率比 A 高了 1.2%,这个差异有 95% 的概率是真实的,不是随机波动」。
3 条 A/B 测试 Prompt
实验设计、结果分析、样本量计算——A/B 测试三大核心环节全覆盖。
完整 A/B 测试方案设计
黄金指令
设计一个 A/B 测试方案:新版首页 vs 老版首页,目标是提升注册率。
当前情况:
- 日活用户:50,000
- 当前首页注册转化率:3.2%
- 新版首页的改动:简化了注册流程,CTA 按钮更大更醒目
请帮我设计完整的实验方案:
1. 假设检验设置(零假设和备择假设)
2. 最小样本量计算(显著性水平 0.05,检验力 0.8,最小可检测效应 10%)
3. 需要跑多少天
4. 分流策略(怎么随机分组,需要注意什么)
5. 主要指标和辅助指标分别是什么
6. 实验期间的注意事项(节假日、活动影响等)
7. 提前终止的条件(什么情况下可以提前结束)
请用通俗的语言解释每个步骤,不要默认我懂统计学。
把数字换成你自己产品的就行。重点是那句「用通俗的语言解释」——AI 默认会用学术语言,加上这句它就会说人话了。方案出来后可以直接发给团队对齐,大家都看得懂。
实验结果显著性检验
黄金指令
这是 A 组和 B 组的转化数据,帮我做显著性检验并判断是否可以上线。
A 组(对照组 - 老版首页):
- 总曝光:25,340 人
- 注册人数:798 人
- 转化率:3.15%
B 组(实验组 - 新版首页):
- 总曝光:25,112 人
- 注册人数:856 人
- 转化率:3.41%
请分析:
1. 做双样本比例检验(Z-test),给出 p 值
2. 计算 95% 置信区间
3. 用通俗的语言告诉我:这个差异是真实的还是随机波动
4. 如果要上线 B 方案,风险有多大
5. 如果结果不显著,需要再跑多久才能得到结论
最后给一个明确的建议:上线 / 不上线 / 继续跑
这条是 A/B 测试最核心的环节。把你自己的数据填进去就行。AI 不光算数,还会告诉你「风险有多大」和「要不要上线」,帮你做决策而不是只丢一堆统计数字。
实验天数与样本量计算
进阶技巧
根据我们产品的数据,计算 A/B 测试需要跑多少天。
已知条件:
- 日活用户数(DAU):30,000
- 可以用来做实验的流量比例:50%(其他 50% 不动)
- 当前转化率:2.5%
- 期望最小提升幅度:15%(即从 2.5% 提升到 2.875%)
- 显著性水平:0.05
- 检验力(Power):0.8
请计算:
1. 每组需要的最小样本量
2. 按日活来算,需要跑多少天
3. 如果我想更快得到结果,可以怎么调参数(比如放宽显著性水平或提高期望提升幅度)
4. 列一个表格:不同期望提升幅度(5%/10%/15%/20%)对应的样本量和天数
帮我理解一下:为什么期望提升幅度越小,需要的样本量越大?
最后那个「帮我理解」很关键。做 A/B 测试最常踩的坑就是期望提升幅度设太小,导致实验要跑几个月都没结果。AI 会用类比的方式解释清楚,比看课本强多了。
A/B 测试分析:OpenClaw vs Google Optimize
Google Optimize 已经停服了,但思路还是可以对比一下。
OpenClaw
- 不限平台——App、Web、小程序、甚至线下实验的数据都能分析
- 用自然语言描述实验,不用配置复杂的 SDK 和事件追踪
- 分析结果说人话:「B 方案好 1.2%,95% 概率是真的」
- 可以做更复杂的分析:多变量测试、分层分析、长期效应
- 免费,不依赖第三方服务
VS
Google Optimize(已停服)
- 和 GA 深度集成,埋点和数据收集一体化
- 可视化编辑器,不用改代码就能创建变体
- 自动化程度高:分流、统计、报告都是自动的
- 但只支持 Web 端,App 和其他场景覆盖不了
- 2023 年 9 月已停服,替代方案(Optimize 360)很贵
真实场景
产品团队的功能迭代决策
产品经理想改版购物车页面,设计师出了两套方案,运营觉得都行,技术说都能做。僵持不下,最后决定「跑个 A/B 测试」。但团队里没人真正懂怎么做统计分析。
OpenClaw 方案
先让 OpenClaw 设计实验方案:算好样本量、跑几天、看什么指标,发给团队对齐。实验跑完后把数据丢进去,3 分钟出分析报告——「B 方案的加购率提升了 8.3%,p 值 0.012,建议上线。但 B 方案的客单价略有下降,建议观察两周再全量」。报告用大白话写的,产品经理直接拿去开评审会,一次通过。
拍脑袋决策
设计师说 B 方案好看,产品经理说 A 方案体验好,最后老板拍板选了 A。上线一周后发现转化率反而降了,赶紧回滚。两周的开发白干了,团队士气低落,下次谁也不敢轻易改版了。
A/B 测试避坑指南
不要在实验跑到一半的时候就看结果下结论。这叫「偷看」(peeking),会严重增加假阳性率。要么提前设好停止规则,要么老老实实等到样本量够了再看。
一次只测一个变量。你同时改了按钮颜色、文案和位置,就算转化率提升了你也不知道是哪个因素起的作用。想测多个变量就做多变量测试(MVT),但需要的样本量会成倍增加。
注意节假日和大促对实验的干扰。双十一期间跑 A/B 测试,得到的结论大概率不适用于日常场景。实验周期尽量覆盖完整的周一到周日,避免星期效应。