A/B teste e análise de experimento

Sem chutar — deixa dado falar qual jeito é melhor

A/B teste tem armadilha, quem pisa sabe

Desenho não entende, resultado não consegue ler, tamanho de amostra não sabe calcular

Quer fazer A/B teste, já trava na primeiro: quantas pessoa precisa? Quanto tempo roda? Como divide o tráfego?

Consegue terminar, fica olhando pra número: p-value 0.08 é significante? Confiança cruzando zero o quê significa? Aumento de 1.5%, vale a pena subir?

No final apertou botão achando, resultado no prod é diferente. Descobriu depois que teve promoção no meio do teste, dado tá sujo. Trabalhou de toa.

OpenClaw: do desenho do teste até entender resultado, te acompanha do começo ao fim

Não fica revisando livro de estatística. Fala o que quer no OpenClaw, ele calcula amostra, desenha divisão, escreve código de análise.

Rodou? Cola resultado aqui. Ele faz teste estatístico, conta intervalo de confiança, diz se é significante — tudo em português simples, sem essas palavra estranha de estatístico. E o código fica local, seu dado de negócio não sobe pra ninguém.

3 Prompts de A/B teste, copia e roda

Do desenho até interpretação, pega o que precisa.

Desenha experimento + calcula amostra Instrução de ouro

Quer fazer A/B teste em landing page, ajuda com:

Infos:
- Taxa de conversão atual: 3.2%
- Quer aumentar no mínimo: 10% relativo (3.2% → 3.52%)
- Tráfego por dia: umas 5000 pessoas
- Significância α = 0.05, poder 1-β = 0.8

Preciso de:
1. Quantas pessoa por grupo
2. Quantos dias roda
3. Divisão de tráfego melhor (50/50 ou outro %)
4. O que ficar atento no teste (feriado, promoção, etc)
5. Documento de desenho pronto

Tamanho de amostra é o mais crítico. Pouco e conclusão não vale, muito e perde tempo. Deixa IA calcular, ainda avisa os problemas que geral perde (teste múltiplo, novidade efeito). Recomenda Opus, raciocínio estatístico melhor.

Analisa dados, tira conclusão estatística Instrução de ouro

A/B teste terminou, dado tá em ~/data/ab_test_results.csv:
- user_id: ID da pessoa
- group: A ou B (A é controle, B é teste)
- converted: 0 ou 1 (converteu?)
- revenue: quanto gastou (0 = não comprou)
- timestamp: quando entrou

Preciso:
1. Taxa de conversão e gasto médio dos dois grupos
2. Teste qui-quadrado (conversão) e t-teste (gasto), com p-value e intervalo
3. Checa se a divisão tá balanceada, tem problema de dado?
4. Gráfico comparando os dois
5. Em português simples: devo subir o teste B? Por quê?

Esse Prompt cobre tudo de A/B análise. Especialmente a última — deixa IA falar simples. Número bonitão ninguém entende se o chefe não saca.

Explica resultado com palavra simples Amigável pra iniciantes

Explica simples pra mim levar pro chefe:

Grupo A (controle): 10000 pessoa, 320 converteu, taxa 3.20%
Grupo B (teste): 10000 pessoa, 345 converteu, taxa 3.45%
p-value = 0.03
Aumento = 7.8%
Intervalo 95%: [0.8%, 14.9%]

Pergunta:
1. É estatisticamente significante? O quê significa?
2. Aumento de 7.8% faz sentido pro negócio?
3. Intervalo tão largo, o quê quer dizer?
4. Geral, devo ligar o B? Por quê?

Análise pronta, relatório sai duro. p-value, intervalo essa gente acha estranho. Esse Prompt traduz pra linguagem que chefe entende.

A/B teste: OpenClaw vs jeito antigo

Ferramenta muda, capacidade também muda bastante.

OpenClaw

Do desenho até análise até conclusão, tudo em um lugar
Fala em português o que quer, sem aprender software estatístico
Código roda na máquina, dado de negócio não sobe em lugar nenhum
Flexível: análise Bayesiana, por camada, efeito longo prazo, consegue tudo
Não só número, resultado com conselho de negócio e aviso de risco

Google Optimize / Excel na mão

Google Optimize parou (setembro 2023), alternativa é pago
Teste estatístico em Excel é chato, fórmula fácil errar
Ferramenta só solta número, não interpreta negócio
Análise avançada (Bayesiana, variância reduzida) praticamente impossível
Método fixo, não adapta conforme sua situação

Cenário real

PM: otimizar taxa de checkout

Chefe quer aumentar taxa de conversão em 10% esse trimestre. Tem 3 ideia mas não sabe qual tá certa, com medo de subir e fracassar. Precisa A/B teste mas última vez que fez Excel, time de dado falou que método tá errado...

Com OpenClaw

Fala as 3 ideia, OpenClaw desenha vários testes, calcula amostra e período. Termina, coloca resultado, IA faz teste estatístico e compara. Relatório sai pronto que chefe entende, análise firme, revisa em reunião e aprova. Tudo em 1 hora.

Tudo na mão

Fórmula de amostra procura online, calcula 3 vezes resultado diferente. Dado termina, usa Excel faz teste qui-quadrado, errou parâmetro. Relatório cheio de palavra estatística, chefe pergunta "então sobe ou não?". Volta relatório 3 vezes, passa uma semana.

Dica de ouro

💡 Maior erro: "espiar dado cedo" — teste ainda rodando, já olha resultado, acha que tá bom. Isso é viés de parada cedo, aumenta falso positivo. Deixa IA calcular quanto dia precisa, quando chega data aí vê.

🎯 Se métrica é gasto e não conversão, fala pro IA. Gasto é distribuição viés, teste diferente (Mann-Whitney U), t-teste direto tá errado. IA escolhe método certo.

⚠️ Na semana do teste, tira Black Friday e feriado. Se não consegue tirar, fala pro IA qual dia é estranho, deixa fazer corte ou separar análise.

Esse caso foi útil pra você?