A/B teste e análise de experimento

Sem chutar — deixa dado falar qual jeito é melhor

A/B teste tem armadilha, quem pisa sabe

Desenho não entende, resultado não consegue ler, tamanho de amostra não sabe calcular

Quer fazer A/B teste, já trava na primeiro: quantas pessoa precisa? Quanto tempo roda? Como divide o tráfego?

Consegue terminar, fica olhando pra número: p-value 0.08 é significante? Confiança cruzando zero o quê significa? Aumento de 1.5%, vale a pena subir?

No final apertou botão achando, resultado no prod é diferente. Descobriu depois que teve promoção no meio do teste, dado tá sujo. Trabalhou de toa.

OpenClaw: do desenho do teste até entender resultado, te acompanha do começo ao fim

Não fica revisando livro de estatística. Fala o que quer no OpenClaw, ele calcula amostra, desenha divisão, escreve código de análise.

Rodou? Cola resultado aqui. Ele faz teste estatístico, conta intervalo de confiança, diz se é significante — tudo em português simples, sem essas palavra estranha de estatístico. E o código fica local, seu dado de negócio não sobe pra ninguém.

3 Prompts de A/B teste, copia e roda

Do desenho até interpretação, pega o que precisa.

Desenha experimento + calcula amostra Instrução de ouro
Quer fazer A/B teste em landing page, ajuda com:

Infos:
- Taxa de conversão atual: 3.2%
- Quer aumentar no mínimo: 10% relativo (3.2% → 3.52%)
- Tráfego por dia: umas 5000 pessoas
- Significância α = 0.05, poder 1-β = 0.8

Preciso de:
1. Quantas pessoa por grupo
2. Quantos dias roda
3. Divisão de tráfego melhor (50/50 ou outro %)
4. O que ficar atento no teste (feriado, promoção, etc)
5. Documento de desenho pronto
Tamanho de amostra é o mais crítico. Pouco e conclusão não vale, muito e perde tempo. Deixa IA calcular, ainda avisa os problemas que geral perde (teste múltiplo, novidade efeito). Recomenda Opus, raciocínio estatístico melhor.
Analisa dados, tira conclusão estatística Instrução de ouro
A/B teste terminou, dado tá em ~/data/ab_test_results.csv:
- user_id: ID da pessoa
- group: A ou B (A é controle, B é teste)
- converted: 0 ou 1 (converteu?)
- revenue: quanto gastou (0 = não comprou)
- timestamp: quando entrou

Preciso:
1. Taxa de conversão e gasto médio dos dois grupos
2. Teste qui-quadrado (conversão) e t-teste (gasto), com p-value e intervalo
3. Checa se a divisão tá balanceada, tem problema de dado?
4. Gráfico comparando os dois
5. Em português simples: devo subir o teste B? Por quê?
Esse Prompt cobre tudo de A/B análise. Especialmente a última — deixa IA falar simples. Número bonitão ninguém entende se o chefe não saca.
Explica resultado com palavra simples Amigável pra iniciantes
Explica simples pra mim levar pro chefe:

Grupo A (controle): 10000 pessoa, 320 converteu, taxa 3.20%
Grupo B (teste): 10000 pessoa, 345 converteu, taxa 3.45%
p-value = 0.03
Aumento = 7.8%
Intervalo 95%: [0.8%, 14.9%]

Pergunta:
1. É estatisticamente significante? O quê significa?
2. Aumento de 7.8% faz sentido pro negócio?
3. Intervalo tão largo, o quê quer dizer?
4. Geral, devo ligar o B? Por quê?
Análise pronta, relatório sai duro. p-value, intervalo essa gente acha estranho. Esse Prompt traduz pra linguagem que chefe entende.

A/B teste: OpenClaw vs jeito antigo

Ferramenta muda, capacidade também muda bastante.

OpenClaw
  • Do desenho até análise até conclusão, tudo em um lugar
  • Fala em português o que quer, sem aprender software estatístico
  • Código roda na máquina, dado de negócio não sobe em lugar nenhum
  • Flexível: análise Bayesiana, por camada, efeito longo prazo, consegue tudo
  • Não só número, resultado com conselho de negócio e aviso de risco
VS
Google Optimize / Excel na mão
  • Google Optimize parou (setembro 2023), alternativa é pago
  • Teste estatístico em Excel é chato, fórmula fácil errar
  • Ferramenta só solta número, não interpreta negócio
  • Análise avançada (Bayesiana, variância reduzida) praticamente impossível
  • Método fixo, não adapta conforme sua situação

Cenário real

PM: otimizar taxa de checkout
Chefe quer aumentar taxa de conversão em 10% esse trimestre. Tem 3 ideia mas não sabe qual tá certa, com medo de subir e fracassar. Precisa A/B teste mas última vez que fez Excel, time de dado falou que método tá errado...
Com OpenClaw
Fala as 3 ideia, OpenClaw desenha vários testes, calcula amostra e período. Termina, coloca resultado, IA faz teste estatístico e compara. Relatório sai pronto que chefe entende, análise firme, revisa em reunião e aprova. Tudo em 1 hora.
Tudo na mão
Fórmula de amostra procura online, calcula 3 vezes resultado diferente. Dado termina, usa Excel faz teste qui-quadrado, errou parâmetro. Relatório cheio de palavra estatística, chefe pergunta "então sobe ou não?". Volta relatório 3 vezes, passa uma semana.

Dica de ouro

💡 Maior erro: "espiar dado cedo" — teste ainda rodando, já olha resultado, acha que tá bom. Isso é viés de parada cedo, aumenta falso positivo. Deixa IA calcular quanto dia precisa, quando chega data aí vê.
🎯 Se métrica é gasto e não conversão, fala pro IA. Gasto é distribuição viés, teste diferente (Mann-Whitney U), t-teste direto tá errado. IA escolhe método certo.
⚠️ Na semana do teste, tira Black Friday e feriado. Se não consegue tirar, fala pro IA qual dia é estranho, deixa fazer corte ou separar análise.
Esse caso foi útil pra você?