Bayesiana ou frequentista: qual abordagem é melhor para analisar testes AB?
Quando analisamos testes AB, é comum nos perguntarmos qual é a melhor maneira de analisar os resultados. Que abordagem estatística devemos usar? Este post é focado em apresentar as duas abordagens mais utilizadas no mercado de experimentação e testes AB.
Benchmark
Antes de responder a essa pergunta de um ponto de vista científico, é essencial entender qual abordagem as empresas do mercado de experimentação utilizam. Por isso, fizemos alguns benchmarks para comparar ferramentas de teste AB populares em relação a três aspectos principais:
- A abordagem para interpretar os resultados dos testes
- As principais métricas utilizadas
- Se o produto core da empresa é focado em testes AB.
O benchmark mostra que empresas focadas em teste AB preferem a abordagem Bayesiana ao invés da frequentista.
Outro aspecto importante é que essas empresas apresentam métricas mais detalhadas (por exemplo, a probabilidade de uma variante ser a melhor e a potencial perda, caso ela não seja de fato). Por outro lado, aqueles que usam a abordagem frequentista têm limitações sobre o que podem calcular, o que resulta no uso de métricas simplistas (por exemplo, a taxa de conversão e o uplift).
Embora a abordagem frequentista ainda seja amplamente utilizada, a abordagem Bayesiana aparece como um padrão da indústria neste benchmark, principalmente por oferecer informações mais ricas para a tomada de decisão.
A tabela a seguir resume a abordagem e as métricas usadas pelas ferramentas mais populares.
| Empresa | Abordagem utilizada | Métricas | |----------------|---- ------------------|-----------| | AB Tasty | Bayesiana | Taxa de conversão, confiabilidade, uplift, média de crescimento | | Dynamic Yield | Bayesiana | Probabilidade de ser o melhor, uplift, sessões, receita | | Coveo | Bayesiana | Conversores, probabilidade de uplift, probabilidade de superar a baseline | | Growthbook | Bayesiana e frequentista | Oferece diferentes possibilidades de métricas dependendo da sua implementação e do seu data source | | Eppo | Frequentista | Metrics lift, intervalo de confiança | | PostHog | Frequentista | Conversão, probabilidade de superar a baseline | | Statsig | Frequentista | Metrics lift, intervalo de confiança | | Launch Darkly | Bayesiana | Conversão, probabilidade de superar a baseline | | Convert | Frequentista | Taxa de conversão, confiabilidade e upflift | | VWO | Bayesiana | Uplift esperado da taxa de conversão esperada, probabilidade de superar a baseline, conversões/visitas, potencial absoluto de perda | | Amplitude | Frequentista | Conversão, probabilidade de superar a baseline | | Crazy Egg | Frequentista | Tráfego total, visitantes, conversões, taxa de conversão, uplift | | Hubspot | Frequentista | Taxa de abertura e de clique | | One Signal | Frequentista | CTR e entrega | | Optimizely | Frequentista | Conversão única, visitantes, taxa de conversão, melhora do intervalo de confiança, significância estatística | | Unbounce | Frequentista | Visitantes, views, conversões, taxa de conversão |
Por que ter 3 plataformas para gerenciamento de conteúdo, teste AB e personalização quando você pode ter uma só?
A abordagem Bayesiana
A estatística Bayesiana é uma abordagem que trata as probabilidades como o grau de certeza em um evento acontecer (por exemplo, o quanto se tem certeza sobre a taxa de clique de um botão de call to action).
A ideia central da estatística Bayesiana é atualizar a certeza de uma pessoa após ela ser exposta a novas evidências. Por exemplo, atualizar qual é a taxa de conversão mais provável depois de se coletar novos dados que descrevem eventos de conversão.
Ao contrário da abordagem frequentista, a Bayesiana trata tudo como uma variável aleatória que, por definição, tem uma distribuição de probabilidade (por exemplo, Gaussiana) e parâmetros (por exemplo, média ou variância). Isso significa que é possível estimar a probabilidade de cada variante ser a melhor e calcular a potencial perda associada a cada uma utilizando a distribuição de probabilidade posterior. Esses resultados são cruciais para embasar a tomada de decisão após o término do experimento. Isso explica porque tantos argumentos a favor da abordagem Bayesiana dizem respeito à qualidade dos resultados.
Outro benefício importante é que há menos restrições à análise Bayesiana. Embora seja sempre recomendado executar o teste AB por pelo menos uma semana, a análise Bayesiana permite que os usuários interrompam o experimento assim que os resultados forem seguros e conclusivos o suficiente para se tomar uma decisão assertiva. Por exemplo, se houver muitas sessões e conversões em um dia, pode ser possível estimar com alta confiança qual variante é a melhor, mesmo após esse curto período de tempo.
A abordagem frequentista
A abordagem frequentista é uma inferência desenvolvida no século 20 que se tornou amplamente utilizada na ciência experimental. É uma abordagem estatisticamente sólida com resultados válidos, mas apresenta limitações que não são atraentes para a prática de testes AB.
Nessa abordagem, a interpretação dos resultados é mais complexa do que na abordagem Bayesiana, e essa opinião é compartilhada por especialistas na área. As métricas são confusas e muitas vezes mal interpretadas (há até uma página da Wikipedia que descreve o uso indevido do "valor p", a pontuação obtida usando a abordagem frequentista). Esse comportamento é altamente indesejável em testes AB, já que os resultados afetam diretamente as decisões de negócios.
De forma resumida, a abordagem frequentista geralmente segue estas etapas em um teste AB:
-
Definição dos grupos de controle e tratamento
-
Definição da hipótese nula e alternativa
Normalmente, essas são:
- Hipótese nula: a taxa de conversão para os grupos de controle e tratamento é a mesma
- Hipótese alternativa: a taxa de conversão para o grupo de tratamento é diferente da taxa de conversão para o grupo de controle – Idealmente, o teste termina refutando a hipótese nula, indicando uma diferença na taxa de conversão resultante das alterações realizadas.
-
Definição do nível de confiança
Isso define o nível de significância (comumente conhecido como "valor p")
-
Definição da duração do teste
Existem calculadoras online disponíveis para decidir a duração com base em:
- Número médio de visitantes que participam do teste (para controle e variantes)
- Taxa de conversão existente estimada
- Uplift mínimo detectável na taxa de conversão
- Número total de variantes (incluindo controle)
Como estas calculadoras destacam, a duração do teste para a abordagem frequentista é sempre maior do que a Bayesiana.
-
Execução do experimento para o período predefinido e, só então, análise do resultado
Para evitar falsos positivos, o teste AB frequentista não permite a exibição de dados durante o período em que o experimento está acontecendo. Assim, os usuários obtêm os resultados apenas ao final do teste (o que significa refutar ou não a hipótese nula, de acordo com o "valor p" ou "estatística do teste"). A justificativa por trás disso é que a significância estatística flutua durante o teste, portanto, interromper um teste assim que ele atingir significância estatística é uma receita para resultados indesejáveis. A imagem abaixo mostra exemplos de uma análise onde as duas variantes são idênticas. Note que os valores de P-value variam ao longo do tempo, apesar de não haver diferença entre as variantes.
Fonte: Medium
Conforme as etapas descritas, a principal restrição é não ter acesso aos resultados antes do término do teste, o que pode ser potencialmente caro para as empresas. Além disso, o resultado frequentista é um resultado binário simples: ou há uma diferença entre o controle e as variantes ou não (assumindo que os usuários interpretam o valor p corretamente).
Abordagem frequentista vs. Bayesiana
A tabela a seguir resume as principais diferenças entre as abordagens Bayesiana e frequentista.
Frequentista | Bayesiana | |
---|---|---|
Tamanho da amostra | Predefinido | Não é preciso predefinir |
Duração do teste | Fixa e longa | Flexível e mais curta |
Intuitividade dos Resultados | Baixa, já que o valor p é uma métrica derivada | Alta, já que os resultados são diretamente calculados |
Checagem dos dados durante o teste | Não permitida | Permitida (com cautela) |
Velocidade para tomar decisões | Devagar, já que apresenta mais restrições | Rápida, pois há menos restrições |
Estimativa da probabilidade de ser melhor | Não é possível | Possível, independentemente do número de variações |
Estimativa da potencial perda | Não é possível | Possível independentemente da contagem de variações |
Declaração de um vencedor | Possível quando o tamanho da amostra é alcançado, e o valor está abaixo de um limite | Possível, quando a probabilidade de ser melhor está acima de um limite ou a perda potencial está abaixo de um limite |
Apuração de resultados | Menos computacionalmente intensivo | Mais computacionalmente intensivo devido à simulações |
Para mais detalhes sobre as diferenças entre as abordagens frequentista e Bayesiana, recomendamos as seguintes referências:
- Comparison of Frequentist and Bayesian Inference, Matemática - MIT
- Bayesian AB Testing, Lyst.
Por que usamos a abordagem Bayesiana
A escolha de usar a abordagem Bayesiana em vez da frequentista na nossa plataforma se deve principalmente ao fato de seus resultados serem muito mais ricos e informativos.
Por exemplo, a abordagem frequentista não prevê que uma variação possa ser a melhor, nem sua potencial perda. Ela depende do alcance de significância estatística para concluir um teste e o resultado simplesmente indica se há ou não uma diferença entre uma variação e a baseline.
Além disso, as limitações do uso da abordagem frequentista muitas vezes não são atraentes para as empresas. Essa abordagem requer, por exemplo, a predefinição do tamanho da amostra e da duração do teste, um recurso que pode desencorajá-las a usá-la.
Esses argumentos apóiam a nossa decisão de escolher a inferência Bayesiana ao invés da frequentista.
A abordagem Bayesiana não elimina o risco de tomar decisões erradas – é uma maneira de tomar decisões melhores diante da incerteza, medindo o impacto de resultados indesejáveis e suas probabilidades.
Analisar testes Bayesianos é muito fácil com a Croct, pois nossos dashboards te permitem acompanhar em tempo real todas as métricas necessárias.
Acesse a conta demo e saiba mais sobre como nossa funcionalidade de testes AB funciona.
Conclusão
A abordagem Bayesiana é um método valioso para te ajudar a tomar decisões com base em dados. Ao contrário do método frequentista, essa abordagem permite permite que você atualize suas crenças à medida que coleta mais dados, o que pode levar a resultados mais precisos e confiáveis.
Crie sua conta gratuitamente e explore nossa plataforma para saber mais sobre como os testes AB podem otimizar os seus resultados.