Bayesiana ou frequentista: qual abordagem é melhor para analisar testes AB?

Quando analisamos testes AB, é comum nos perguntarmos qual é a melhor maneira de analisar os resultados. Que abordagem estatística devemos usar? Este post é focado em apresentar as duas abordagens mais utilizadas no mercado de experimentação e testes AB.

Benchmark

Antes de responder a essa pergunta de um ponto de vista científico, é essencial entender qual abordagem as empresas do mercado de experimentação utilizam. Por isso, fizemos alguns benchmarks para comparar ferramentas de teste AB populares em relação a três aspectos principais:

A abordagem para interpretar os resultados dos testes
As principais métricas utilizadas
Se o produto core da empresa é focado em testes AB.

O benchmark mostra que empresas focadas em teste AB preferem a abordagem Bayesiana ao invés da frequentista.

Outro aspecto importante é que essas empresas apresentam métricas mais detalhadas (por exemplo, a probabilidade de uma variante ser a melhor e a potencial perda, caso ela não seja de fato). Por outro lado, aqueles que usam a abordagem frequentista têm limitações sobre o que podem calcular, o que resulta no uso de métricas simplistas (por exemplo, a taxa de conversão e o uplift).

Embora a abordagem frequentista ainda seja amplamente utilizada, a abordagem Bayesiana aparece como um padrão da indústria neste benchmark, principalmente por oferecer informações mais ricas para a tomada de decisão.

A tabela a seguir resume a abordagem e as métricas usadas pelas ferramentas mais populares.

Empresa	Abordagem utilizada	Métricas
AB Tasty	Bayesiana	Taxa de conversão, confiabilidade, uplift, média de crescimento
Dynamic Yield	Bayesiana	Probabilidade de ser o melhor, uplift, sessões, receita
Coveo	Bayesiana	Conversores, probabilidade de uplift, probabilidade de superar a baseline
Growthbook	Bayesiana e frequentista	Oferece diferentes possibilidades de métricas dependendo da sua implementação e do seu data source
Eppo	Frequentista	Metrics lift, intervalo de confiança
PostHog	Frequentista	Conversão, probabilidade de superar a baseline
Statsig	Frequentista	Metrics lift, intervalo de confiança
Launch Darkly	Bayesiana	Conversão, probabilidade de superar a baseline
Convert	Frequentista	Taxa de conversão, confiabilidade e upflift
VWO	Bayesiana	Uplift esperado da taxa de conversão esperada, probabilidade de superar a baseline, conversões/visitas, potencial absoluto de perda
Amplitude	Frequentista	Conversão, probabilidade de superar a baseline
Crazy Egg	Frequentista	Tráfego total, visitantes, conversões, taxa de conversão, uplift
Hubspot	Frequentista	Taxa de abertura e de clique
One Signal	Frequentista	CTR e entrega
Optimizely	Frequentista	Conversão única, visitantes, taxa de conversão, melhora do intervalo de confiança, significância estatística
Unbounce	Frequentista	Visitantes, views, conversões, taxa de conversão

Tudo o que você precisa em um só lugar

Por que ter 3 plataformas para gerenciamento de conteúdo, teste AB e personalização quando você pode ter uma só?

Conheça a Croct

A abordagem Bayesiana

A estatística Bayesiana é uma abordagem que trata as probabilidades como o grau de certeza em um evento acontecer (por exemplo, o quanto se tem certeza sobre a taxa de clique de um botão de call to action).

A ideia central da estatística Bayesiana é atualizar a certeza de uma pessoa após ela ser exposta a novas evidências. Por exemplo, atualizar qual é a taxa de conversão mais provável depois de se coletar novos dados que descrevem eventos de conversão.

Ao contrário da abordagem frequentista, a Bayesiana trata tudo como uma variável aleatória que, por definição, tem uma distribuição de probabilidade (por exemplo, Gaussiana) e parâmetros (por exemplo, média ou variância). Isso significa que é possível estimar a probabilidade de cada variante ser a melhor e calcular a potencial perda associada a cada uma utilizando a distribuição de probabilidade posterior. Esses resultados são cruciais para embasar a tomada de decisão após o término do experimento. Isso explica porque tantos argumentos a favor da abordagem Bayesiana dizem respeito à qualidade dos resultados.

Outro benefício importante é que há menos restrições à análise Bayesiana. Embora seja sempre recomendado executar o teste AB por pelo menos uma semana, a análise Bayesiana permite que os usuários interrompam o experimento assim que os resultados forem seguros e conclusivos o suficiente para se tomar uma decisão assertiva. Por exemplo, se houver muitas sessões e conversões em um dia, pode ser possível estimar com alta confiança qual variante é a melhor, mesmo após esse curto período de tempo.

A abordagem frequentista

A abordagem frequentista é uma inferência desenvolvida no século 20 que se tornou amplamente utilizada na ciência experimental. É uma abordagem estatisticamente sólida com resultados válidos, mas apresenta limitações que não são atraentes para a prática de testes AB.

Nessa abordagem, a interpretação dos resultados é mais complexa do que na abordagem Bayesiana, e essa opinião é compartilhada por especialistas na área. As métricas são confusas e muitas vezes mal interpretadas (há até uma página da Wikipedia que descreve o uso indevido do "valor p", a pontuação obtida usando a abordagem frequentista). Esse comportamento é altamente indesejável em testes AB, já que os resultados afetam diretamente as decisões de negócios.

De forma resumida, a abordagem frequentista geralmente segue estas etapas em um teste AB:

Definição dos grupos de controle e tratamento
Definição da hipótese nula e alternativa

Normalmente, essas são:
- Hipótese nula: a taxa de conversão para os grupos de controle e tratamento é a mesma
- Hipótese alternativa: a taxa de conversão para o grupo de tratamento é diferente da taxa de conversão para o grupo de controle – Idealmente, o teste termina refutando a hipótese nula, indicando uma diferença na taxa de conversão resultante das alterações realizadas.
Definição do nível de confiança

Isso define o nível de significância (comumente conhecido como "valor p")
Definição da duração do teste

Existem calculadoras online disponíveis para decidir a duração com base em:
- Número médio de visitantes que participam do teste (para controle e variantes)
- Taxa de conversão existente estimada
- Uplift mínimo detectável na taxa de conversão
- Número total de variantes (incluindo controle)
Como estas calculadoras destacam, a duração do teste para a abordagem frequentista é sempre maior do que a Bayesiana.
Execução do experimento para o período predefinido e, só então, análise do resultado

Para evitar falsos positivos, o teste AB frequentista não permite a exibição de dados durante o período em que o experimento está acontecendo. Assim, os usuários obtêm os resultados apenas ao final do teste (o que significa refutar ou não a hipótese nula, de acordo com o "valor p" ou "estatística do teste"). A justificativa por trás disso é que a significância estatística flutua durante o teste, portanto, interromper um teste assim que ele atingir significância estatística é uma receita para resultados indesejáveis. A imagem abaixo mostra exemplos de uma análise onde as duas variantes são idênticas. Note que os valores de P-value variam ao longo do tempo, apesar de não haver diferença entre as variantes.

Graph showing how metrics behave on a Frequentist approach. — Valores de P-value ao longo do tempo para um teste A/A.

Fonte: Medium

Conforme as etapas descritas, a principal restrição é não ter acesso aos resultados antes do término do teste, o que pode ser potencialmente caro para as empresas. Além disso, o resultado frequentista é um resultado binário simples: ou há uma diferença entre o controle e as variantes ou não (assumindo que os usuários interpretam o valor p corretamente).

Abordagem frequentista vs. Bayesiana

A tabela a seguir resume as principais diferenças entre as abordagens Bayesiana e frequentista.

	Frequentista	Bayesiana
Tamanho da amostra	Predefinido	Não é preciso predefinir
Duração do teste	Fixa e longa	Flexível e mais curta
Intuitividade dos Resultados	Baixa, já que o valor p é uma métrica derivada	Alta, já que os resultados são diretamente calculados
Checagem dos dados durante o teste	Não permitida	Permitida (com cautela)
Velocidade para tomar decisões	Devagar, já que apresenta mais restrições	Rápida, pois há menos restrições
Estimativa da probabilidade de ser melhor	Não é possível	Possível, independentemente do número de variações
Estimativa da potencial perda	Não é possível	Possível independentemente da contagem de variações
Declaração de um vencedor	Possível quando o tamanho da amostra é alcançado, e o valor está abaixo de um limite	Possível, quando a probabilidade de ser melhor está acima de um limite ou a perda potencial está abaixo de um limite
Apuração de resultados	Menos computacionalmente intensivo	Mais computacionalmente intensivo devido à simulações

Para mais detalhes sobre as diferenças entre as abordagens frequentista e Bayesiana, recomendamos as seguintes referências:

Comparison of Frequentist and Bayesian Inference, Matemática - MIT
Bayesian AB Testing, Lyst.

Por que usamos a abordagem Bayesiana

A escolha de usar a abordagem Bayesiana em vez da frequentista na nossa plataforma se deve principalmente ao fato de seus resultados serem muito mais ricos e informativos.

Por exemplo, a abordagem frequentista não prevê que uma variação possa ser a melhor, nem sua potencial perda. Ela depende do alcance de significância estatística para concluir um teste e o resultado simplesmente indica se há ou não uma diferença entre uma variação e a baseline.

Além disso, as limitações do uso da abordagem frequentista muitas vezes não são atraentes para as empresas. Essa abordagem requer, por exemplo, a predefinição do tamanho da amostra e da duração do teste, um recurso que pode desencorajá-las a usá-la.

Esses argumentos apóiam a nossa decisão de escolher a inferência Bayesiana ao invés da frequentista.

A abordagem Bayesiana não elimina o risco de tomar decisões erradas – é uma maneira de tomar decisões melhores diante da incerteza, medindo o impacto de resultados indesejáveis e suas probabilidades.

Analisar testes Bayesianos é muito fácil com a Croct, pois nossos dashboards te permitem acompanhar em tempo real todas as métricas necessárias.

Acesse a conta demo e saiba mais sobre como nossa funcionalidade de testes AB funciona.

Conclusão

A abordagem Bayesiana é um método valioso para te ajudar a tomar decisões com base em dados. Ao contrário do método frequentista, essa abordagem permite permite que você atualize suas crenças à medida que coleta mais dados, o que pode levar a resultados mais precisos e confiáveis.

Crie sua conta gratuitamente e explore nossa plataforma para saber mais sobre como os testes AB podem otimizar os seus resultados.

Explore:

Teste A/B Otimização de Taxa de Conversão (CRO)Otimização de Produto