Bayesiana ou frequentista: qual abordagem é melhor para analisar testes AB?

ExperimentaçãoPor Isabella Beatriz Silva e Bernardo Favoreto

Quando analisamos testes AB, é comum nos perguntarmos qual é a melhor maneira de analisar os resultados. Que abordagem estatística devemos usar? Este post é focado em apresentar as duas abordagens mais utilizadas no mercado de experimentação e testes AB.

Benchmark

Antes de responder a essa pergunta de um ponto de vista científico, é essencial entender qual abordagem as empresas do mercado de experimentação utilizam. Por isso, fizemos alguns benchmarks para comparar ferramentas de teste AB populares em relação a três aspectos principais:

  • A abordagem para interpretar os resultados dos testes
  • As principais métricas utilizadas
  • Se o produto core da empresa é focado em testes AB.

O benchmark mostra que empresas focadas em teste AB preferem a abordagem Bayesiana ao invés da frequentista.

Outro aspecto importante é que essas empresas apresentam métricas mais detalhadas (por exemplo, a probabilidade de uma variante ser a melhor e a potencial perda, caso ela não seja de fato). Por outro lado, aqueles que usam a abordagem frequentista têm limitações sobre o que podem calcular, o que resulta no uso de métricas simplistas (por exemplo, a taxa de conversão e o uplift).

Embora a abordagem frequentista ainda seja amplamente utilizada, a abordagem Bayesiana aparece como um padrão da indústria neste benchmark, principalmente por oferecer informações mais ricas para a tomada de decisão.

A tabela a seguir resume a abordagem e as métricas usadas pelas ferramentas mais populares.

| Empresa | Abordagem utilizada | Métricas | |----------------|---- ------------------|-----------| | AB Tasty | Bayesiana | Taxa de conversão, confiabilidade, uplift, média de crescimento | | Dynamic Yield | Bayesiana | Probabilidade de ser o melhor, uplift, sessões, receita | | Coveo | Bayesiana | Conversores, probabilidade de uplift, probabilidade de superar a baseline | | Growthbook | Bayesiana e frequentista | Oferece diferentes possibilidades de métricas dependendo da sua implementação e do seu data source | | Eppo | Frequentista | Metrics lift, intervalo de confiança | | PostHog | Frequentista | Conversão, probabilidade de superar a baseline | | Statsig | Frequentista | Metrics lift, intervalo de confiança | | Launch Darkly | Bayesiana | Conversão, probabilidade de superar a baseline | | Convert | Frequentista | Taxa de conversão, confiabilidade e upflift | | VWO | Bayesiana | Uplift esperado da taxa de conversão esperada, probabilidade de superar a baseline, conversões/visitas, potencial absoluto de perda | | Amplitude | Frequentista | Conversão, probabilidade de superar a baseline | | Crazy Egg | Frequentista | Tráfego total, visitantes, conversões, taxa de conversão, uplift | | Hubspot | Frequentista | Taxa de abertura e de clique | | One Signal | Frequentista | CTR e entrega | | Optimizely | Frequentista | Conversão única, visitantes, taxa de conversão, melhora do intervalo de confiança, significância estatística | | Unbounce | Frequentista | Visitantes, views, conversões, taxa de conversão |

Tudo o que você precisa em um só lugar

Por que ter 3 plataformas para gerenciamento de conteúdo, teste AB e personalização quando você pode ter uma só?

A abordagem Bayesiana

A estatística Bayesiana é uma abordagem que trata as probabilidades como o grau de certeza em um evento acontecer (por exemplo, o quanto se tem certeza sobre a taxa de clique de um botão de call to action).

A ideia central da estatística Bayesiana é atualizar a certeza de uma pessoa após ela ser exposta a novas evidências. Por exemplo, atualizar qual é a taxa de conversão mais provável depois de se coletar novos dados que descrevem eventos de conversão.

Ao contrário da abordagem frequentista, a Bayesiana trata tudo como uma variável aleatória que, por definição, tem uma distribuição de probabilidade (por exemplo, Gaussiana) e parâmetros (por exemplo, média ou variância). Isso significa que é possível estimar a probabilidade de cada variante ser a melhor e calcular a potencial perda associada a cada uma utilizando a distribuição de probabilidade posterior. Esses resultados são cruciais para embasar a tomada de decisão após o término do experimento. Isso explica porque tantos argumentos a favor da abordagem Bayesiana dizem respeito à qualidade dos resultados.

Outro benefício importante é que há menos restrições à análise Bayesiana. Embora seja sempre recomendado executar o teste AB por pelo menos uma semana, a análise Bayesiana permite que os usuários interrompam o experimento assim que os resultados forem seguros e conclusivos o suficiente para se tomar uma decisão assertiva. Por exemplo, se houver muitas sessões e conversões em um dia, pode ser possível estimar com alta confiança qual variante é a melhor, mesmo após esse curto período de tempo.

A abordagem frequentista

A abordagem frequentista é uma inferência desenvolvida no século 20 que se tornou amplamente utilizada na ciência experimental. É uma abordagem estatisticamente sólida com resultados válidos, mas apresenta limitações que não são atraentes para a prática de testes AB.

Nessa abordagem, a interpretação dos resultados é mais complexa do que na abordagem Bayesiana, e essa opinião é compartilhada por especialistas na área. As métricas são confusas e muitas vezes mal interpretadas (há até uma página da Wikipedia que descreve o uso indevido do "valor p", a pontuação obtida usando a abordagem frequentista). Esse comportamento é altamente indesejável em testes AB, já que os resultados afetam diretamente as decisões de negócios.

De forma resumida, a abordagem frequentista geralmente segue estas etapas em um teste AB:

  1. Definição dos grupos de controle e tratamento

  2. Definição da hipótese nula e alternativa

    Normalmente, essas são:

    • Hipótese nula: a taxa de conversão para os grupos de controle e tratamento é a mesma
    • Hipótese alternativa: a taxa de conversão para o grupo de tratamento é diferente da taxa de conversão para o grupo de controle – Idealmente, o teste termina refutando a hipótese nula, indicando uma diferença na taxa de conversão resultante das alterações realizadas.
  3. Definição do nível de confiança

    Isso define o nível de significância (comumente conhecido como "valor p")

  4. Definição da duração do teste

    Existem calculadoras online disponíveis para decidir a duração com base em:

    • Número médio de visitantes que participam do teste (para controle e variantes)
    • Taxa de conversão existente estimada
    • Uplift mínimo detectável na taxa de conversão
    • Número total de variantes (incluindo controle)

    Como estas calculadoras destacam, a duração do teste para a abordagem frequentista é sempre maior do que a Bayesiana.

  5. Execução do experimento para o período predefinido e, só então, análise do resultado

    Para evitar falsos positivos, o teste AB frequentista não permite a exibição de dados durante o período em que o experimento está acontecendo. Assim, os usuários obtêm os resultados apenas ao final do teste (o que significa refutar ou não a hipótese nula, de acordo com o "valor p" ou "estatística do teste"). A justificativa por trás disso é que a significância estatística flutua durante o teste, portanto, interromper um teste assim que ele atingir significância estatística é uma receita para resultados indesejáveis. A imagem abaixo mostra exemplos de uma análise onde as duas variantes são idênticas. Note que os valores de P-value variam ao longo do tempo, apesar de não haver diferença entre as variantes.

Graph showing how metrics behave on a Frequentist approach.
Valores de P-value ao longo do tempo para um teste A/A.

Fonte: Medium

Conforme as etapas descritas, a principal restrição é não ter acesso aos resultados antes do término do teste, o que pode ser potencialmente caro para as empresas. Além disso, o resultado frequentista é um resultado binário simples: ou há uma diferença entre o controle e as variantes ou não (assumindo que os usuários interpretam o valor p corretamente).

Abordagem frequentista vs. Bayesiana

A tabela a seguir resume as principais diferenças entre as abordagens Bayesiana e frequentista.

FrequentistaBayesiana
Tamanho da amostraPredefinidoNão é preciso predefinir
Duração do testeFixa e longaFlexível e mais curta
Intuitividade dos ResultadosBaixa, já que o valor p é uma métrica derivadaAlta, já que os resultados são diretamente calculados
Checagem dos dados durante o testeNão permitidaPermitida (com cautela)
Velocidade para tomar decisõesDevagar, já que apresenta mais restriçõesRápida, pois há menos restrições
Estimativa da probabilidade de ser melhorNão é possívelPossível, independentemente do número de variações
Estimativa da potencial perdaNão é possívelPossível independentemente da contagem de variações
Declaração de um vencedorPossível quando o tamanho da amostra é alcançado, e o valor está abaixo de um limitePossível, quando a probabilidade de ser melhor está acima de um limite ou a perda potencial está abaixo de um limite
Apuração de resultadosMenos computacionalmente intensivoMais computacionalmente intensivo devido à simulações

Para mais detalhes sobre as diferenças entre as abordagens frequentista e Bayesiana, recomendamos as seguintes referências:

Por que usamos a abordagem Bayesiana

A escolha de usar a abordagem Bayesiana em vez da frequentista na nossa plataforma se deve principalmente ao fato de seus resultados serem muito mais ricos e informativos.

Por exemplo, a abordagem frequentista não prevê que uma variação possa ser a melhor, nem sua potencial perda. Ela depende do alcance de significância estatística para concluir um teste e o resultado simplesmente indica se há ou não uma diferença entre uma variação e a baseline.

Além disso, as limitações do uso da abordagem frequentista muitas vezes não são atraentes para as empresas. Essa abordagem requer, por exemplo, a predefinição do tamanho da amostra e da duração do teste, um recurso que pode desencorajá-las a usá-la.

Esses argumentos apóiam a nossa decisão de escolher a inferência Bayesiana ao invés da frequentista.

A abordagem Bayesiana não elimina o risco de tomar decisões erradas – é uma maneira de tomar decisões melhores diante da incerteza, medindo o impacto de resultados indesejáveis e suas probabilidades.

Analisar testes Bayesianos é muito fácil com a Croct, pois nossos dashboards te permitem acompanhar em tempo real todas as métricas necessárias.

Dashboards mostrando performance
Dashboards mostrando performance

Acesse a conta demo e saiba mais sobre como nossa funcionalidade de testes AB funciona.

Conclusão

A abordagem Bayesiana é um método valioso para te ajudar a tomar decisões com base em dados. Ao contrário do método frequentista, essa abordagem permite permite que você atualize suas crenças à medida que coleta mais dados, o que pode levar a resultados mais precisos e confiáveis.

Crie sua conta gratuitamente e explore nossa plataforma para saber mais sobre como os testes AB podem otimizar os seus resultados.

Vamos crescer juntos!

Descubra as táticas que nossos clientes usam para crescer 20% ou mais.