Como o mecanismo de teste AB da Croct funciona

ExperimentaçãoPor Isabella Beatriz Silva e Bernardo Favoreto

Desde o lançamento da nossa plataforma, nosso time de customer success recebe perguntas como:

  • Como calcular os resultados de um experimento?
  • Como escolher a variante vencedora?
  • Como determinar a duração de um experimento?

Como já destacamos em posts anteriores sobre o tema, utilizamos a abordagem Bayesiana para análise de testes AB feitos com a Croct. Para dar uma visão cristalina sobre como processamos os dados de experimentos, decidimos trazer uma visão ampla do fluxo de trabalho.

Calculando as métricas de experiência

Um teste AB pode ser executado por muitos dias antes de mostrar resultados estáveis. No entanto, diferentemente dos mecanismos que usam a abordagem frequentista, nossa plataforma calcula as métricas em tempo real, à medida que novas evidências (ou seja, dados) são incorporadas à distribuição de probabilidade. Assim, garantimos que a confiança nas métricas aumenta gradualmente à medida que o sistema coleta mais dados.

Definindo uma baseline

Em geral, criamos testes AB com o objetivo de encontrar uma variante melhor do que a versão atual (que chamamos de baseline). No entanto, não há garantias de que sempre haverá uma baseline, por isso fornecemos mecanismos para definir automaticamente qual variante é a baseline nesses casos.

Para definir a baseline, selecionamos dinamicamente a pior variante em termos de taxa de conversão como base para comparação. Ela permite calcular métricas relativas para ajudar os usuários a entender como as melhores variantes se comparam à pior.

Entendendo as métricas

Após definir-se a baseline, é importante acompanhar as principais métricas, que estão diretamente relacionadas e são fundamentais para que se tenha resultados conclusivos.

Table showing a Bayesian analysis for an AB test with two variants.
Análise Bayesiana para um teste AB com duas variantes.

Taxa de conversão

A taxa de conversão é a principal métrica para entender o desempenho de cada variante. Por exemplo, se uma variante tiver 50 conversões em 1.000 sessões, a taxa de conversão será de 5%.

Uplift

O uplift é uma métrica que só faz sentido quando comparada a uma baseline.

Como mencionado acima, ela representa a diferença relativa entre a taxa de conversão de uma variante e a baseline. Por exemplo, se uma variante tiver uma taxa de conversão de 7% em relação aos 5% da baseline, o aumento será de 40%.

Intervalos de confiança

Os intervalos de confiança são úteis para representar o nível de incerteza de uma estimativa. Eles indicam a probabilidade do valor real (ou seja, a taxa de conversão) estar dentro do intervalo.

Outra característica essencial dos intervalos de confiança é que seu tamanho diminui à medida que o sistema coleta mais evidências. Isso é fundamental pois aumenta a certeza na estimativa, proporcionando ainda mais confiança sobre a taxa de conversão.

A construção de um intervalo com 1.000 amostras, por exemplo, resulta em:

  • 95% de intervalo de confiança: 6,9% < taxa de conversão < 10,3%
  • Taxa de conversão mais provável para a variante A: 8,5%
  • Tamanho do intervalo em pontos percentuais: 3,5%

Leia-se "com 95% confiança, a taxa de conversão real está entre 6,9% e 10,3%". O tamanho do intervalo indica uma incerteza significativa (cerca de 40% de variação) devido ao baixo número de amostras (1.000).

Mantendo a mesma taxa de conversão média de ~8,5%, o intervalo para 10.000 amostras é:

  • 95% intervalo de confiança: 8,0% < taxa de conversão < 9,0%
  • Taxa de conversão mais provável para a variante A: 8,5%
  • Tamanho do intervalo em pontos percentuais: 1,1%

Os possíveis valores para a taxa de conversão ficam muito mais próximos da real. Além disso, o tamanho do intervalo é consideravelmente menor, representando uma variação de ~12%.

Resumindo, ao lidar com probabilidade, os intervalos de confiança nos dão uma dimensão sobre a incerteza e aumentam a confiança nas decisões.

Probabilidade de ser melhor

Conhecida em inglês como Probability to Be Best (PBB), a probabilidade de ser melhor é a mais importante entre todas as métricas Bayesianas de decisão. Idealmente, devemos declarar uma variante como vencedora somente se sua probabilidade de ser melhor ultrapassar um limiar predefinido. Se houver um empate na perda potencial entre várias variantes, você deve usar a PBB para decidir qual delas é a vencedora.

Na abordagem Bayesiana, computar a PBB envolve simular dezenas de milhares de exemplos. A cada passo, a simulação mostra um valor aleatório retirado da distribuição de cada variante e compara estes valores para verificar qual deles “ganha” aquela rodada (ou seja, aquela que tem a maior taxa de conversão).

Se executarmos 10.000 simulações, por exemplo, e o limiar for de 95%, uma das variantes deve vencer 9.500 ou mais rodadas para ser declarada vencedora. Como o nome sugere, a probabilidade de ser a melhor representa precisamente a probabilidade de uma variante ser a melhor entre todas.

Em geral, um valor razoável para o limiar vencedor é de 95%. No entanto, você pode adaptar o limiar para o seu caso de uso.

Perda potencial

A perda potencial é a segunda métrica mais importante para decidir se uma variante é vencedora. Ela representa o quanto uma variante pode reduzir a taxa de conversão caso ela não seja, de fato, a melhor.

Não há um valor recomendado para esta métrica, e em caso de empate, a PBB decide a vencedora.

Aguardando estabilidade

Às vezes, os resultados podem não ser conclusivos, o que significa que as métricas ainda podem mudar drasticamente. Para avaliar se você pode considerar que a experiência é estável, sugerimos que você verifique se:

  • Cada variante tem pelo menos pelo menos 1.000 sessões
  • Cada variante apresenta pelo menos 25 conversões.

Declarando uma variante vencedora

Na versão atual, nossa plataforma ainda não declara automaticamente uma variante vencedora. Para tomar essa decisão, você pode verificar se as seguintes condições são satisfeitas:

  • Cada variante tem pelo menos 1.000 sessões
  • Cada variante apresenta pelo menos 25 conversões
  • A probabilidade de ser a melhor está acima de 95%
  • A perda potencial está abaixo de 1%
  • O teste está em execução há pelo menos uma semana.

Alguns desses requisitos são padrões de mercado, enquanto outros são sugestões da Croct. Eles garantem que os resultados do teste tenham alcançado alguma estabilidade, o que significa que, provavelmente, ele não mudará drasticamente.

Ignorar tais requisitos pode resultar em falsos positivos. Por exemplo, em um teste com 2 variantes, 1.000 sessões cada, 10 conversões para a variante A e 1 para a variante B, as métricas devem mostrar que:

  • A variante A tem 99,93% de probabilidade de ser a melhor
  • A perda potencial de escolher A sobre B é 0,0000%.

Assim, se as métricas fossem o único fator decisivo, a variante A seria declarada vencedora. No entanto, como há muito pouca evidência para se tirar conclusões, essa decisão possivelmente produziria um resultado pior do que o esperado, mesmo que essas duas métricas, isoladamente, indiquem que praticamente não há chance de isso acontecer.

Crie sua conta gratuitamente e explore nossa plataforma.

Vamos crescer juntos!

Descubra as táticas que nossos clientes usam para crescer 20% ou mais.