Tudo sobre a abordagem Bayesiana para testes AB

ExperimentaçãoPor Isabella Beatriz Silva e Bernardo Favoreto

Testes AB são essenciais para tomadas de decisão em negócios digitais, seja para escolher um conteúdo específico em uma campanha de marketing ou implementar uma nova funcionalidade. Este post traz uma perspectiva detalhada sobre a abordagem Bayesiana, começando pelas métricas utilizadas na análise.

Como planejar seus testes AB [Template grátis]Baixe esse passo a passo para aprender a priorizar, documentar e estimar a duração dos seus experimentos.
Livro mostrando opções e resultados.

Para realizar um teste AB, dividimos os usuários aleatoriamente em diferentes grupos e atribuímos experiências diferentes para cada um. O conteúdo de cada uma dessas versões é chamado de variante. Com o processo de randomização correto, podemos atribuir qualquer diferença nos resultados (por exemplo, um aumento ou redução na taxa de conversão) à mudança que estamos testando.

Entretanto, antes de tomar decisões de acordo com os resultados, devemos entender se as diferenças observadas são realmente consequência das mudanças realizadas no teste, ou meramente um acaso.

Ao lançar uma moeda ao ar por um número limitado de vezes, veremos somente cara ou somente coroa. Isso pode nos levar à conclusão de que o mais provável é que se obtenha sempre a face que apareceu com mais frequência. No entanto, se lançássemos mais vezes, teríamos uma visão mais completa de todas as possibilidades.

Na Croct, usamos o método Bayesiano para analisar os resultados de um teste AB, pois os insights fornecidos são mais ricos e informativos do que outras abordagens mais simplistas. Isso nos ajuda a evitar armadilhas comuns de análises estatísticas e facilita a compreensão para pessoas não técnicas.

Principais métricas da abordagem Bayesiana

Estas são as principais métricas para uma análise Bayesiana:

  • Taxa de conversão

    A conversão representa uma ação do usuário. No caso de um site, elas costumam ser o envio de um formulário, o avanço no fluxo de navegação principal ou a conclusão de um pedido. Entender qual porcentagem de usuários realiza essas ações permite avaliar o sucesso da sua estratégia e identificar pontos de melhoria.

  • Uplift

    A melhoria relativa na taxa de conversão entre uma variante e a variante baseline.

  • Probabilidade de ser a melhor (PBB)

    Indica a probabilidade a longo prazo de uma variante superar todas as outras variantes, considerando os dados coletados desde a criação ou alteração de qualquer variação incluída no teste.

  • Perda potencial

    O risco de escolher uma variante em detrimento de outra e ela não ser, de fato, a que traz melhoria de performance; representa a perda potencial na taxa de conversão.

Frequentemente, profissionais usam essas métricas associadas a alguma heurística para declarar automaticamente a variante vencedora, como, por exemplo, ter um número mínimo de sessões ou de conversões por variante.

O Teorema de Bayes

O teorema de Bayes é um dos principais conceitos da teoria da probabilidade. Ele descreve a probabilidade de um evento ocorrer quando condicionado por qualquer evidência relacionada ao conhecimento prévio da taxa de ocorrência. Podemos usá-lo, por exemplo, para descrever a probabilidade de uma conversão acontecer dada uma estimativa inicial de 7% (conhecimento prévio) e condicionada aos dados de várias sessões (evidência).

Embora não pareça muito intuitivo inicialmente, esse comportamento é semelhante à forma como nós, humanos, pensamos. Quando não há evidências de que algo possa acontecer, tendemos a acreditar que é impossível. No entanto, quando isso acontece uma, duas vezes e assim por diante, fica claro que a probabilidade de esse evento acontecer novamente é maior. Assim, o cérebro ajusta o peso das suas ligações neurais para incorporar a nova evidência; atualizar os pesos das ligações do cérebro é análogo ao uso do teorema de Bayes para atualizar uma distribuição de probabilidade.

A definição matemática do Teorema de Bayes é:

P(AB)=P(BA)P(A)P(B)=P(AB)P(B)P(A|B) = \frac{P(B|A) P(A)}{P(B)} = \frac{P(A \cap B)}{P(B)}

O símbolo | significa "dado''. Assim, o lado esquerdo da equação significa "a probabilidade do evento A acontecer, dado que B aconteceu". Traduzindo a equação para um caso real de taxa de conversão, temos:

P(ConversionRateData)=P(DataConversionRate)P(ConversionRate)P(Data)P(ConversionRate|Data) = \frac{P(Data|ConversionRate) P(ConversionRate)}{P(Data)}

O teorema utiliza novos dados e conhecimento prévio sobre a taxa de conversão para atualizar progressivamente o lado esquerdo, ou seja, a variável de interesse.

A ideia é que para cada amostra, o lado esquerdo da equação seja um único valor de taxa de conversão. Com várias amostras, pode-se criar uma distribuição que representa a probabilidade de a taxa de conversão assumir diferentes valores.

Distribuição de probabilidade

A distribuição de probabilidade é o principal ponto da análise Bayesiana, e é fundamental para entender os resultados obtidos. Normalmente, uma distribuição é representada por uma função massa de probabilidade (com variáveis discretas) ou uma função de densidade de probabilidade (com variáveis contínuas).

A definição técnica é uma função matemática que dá as probabilidades de ocorrência de diferentes resultados possíveis para um experimento. Em outras palavras, a distribuição de probabilidade descreve a probabilidade de uma variável aleatória assumir um valor específico. Por exemplo, a taxa de conversão é provavelmente de 5% para um determinado conjunto de dados.

Analisar a representação visual de uma distribuição costuma facilitar bastante seu entendimento, por isso trazemos a imagem abaixo. No eixo X estão os valores que uma variável aleatória pode assumir, enquanto o eixo Y mede a densidade de distribuição para cada valor. O pico de distribuição identifica a área de maior densidade (ou seja, a área com valores de probabilidade mais prováveis).

Visualmente, o exemplo tem a seguinte forma:

Gráfico de distribuição de probabilidade para .1000 amostras com uma taxa de conversão nominal de 5%. No eixo Y, a densidade de distribuição de cada valor de taxa do eixo X.
A distribuição de probabilidade para 1.000 amostras com uma taxa de conversão nominal de 5%.

Neste exemplo, podemos ver que a taxa de conversão mais provável é em torno de 5%, o ponto de maior densidade.

Para criar esta imagem, simulamos um exemplo usando 1.000 amostras, das quais 50 foram convertidas para uma taxa de conversão nominal de 5%. Como nada é certo em estatística, a distribuição de probabilidade é uma ótima maneira de representar a incerteza, definindo o intervalo de valores que uma variável aleatória pode assumir, bem como a probabilidade de que ela assuma cada valor.

Vale a pena notar que o valor da densidade não é precisamente a probabilidade, mas eles estão diretamente correlacionados (ou seja, uma densidade mais alta representa uma probabilidade mais alta).

A maior vantagem de se utilizarem distribuições de probabilidade é a redução de incertezas à luz de novas evidências (dados). Para ilustrar este ponto, criamos outro exemplo, dessa vez com o resultado da observação de 10.000 amostras (10x mais do que no exemplo anterior):

Gráfico de distribuição de probabilidade para .1000 amostras com uma taxa de conversão nominal de 5%. No eixo Y, a densidade de distribuição de cada valor de taxa do eixo X.
A distribuição de probabilidade para 10.000 amostras com uma taxa de conversão nominal de 5%.

O intervalo de pontos diminui para um intervalo de 1%, e o valor de densidade mais alto está onde deveria estar, muito próximo de 5%. Visualmente fica claro que agora há menos incerteza na distribuição, pois os valores estão mais concentrados em torno do valor médio de ~5%.

Isso contribui para que se tenha uma intuição sobre o impacto de adicionar mais dados à análise e sobre por quê é crucial que haja um número mínimo de amostras antes de encerrar um teste.

Distribuição de probabilidade anterior

Com a intuição do teorema de Bayes e a distribuição de probabilidade, fica mais fácil entender a probabilidade anterior e posterior.

A distribuição de probabilidade anterior é uma forma de incorporar o conhecimento que se tem para calcular a probabilidade posterior. Ele expressa nosso conhecimento sobre um valor (por exemplo, a taxa de conversão) antes de considerar qualquer evidência.

Podemos definir a probabilidade anterior de diversas maneiras:

  • Usando informações atuais ou de experimentos anteriores

    Podemos usar as métricas atuais ou de experimentos anteriores para construir a probabilidade anterior. Por exemplo, se sabemos que o CTA de um banner tem uma taxa de clique de 5%, é razoável usar este valor como a probabilidade anterior. Como mencionado anteriormente, a confiança em uma distribuição de probabilidade aumenta com mais amostras, o que também é verdade para a distribuição posterior. Para o exemplo de 5%, a distribuição poderia ser construída com 1.000 ou 10.000 amostras, para confiança baixa e alta, respectivamente.

  • Usando um conhecimento prévio subjetivo

    Também é possível usar a opinião de alguém – de preferência a de alguém com experiência, para fazer uma suposição embasada ao invés de uma completamente cega. Um especialista em marketing, por exemplo, pode estimar que a taxa de clique do CTA de um banner é de 10%. Provavelmente, a taxa de conversão não será exatamente 10%, mas definitivamente não será 0,001% nem 99,9%.

  • Usando uma prévia não informativa

    A prévia não informativa é apropriada para refletir um equilíbrio entre os resultados (por exemplo, o fato de se ter uma conversão ou não) quando nenhuma informação estiver disponível. A maioria das plataformas de teste AB começa o experimento com uma prévia pouco informativa devido à falta de informações sobre as hipóteses específicas de cada cliente.

Vale ressaltar que depois de computar a distribuição posterior uma vez, ela se torna a probabilidade anterior para o cálculo seguinte. Portanto, a escolha de uma distribuição prévia inicial não deve exigir muito esforço, pois ela se torna gradualmente irrelevante com mais evidências.

Distribuição de probabilidade posterior

A probabilidade posterior resulta da aplicação do teorema de Bayes aos novos dados e ao conhecimento adquirido anteriormente. Como mencionado, a probabilidade posterior da rodada tt é a anterior da rodada t+1t + 1 , onde o sistema aciona cada rodada após coletar novos dados.

Esse comportamento permite melhorar as previsões da taxa de conversão usando novas evidências. Se a análise for executada indefinidamente, a confiança sobre a taxa de conversão pode chegar a 99,99%, mas nunca será 100%.

A distribuição posterior é o resultado mais importante porque permite calcular cada métrica a ser exibida nos relatórios. Assim, o principal objetivo do mecanismo Bayesiano é atualizar gradualmente a distribuição posterior para melhorar a qualidade das estimativas.

Como a Croct trabalha com testes AB

Na Croct utilizamos a abordagem Bayesiana para analisar testes AB. Nossa plataforma calcula as métricas em tempo real e sem o uso de amostragem, conforme novos dados entram no sistema. Com isso, garantimos a qualidade dos resultados e evitamos armadilhas comuns em alguns métodos estatísticos.

Ilustração de dashboards mostrando a performance de diferentes variantes, com conversion rate, improvement, conversions, PBB e potential loss
Dashboards ilustrando performance

Você tem alguma dúvida sobre como nossa plataforma funciona? Saiba mais aqui ou crie sua conta gratuitamente e explore nossa plataforma.

Vamos crescer juntos!

Descubra as táticas que nossos clientes usam para crescer 20% ou mais.