Como os bots LLM distorcem o tráfego da web
À medida que modelos LLMs e agentes com tecnologia de IA navegam cada vez mais pela web, eles estão silenciosamente remodelando a forma como os dados de tráfego são coletados, analisados e interpretados. Esses bots imitam a navegação humana para recuperar, resumir ou testar conteúdo, e estão fazendo isso com frequência.
De acordo com várias plataformas de análise, mais da metade de todo o tráfego da internet agora vem de bots. E embora alguns bots (como o do Google) sirvam a propósitos legítimos, a nova geração de bots controlados por IA, do ChatGPT, Perplexity, Claude e outros, está introduzindo uma nova camada de ruído nos dados de conversão e experimentação.
A nova era do tráfego de bots
A atividade de bots não é nova, mas a escala e a sofisticação dos bots LLM mudaram o jogo.
Os bots web tradicionais eram fáceis de identificar por meio de user agents ou ranges de IP. Os bots LLM, no entanto, frequentemente rodam JavaScript no client-side, fazem requests no server-side e renderizam conteúdo dinâmico, algo que antes era exclusivo de usuários reais. Pior ainda, eles geralmente não são identificados por meio de user agents ou ranges de IP.
Isso cria um sério ponto cego nas suas métricas:
- Aumenta a contagem de visitantes de sessões não humanas.
- Distorce métricas de engajamento, como duração da sessão ou scroll da página.
- Corrompe dados de conversão em que eventos acionados por bots aparecem como interações legítimas.
Para times de growth e produtos que dependem de estruturas de experimentação precisas, isso não é um problema trivial, mas uma ameaça à qualidade da decisão.
Por que times de growth e produto devem se aprofundar no tema
As taxas de conversão são um KPI fundamental. Quando bots contam como visitantes, mas não convertem, sua taxa de conversão despenca artificialmente. Por outro lado, se um bot aciona eventos ou chamadas de API que imitam conversões, você pode acabar superestimando o sucesso.
Considere o seguinte:
- Uma página de produto visualizada 10.000 vezes por seres humanos com 200 conversões gera uma taxa de conversão de 2%.
- Adicione 3.000 visualizações de bots e, de repente, sua conversão cai para 1,5%.
Isso não é um problema de growth. É um problema de integridade de dados.
Dados mal interpretados se espalham por tudo: avaliações de experimentos, análises de cohort e ciclos de crescimento. Se a sua plataforma de experimentação for alimentada com dados poluídos, ela estará efetivamente otimizando para comportamento não humano.
O problema oculto da taxa de conversão
Filtrar bots depois que os dados chegam à sua ferramenta de análise significa que suas métricas já estão contaminadas.
Bots que renderizam JavaScript no client-side executam seu código, de modo que suas sessões são registradas e suas visualizações de página contabilizadas. Mesmo que você os exclua dos relatórios posteriormente, as contagens de impressão do seu experimento, as cotas de cookies e os segmentos em tempo real já estarão distorcidos.
Isso torna os experimentos iniciais, especialmente aqueles realizados com amostras limitadas, perigosamente pouco confiáveis. Um único pico no tráfego de bots LLM pode mudar o resultado do seu experimento da noite para o dia.
Como as principais plataformas lidam com o tráfego de bots
A tendência é clara: todos estão desenvolvendo uma detecção mais forte, mas a maioria depende fortemente de listas estáticas de user agent e filtros de eventos posteriores.
Listas de bloqueio do IAB
Muitas ferramentas de análise e experimentação utilizam a Lista Internacional de Spiders e Bots do IAB/ABC para classificar tráfego não humano e excluí-lo de relatórios.
O Amplitude bloqueia a ingestão com base em correspondências de user agent com a lista do IAB, o Optimizely aplica a filtragem do IAB na Web e na Experimentação de Recursos, e o Adobe Analytics permite que você habilite regras do IAB e/ou adicione regras de bot personalizadas (user agents e ranges de IP).
Configurações nos SDK
Em algumas plataformas, a filtragem no client-side ocorre por padrão, pois os SDKs já a abrangem. No entanto, você deve prestar atenção a isso se estiver implementando ferramentas de experimentação no server-side.
No Optimizely, por exemplo, você precisa garantir que está passando o user agent em solicitações para habilitar a filtragem de bots.
O Mixpanel filtra alguns bots por padrão, mas recomenda definir $ignore ou user agents com padrões de regex para capturar o restante. Se você não passar os atributos corretos, os bots serão incluídos nas suas métricas.
Filtros de nível de experimento
Em plataformas focadas em experimentação, geralmente há uma opção para filtrar bots apenas de experimentos em vez de aplicar um filtro geral.
O Statsig e a Croct, por exemplo, removem bots conhecidos dos dados de experimento para manter a análise limpa. No entanto, o Statsig ainda exibe flags/variantes para bots, a menos que você os segmente e substitua explicitamente. A Croct, por outro lado, exibe sempre o conteúdo padrão aos bots.
Filtros globais no server-side
O filtro server-side do Tealium descarta eventos cujos user agents correspondem a padrões abrangentes de bots (de "bot/spider" genérico a bots específicos). Da mesma forma, a Croct descarta sessões e eventos inteiros para visitantes que não têm eventos no server-side, o que indica que esses usuários muito provavelmente são apenas bots indexando o conteúdo da página.
O bloqueio na entrada do servidor evita que você polua suas análises ou atinja suas cotas antes da hora.
Inteligência e sinais de comportamento
Fornecedores como Fingerprint detectam automação usando impressões digitais de dispositivos e sinais comportamentais para impedir conversões falsas, navegação com script e tentativas de ATO, complementando filtros baseados em listas com pontuação de risco em tempo real.
Defesas de nível WAF
Na camada de infraestrutura, plataformas como a Vercel fornecem conjuntos de regras gerenciadas que desafiam o tráfego não proveniente do navegador e mantêm uma lista de “bots de IA” para registrar ou negar rastreadores como GPTBot/Perplexity, ao mesmo tempo em que permitem bots verificados.
Atenção: proxies reversos na sua aplicação podem prejudicar a precisão da detecção e aumentar os falsos-positivos.
Dados históricos
Se você habilitar o filtro durante o experimento ou após a coleta de dados, a maioria das ferramentas não corrigirá eventos antigos retroativamente. O Optimizely (e outros) avisa explicitamente que talvez seja necessário descartar ou filtrar manualmente os dados iniciais para evitar viés.
Como a Croct resolve isso
Na Croct, incorporamos o filtro de bots diretamente na camada de personalização e experimentação, não apenas na análise. Isso significa que excluímos bots antes mesmo que eles afetem suas métricas, mantendo suas cotas seguras e intocadas.
Nossa abordagem combina:
- Inteligência de user agent, usando um banco de dados de bots conhecidos mantido ativamente.
- Filtro de dois níveis no client e no server-side, garantindo que os bots nunca vejam conteúdo personalizado ou de uma variante.
- Integridade dos experimentos, excluindo bots de testes AB desde o início.
Isso garante que suas cotas mensais de visitantes reflitam usuários reais, suas taxas de conversão permaneçam confiáveis e seus experimentos produzam resultados estatisticamente válidos.
O filtro de bots do Croct é habilitado por padrão em todos os planos, então você não precisa se preocupar com configurações complexas ou limpeza de dados.
Em resumo
Os robôs de IA não vão desaparecer. Na verdade, eles estão se tornando cada vez mais indistinguíveis dos seres humanos.
Para times de growth e produto, isso significa adaptar pipelines de análise e estruturas de experimentação para reconhecer e neutralizar seu impacto.
O filtro em tempo real da Croct garante que seus insights, experimentos e decisões de personalização sejam baseados em comportamento humano real e não em ruído sintético. Quer saber mais sobre isso? Consulte nossa documentação sobre filtro de bots ou fale com o nosso time.