2 📁 Estrutura do Estudo
Quando realizamos testes de comparação entre grupo, sempre buscamos comparar os desempenhos entre eles, por exemplo:
Campanhas de marketing: Qual anuncio converte mais? O anúncio A ou B? Qual grupo FL_ATIVADO um produto após uma ação grupo A, grupo B ou controle (que não recebeu a ação)?
Cartões de Crédito: Testar se oferecer 1% de cashback em todas as compras ou 2% em categorias específicas (como supermercados) aumenta a ativação de novos cartões.
Seguros: Comparar o impacto de mensagens focadas na proteção da família versus benefícios financeiros para aumentar as cotações de seguros de vida.
Empréstimos: Avaliar se taxas de juros personalizadas com base no perfil de crédito do cliente aumentam a aceitação de propostas de empréstimo em comparação com uma taxa padrão.
Educação Online: Testar se enviar e-mails motivacionais semanais ou lembretes automáticos quando o aluno fica inativo aumenta a finalização dos cursos em comparação a não enviar nenhuma comunicação.
Aplicativos de Saúde: Comparar o impacto de notificações gamificadas com desafios versus notificações informativas personalizadas para aumentar o uso diário do aplicativo, em relação a não enviar notificações.
E-commerce de Moda: Avaliar se oferecer desconto progressivo por valor gasto ou frete grátis acima de determinado valor aumenta o ticket médio das compras, comparado ao cenário sem promoções.
2.1 📁 Estrutura do Dataset
Todos os exemplos terão basicamente 4 métricas em comum, elas podem se referir ao total de uma campanha, ou de subgrupos dentro do seu estudo.
Qtde Teste: Total de clientes selecionados para participar de uma ação de ativação de cartãoQtde Conversao Teste: Total de clientes selecionados que ativaram o cartão em um determinado período de tempoQtde Controle: Grupo de clientes com o mesmo perfil dos clientes selecionados para ação, porém não receberam nenhum estimulo para conversão (ativação).Qtde Conversao Controle: Total de cliente possuem o mesmo perfil do grupo selecionado e que não participou da ação e ativou o cartão no mesmo período de tempo do grupo selecionado
Importante ressaltar, que não precisamos nos restringir a 2 grupos, podemos fazer um teste A/B/C e Controle, etc, mas fique atento se terá amostra o suficiente para realizar todas as comparações.
A partir dessas colunas, serão calculadas métricas adicionais, como:
taxa_conv_testetaxa_conv_controledelta_conv(diferença bruta entre as conversões)incremento_contas(efeito incremental estimado)lift(taxa relativa de melhoria)resultado_conv(resultado do teste de hipótese)
A partir dessas métricas, iremos usar os testes de hipotese para avaliar se realmente o resultado obtido é significante em termos estatisticos.
Importante Não descarte sua mensuração por não obter resultados. Investigue o que aconteceu, há algumas coisas a serem investigadas:
O experimento aconteceu de maneira correta?
Seu grupo controle realmente é comparável com o grupo de teste?
Faltou volumetria?
Sua oferta é realmente boa?
Não ter resultado, também é um resultado!!!
2.2 🧠 Metodologia Estatística
Para avaliar a significância das diferenças observadas entre o grupo controle e o grupo teste, utilizamos o teste z para duas proporções via statsmodels.stats.proportion.proportions_ztest.
2.2.1 Etapas:
- Cálculo da taxa de conversão por grupo
- Diferença bruta e percentual (lift)
- Teste de hipótese (H₀: taxas iguais)
- Interpretação da significância (p-valor)
- Construção de métricas de impacto, como contas incrementais
Além disso, há suporte ao cálculo do Efeito Mínimo Detectável (EMD), baseado em:
- Conversão esperada
- Poder do teste (geralmente 80%)
- Nível de significância (geralmente 5%)
Com uso da função NormalIndPower do statsmodels, é possível determinar o tamanho de amostra necessário para detectar um determinado efeito com o poder especificado.
2.3 📦 Ferramentas Utilizadas
pandas: manipulação de dadosscipy.statsestatsmodels: testes estatísticos e cálculo de poderopenpyxl: exportação dos resultados para Excel (caso desejado)