Significância estatística

O sinal de que a diferença entre duas versões provavelmente é real, e não fruto do acaso.

Hard

O que é

Significância estatística é o que separa um resultado confiável de uma coincidência. Quando você roda um teste A/B e a versão B converte um pouco mais, a pergunta é se essa diferença existe de verdade ou se foi sorte da amostra. A significância é o critério que responde isso, dada a quantidade de dados que você juntou.

O motivo de ela existir é que números pequenos enganam. Com poucos usuários, qualquer versão pode parecer melhor por puro acaso. Declarar vitória cedo, com amostra pequena, faz o time tomar decisão baseada em ruído e depois se frustrar quando o ganho não se confirma em produção.

Na prática, ela vem junto de dois cuidados: ter amostra suficiente antes de olhar o resultado, e definir o critério de sucesso antes de começar. Espiar o teste toda hora e parar no momento que dá a resposta que você queria é uma forma comum de se enganar com estatística.

Em uma frase

Calma, a diferença ainda não tem significância estatística, então não dá pra cantar vitória pra versão B.

A pergunta que ele responde

Como sei se o resultado do meu teste A/B é real ou só sorte da amostra?

Quando usar

Ao avaliar o resultado de qualquer teste A/B ou experimento, pra decidir se a diferença observada é confiável.

Como não usar

Parar o teste no momento em que o número favorece a sua hipótese, ou confundir um resultado significativo mas minúsculo com um ganho que vale agir.

Na prática

A versão B parece ganhar no segundo dia, mas o time espera a amostra fechar pra ver se a diferença é significativa antes de decidir.

Não confunda com

Significância estatística não é relevância prática: significância diz que a diferença provavelmente é real, relevância diz que ela é grande o bastante pra valer a pena. Um ganho pode ser real e pequeno demais pra importar.

Dados

Em inglês

Statistical Significance

Pronúncia

n/a

Também chamado de

significância estatística, valor-p, p-value

Origem

n/a

Fonte

Saiba mais

Evan Miller, material sobre A/B test sample size e significance