Calcul de l'importance statistique et didacticiel

Calcul de l’importance statistique et didacticiel

Les entreprises d’aujourd’hui font beaucoup de tests et génèrent beaucoup de données, mais elles doivent également démontrer la validité de leurs résultats. Mixpanel vous montre la signification statistique de vos résultats afin que vous sachiez s’il faut ou non agir sur les données.

Apprenez à choisir les métriques qui comptent.

Heureusement pour les spécialistes du marketing, il n’existe pas de loi internationale contre la fausse déclaration des données dans un contexte  commercial. Si tel était le cas, beaucoup pourraient être reconnus coupables de crimes intolérables tels que les calculs flous, le dragage de données et le péché , particulièrement pernicieux, de la communication sélective des résultats de tests, ce dernier point où une étude de Wharton a révélé que 57% des spécialistes du marketing s’y livraient fréquemment et sans le savoir. Il en va de même pour les équipes produit, support et analyse du monde entier. Peu de professionnels évaluent l’exactitude statistique de leurs études.

Ne pas savoir si les données sont valides les rend inutiles. Et pire: Cela incite les équipes à penser qu’elles sont guidées par les données alors qu’elles ne le sont pas. Les équipes induites en erreur de cette façon sont moins susceptibles de revérifier leurs données et plus susceptibles de ne découvrir des erreurs qu’après les avoir commises.

Qu’est-ce qui empêche les équipes de vérifier la signification statistique de leurs résultats? D’une part, la méthode elle-même pourrait utiliser une aide marketing. La définition officielle est «un résultat qui aurait peu de chance de se produire si l’hypothèse est nulle» et se trouve généralement à côté de descriptions fascinantes de «tests paramétriques» dans des classiques passionnants comme “Les Méthodes Statistiques Pour les Chercheurs” publié en 1925

Pour les équipes qui n’ont pas le temps de retourner aux études pour obtenir un autre diplôme, voici une version en langage clair et un guide. 

Qu'est-ce qu'un test de signification statistique?

Un test de signification statistique mesure si les résultats du test provenant d’une population de l’échantillon sont susceptibles de s’appliquer à l’ensemble de la population. Les équipes peuvent l’utiliser pour déterminer si elles doivent faire confiance aux résultats d’un test A / B. Par exemple, s’ils apprennent que 20% de leurs abonnés adorent un courrier électronique, ils peuvent vérifier si le résultat est significatif avant de l’envoyer à toute la liste.

Les entreprises d’aujourd’hui font beaucoup de tests et génèrent beaucoup de données, mais elles doivent également démontrer la validité de leurs résultats. Sans présomption de validité, les chiffres sont dangereusement fongibles. Ou, comme l’a dit Mark Twain, «Il y a des mensonges, il y a des maudits mensonges, et ensuite il y a des statistiques.

Toute équipe qui souhaite voir un exemple de statistiques douteuses doit simplement lancer une recherche Google sur «les meilleures lignes de sujet des e-mails». Ils trouveront des pages d’études à sondage définitif, dont aucune n’expliquera leur méthodologie, ne citeront leurs données démographiques (typiquement les clients d’une seule entreprise), ou calculera leur propre signification statistique. Nous ne devons pas faire confiance à ce genre de résultat.

Toute équipe qui effectue des tests A / B doit le faire pour son propre public et doit confirmer que toutes les relations qu’elles découvrent sont valides. Par exemple, si un titre particulier influence réellement les taux d’ouverture du courrier électronique ou si la couleur d’un bouton d’incitation à l’action augmente réellement le nombre de clics.

Erreurs de base et comment les éviter

Le fait de faire les tests est important car chaque fois que des équipes testent l’échantillon d’une population plus large, il y a toujours une petite chance que le test ne comprenne que, par exemple, les fans assoiffés de la couleur orange, alors que les goûts de la population plus large ressemblent à un arc-en-ciel. Si un résultat de test est statistiquement significatif, cela voudrait dire que la probabilité que l’échantillon ne comprenait que les amoureux de l’orange est inférieure à un seuil prédéterminé – presque toujours cinq pour cent -, c’est-à-dire que les probabilités sont extrêmement basses et le résultat est probablement valable. (Si les équipes effectuent un test sur l’ensemble de leur population, il n’est pas nécessaire de tester la signification statistique.)

Il existe une grande variété de biais à prendre en compte lors de l’évaluation d’un test statistique. Pendant la Seconde Guerre mondiale, le statisticien Abraham Wald avait quelque chose qui ressemblait au graphique ci-dessous, qui montrait où les avions revenant de la bataille avaient été touchés, et devait déterminer quelles parties des avions devraient recevoir une protection renforcée.

Que faire? La réponse apparemment logique – renforcer la protection là où les avions ont été touchés – est en fait la mauvaise. Pourquoi? Ce sont les avions qui revenaient. La partie invisible de la population – les avions qui ne revenaient pas, sont ceux qui ont été touchés aux endroits qui ne sont pas marqués sur le graphique ci-dessus. Cet effet est appelé le biais du survivant et est l’un des nombreux biais statistiques à prendre en compte lors de l’évaluation de la conception et des résultats d’une expérience. Réfléchissez aux éléments qui poussent et tirent un échantillon de manière à le rendre moins représentatif de l’ensemble de la population: est-il extrêmement biaisé en faveur d’une région géographique? Est-ce que cela dépend des personnes qui répondent aux sondages? L’expérience est-elle impactée par le simple fait que les participants à l’expérience soient conscients du fait que l’expérience est en cours? Les réponses à ce genre de questions devraient éclairer votre réaction aux résultats.

Comment calculer la signification statistique

Le moyen le plus courant de tester la signification statistique est la distribution chi-carré de Pearson, ainsi nommée parce qu’elle a été inventée par un dénommé Pearson. «Chi» est «x» en grec et le test demande aux utilisateurs d’élever leurs données au carré pour accentuer les différences.

Les tests du chi carré sont utilisés pour des ensembles de données discrets, ou des données qui ne tiennent que dans des nombres entiers et ne sont pas ventilés sur un éventail de réponses possibles. Par exemple, les conversions marketing, où les visiteurs convertissent ou ne convertissent pas (soit un ou deux) et ne peuvent pas se situer quelque part entre les deux.

Un test est considéré comme statistiquement significatif s’il existe une très faible probabilité que le résultat soit dû au hasard. En d’autres termes, si la probabilité (p) est inférieure à un seuil que l’équipe a choisi à l’avance (ɑ), également appelée alpha.

Statistiquement significatif = Probabilité (p) <Seuil (ɑ)

Il existe six étapes pour exécuter un test A / B, puis appliquer le test du chi-carré:

Metrics that matter

Build the right analytics strategy for your products.