Calcul de l'importance statistique et didacticiel | Mixpanel
Statistical Significance@2x

Calcul de l'importance statistique et didacticiel

Pourquoi la signification statistique est-elle importante ?

Les entreprises d’aujourd’hui font beaucoup de tests et génèrent beaucoup de données, mais elles doivent également démontrer la validité de leurs résultats. Mixpanel vous montre la signification statistique de vos résultats afin que vous sachiez s’il faut ou non agir sur les données.

Pourquoi la précision des données est-elle si importante ?

Heureusement pour les spécialistes du marketing, il n’existe pas de loi internationale contre la fausse déclaration des données dans un contexte  commercial. Si tel était le cas, beaucoup pourraient être reconnus coupables de crimes intolérables tels que les calculs flous, le dragage de données et le péché , particulièrement pernicieux, de la communication sélective des résultats de tests, ce dernier point où une étude de Wharton a révélé que 57% des spécialistes du marketing s’y livraient fréquemment et sans le savoir. Il en va de même pour les équipes produit, support et analyse du monde entier. Peu de professionnels évaluent l’exactitude statistique de leurs études.

Ne pas savoir si les données sont valides les rend inutiles. Et pire: Cela incite les équipes à penser qu’elles sont guidées par les données alors qu’elles ne le sont pas. Les équipes induites en erreur de cette façon sont moins susceptibles de revérifier leurs données et plus susceptibles de ne découvrir des erreurs qu’après les avoir commises.

Qu’est-ce qui empêche les équipes de vérifier la signification statistique de leurs résultats? D’une part, la méthode elle-même pourrait utiliser une aide marketing. La définition officielle est «un résultat qui aurait peu de chance de se produire si l’hypothèse est nulle» et se trouve généralement à côté de descriptions fascinantes de «tests paramétriques» dans des classiques passionnants comme “Les Méthodes Statistiques Pour les Chercheurs” publié en 1925

Pour les équipes qui n’ont pas le temps de retourner aux études pour obtenir un autre diplôme, voici une version en langage clair et un guide.

Qu'est-ce qu'un test de signification statistique?

Un test de signification statistique mesure si les résultats du test provenant d’une population de l’échantillon sont susceptibles de s’appliquer à l’ensemble de la population. Les équipes peuvent l’utiliser pour déterminer si elles doivent faire confiance aux résultats d’un test A / B. Par exemple, s’ils apprennent que 20% de leurs abonnés adorent un courrier électronique, ils peuvent vérifier si le résultat est significatif avant de l’envoyer à toute la liste.

Les entreprises d’aujourd’hui font beaucoup de tests et génèrent beaucoup de données, mais elles doivent également démontrer la validité de leurs résultats. Sans présomption de validité, les chiffres sont dangereusement fongibles. Ou, comme l’a dit Mark Twain, «Il y a des mensonges, il y a des maudits mensonges, et ensuite il y a des statistiques.

Toute équipe qui souhaite voir un exemple de statistiques douteuses doit simplement lancer une recherche Google sur «les meilleures lignes de sujet des e-mails». Ils trouveront des pages d’études à sondage définitif, dont aucune n’expliquera leur méthodologie, ne citeront leurs données démographiques (typiquement les clients d’une seule entreprise), ou calculera leur propre signification statistique. Nous ne devons pas faire confiance à ce genre de résultat.

Toute équipe qui effectue des tests A / B doit le faire pour son propre public et doit confirmer que toutes les relations qu’elles découvrent sont valides. Par exemple, si un titre particulier influence réellement les taux d’ouverture du courrier électronique ou si la couleur d’un bouton d’incitation à l’action augmente réellement le nombre de clics.

Erreurs de base et comment les éviter

Le fait de faire les tests est important car chaque fois que des équipes testent l’échantillon d’une population plus large, il y a toujours une petite chance que le test ne comprenne que, par exemple, les fans assoiffés de la couleur orange, alors que les goûts de la population plus large ressemblent à un arc-en-ciel. Si un résultat de test est statistiquement significatif, cela voudrait dire que la probabilité que l’échantillon ne comprenait que les amoureux de l’orange est inférieure à un seuil prédéterminé – presque toujours cinq pour cent -, c’est-à-dire que les probabilités sont extrêmement basses et le résultat est probablement valable. (Si les équipes effectuent un test sur l’ensemble de leur population, il n’est pas nécessaire de tester la signification statistique.)

Il existe une grande variété de biais à prendre en compte lors de l’évaluation d’un test statistique. Pendant la Seconde Guerre mondiale, le statisticien Abraham Wald avait quelque chose qui ressemblait au graphique ci-dessous, qui montrait où les avions revenant de la bataille avaient été touchés, et devait déterminer quelles parties des avions devraient recevoir une protection renforcée.

Que faire? La réponse apparemment logique – renforcer la protection là où les avions ont été touchés – est en fait la mauvaise. Pourquoi? Ce sont les avions qui revenaient. La partie invisible de la population – les avions qui ne revenaient pas, sont ceux qui ont été touchés aux endroits qui ne sont pas marqués sur le graphique ci-dessus. Cet effet est appelé le biais du survivant et est l’un des nombreux biais statistiques à prendre en compte lors de l’évaluation de la conception et des résultats d’une expérience. Réfléchissez aux éléments qui poussent et tirent un échantillon de manière à le rendre moins représentatif de l’ensemble de la population: est-il extrêmement biaisé en faveur d’une région géographique? Est-ce que cela dépend des personnes qui répondent aux sondages? L’expérience est-elle impactée par le simple fait que les participants à l’expérience soient conscients du fait que l’expérience est en cours? Les réponses à ce genre de questions devraient éclairer votre réaction aux résultats.

Comment calculer la signification statistique

Le moyen le plus courant de tester la signification statistique est la distribution chi-carré de Pearson, ainsi nommée parce qu’elle a été inventée par un dénommé Pearson. «Chi» est «x» en grec et le test demande aux utilisateurs d’élever leurs données au carré pour accentuer les différences.

Les tests du chi carré sont utilisés pour des ensembles de données discrets, ou des données qui ne tiennent que dans des nombres entiers et ne sont pas ventilés sur un éventail de réponses possibles. Par exemple, les conversions marketing, où les visiteurs convertissent ou ne convertissent pas (soit un ou deux) et ne peuvent pas se situer quelque part entre les deux.

Un test est considéré comme statistiquement significatif s’il existe une très faible probabilité que le résultat soit dû au hasard. En d’autres termes, si la probabilité (p) est inférieure à un seuil que l’équipe a choisi à l’avance (ɑ), également appelée alpha.

Statistiquement significatif = Probabilité (p) <Seuil (ɑ)

Il existe six étapes pour exécuter un test A / B, puis appliquer le test du chi-carré:

Étape 1: Énoncer une hypothèse nulle

Les équipes énoncent d’abord l’hypothèse nulle pour leur test A / B. L’idée de l’hypothèse nulle est qu’elle ne donnera pas de résultats significatifs. Donc, l’hypothèse nulle pourrait être quelque chose comme: «Les preuves ne suggèrent pas que les prospects préfèrent notre ancienne page de destination à notre nouvelle.” L’hypothèse nulle sera soit réfutée ou non réfutée. Ce n’est pas une déclaration affirmative.

Étape 2: Énoncer une hypothèse alternative

Les équipes énoncent une hypothèse qu’elles espèrent prouver. Par exemple, “Les clients préfèrent notre nouvelle page de destination”.

Étape 3: Fixer un seuil

Les équipes déterminent un seuil en pourcentage sous lequel l’hypothèse sera considérée comme valide, appelé ɑ (la lettre grecque alpha). Plus le ɑ est bas, plus le test est rigoureux. Un seuil de cinq pour cent est très strict – une autre façon de penser est que si les résultats du test semblent statistiquement valides, il n’y a qu’une chance sur 20 que le résultat soit une erreur. Un seuil d’erreur plus élevé conviendrait peut-être mieux aux tests dans les entreprises. Toutefois, il est impératif de choisir le seuil avant l’expérience afin d’éviter de laisser le résultat souhaité devenir déterminant pour ce qui est significatif ou non.

Étape 4: Lancer le test

Les équipes effectuent leur test A / B. Par exemple, ils testent une nouvelle variante d’une page de destination par rapport à l’ancienne version et enregistrent les résultats. Vous trouverez ci-dessous des exemples de résultats dans lesquels la nouvelle page de destination A surpasse l’ancienne page de destination B, ce qui prouve la validité de l’hypothèse alternative.

Pour recréer le graphique ci-dessous, les équipes enregistrent les résultats de leur test de page de destination, puis ajoutent leurs résultats sur des lignes et des colonnes.

RÉSULTATS OBSERVÉS

Importance statistique Observation Mixpanel

Statistical Significance Mixpanel Observation

Étape 5: Exécutez le test du chi carré

Le test du chi-carré compare les résultats observés du test A / B aux résultats attendus, ou aux chiffres que l’équipe aurait pu s’attendre à voir s’il n’y avait pas de différence entre les deux pages de destination. Dans cet exemple, le taux de conversion global attendu est de 22%, soit le nombre total de conversions pour les deux pages de destination (4 344) divisé par le nombre total de visites pour les deux pages (19 805).

Les équipes remplacent ensuite les nombres observés (surlignés en vert) par les nombres attendus. Pour calculer chaque valeur attendue, les équipes multiplient le total de la colonne par le total de la ligne et le divisent par le nombre total de visiteurs.

Attendu = (total colonne * total ligne) / nombre total de visiteurs

Attendu = (9 956 * 15 461) / 19 805

= 7772

Répétez le calcul pour chacune des quatre cases. Le graphique qui en résulte est une vue des chiffres que l’équipe aurait enregistrés si les deux pages de destination étaient identiques. Tous les totaux restent les mêmes.

RÉSULTATS ATTENDUS

Statistical Significance Mixpanel Analytics

Signification Statistique Mixpanel Analytics

L’équipe utilise ensuite la méthode du chi-carré pour comparer les résultats observés aux résultats attendus. Pour chacune des cases vertes, les équipes soustraient l’observé de l’attendu, quadrillent le résultat et le divisent par l’attendu.

Khi carré = (attendu – observé) ² / attendu

Khi carré = (7 772 – 7 611) ² / 7 772

Chi carré = 3,34

CHI-CARRE

Mixpanel Statistical Significance Results

Mixpanel – Signification Statistique – Résultats

Maintenant, l’équipe peut compléter le test. Si la probabilité, ou la valeur p, dans la zone bleue ci-dessus, est supérieure à sa valeur correspondante dans une table de distribution chi-carré pour le seuil de cinq pour cent, l’équipe a découvert une relation statistiquement significative.

Dans cet exemple, la valeur p de 30,58 est supérieure à la valeur de seuil de cinq pour cent de 3,84. Ainsi, les résultats sont statistiquement significatifs.

Étape 6: Appliquer les résultats

Si une équipe détermine que les résultats de son test A / B sont statistiquement significatifs, ils doivent pouvoir appliquer ce qu’ils ont appris à l’ensemble de leurs utilisateurs. Dans cet exemple, les spécialistes du marketing pourraient utiliser la page de destination A avec tout leur public. Si les résultats n’avaient pas été statistiquement significatifs, l’équipe aurait pu à nouveau tester avec un échantillon plus grand.

L’exemple ci-dessus utilise beaucoup de mathématiques. Les équipes peuvent également gérer la signification à l’aide d’un outil de Microsoft Excel ou d’un simple calculateur de signification en ligne. C’est beaucoup plus facile, mais il est utile de le faire plusieurs fois pour avoir une idée des calculs derrière ces tests.

Exemples d'utilisation de la signification statistique pour les tests A / B

Toutes les équipes qui souhaitent avoir plus confiance en leurs décisions peuvent tirer parti des tests de signification statistique. Par exemple:

Les équipes marketing peuvent tester:

  • E-mails ouverts, clics et réponses
    Conversions de pages de destination
  • Taux de réponse aux notifications
  • Taux de conversion des notifications push
  • Les incitations à action du site Web
  • Les réactions des clients au lancement de produits
  • Réactions des clients à la nouvelle messagerie

Les équipes de produits peuvent tester:

  • Réactions des clients à la tarification
  • Demandes des clients pour une nouvelle fonctionnalité
  • Réactions des utilisateurs à un nouveau design
  • Réactions des utilisateurs aux nouvelles fonctionnalités

Les équipes d’analyse peuvent tester:

  • Études client
  • Études de prix
  • Total des études de marché adressables
  • Études internes

Les équipes de support client peuvent tester:

  • Métriques pour les nouveaux canaux de résolution
  • Temps moyen de traitement
  • Satisfaction client
  • Score de net-promoteur

Quand ne pas utiliser le test de signification

Les tests de signification ne doivent pas nécessairement être appliqués à tous les tests. À moins que l’équipe ne puisse le calculer rapidement, ils doivent réserver ce genre de test pour les cas où le fait de savoir si les résultats des tests sont valables leur diminue les efforts nécessaires et leur fait gagner du temps, de l’argent ou de la crédibilité. Par exemple, lorsqu’une fonctionnalité mal conçue sera difficile à supprimer ultérieurement, ou si une campagne de marketing destinée à l’ensemble de la liste des abonnés de la société risque de diminuer la confiance des utilisateurs. Mais si l’inconvénient est sans conséquence, les tests de signification ne peuvent que ralentir les progrès.

«Lorsque les décisions sont peu coûteuses ou réversibles, essayez-les. De toute façon, la plupart des choses sont réversibles », déclare Farhan Thawar, entrepreneur en série et CTO de Helpful.com. «Essayer et échouer, c’est apprendre. Mais s’il y a des conséquences que vous ne pouvez pas inverser – ou, comme le dit Jeff Bezos, des passages d’où (desquels) vous ne pouvez pas revenir, testez-les.

Le mieux c'est d’utiliser du bon jugement

Comme le dit le vieux mathématicien, tous les modèles sont faux, mais certains sont utiles. L’importance statistique n’est pas une couche de braises à balayer les collègues lorsqu’ils se présentent à une réunion pour bavarder avec enthousiasme des chiffres qu’ils viennent de publier. Ce n’est pas non plus un commandement. C’est simplement un outil pour réduire les erreurs et prendre des décisions avec plus de confiance.

Il existe également souvent des critères plus importants pour tester la validité d’une étude que la signification statistique, comme par exemple s’assurer que les données ne sont pas contaminées par les biais du testeur. Comme le disait Tom Redman, auteur de Data Driven, à la Harvard Business Review, la question importante est: «Le résultat est-il valable sur le marché, ne serait-ce que pour une brève période? Je suis vraiment pour l’utilisation des statistiques, mais toujours en les utilisant avec discernement.. “

Mesurez les métriques qui comptent avec Mixpanel

Rejoignez plus de 30 000 entreprises avant-gardistes qui utilisent Mixpanel pour créer de meilleurs produits.

Inscrivez-vous gratuitement