Statistische Signifikanz berechnen – ein Tutorial

Heutige Unternehmen testen viel und generieren Unmengen von Daten, jedoch müssen sie auch die Richtigkeit ihrer Resultate demonstrieren. Mit Mixpanel sehen Sie die statistische Bedeutung Ihrer Resultate und ob Sie darauf reagieren sollten oder nicht.

Viele Vermarkter können von Glück sprechen, dass es kein internationales Gesetz bezüglich falscher Darstellung von Daten in einem Geschäftsumfeld gibt. Wenn es solches Gesetz gäbe, könnten viele für schuldig befunden werden, für Fälle wie Fuzzy-Mathe, Datenfischen und der besonders üblen Sünde des P-Hacking, die laut einer Wharton-Studie 57 Prozent der Vermarkter häufig und oft unwissentlich begehen. Ähnliches gilt für Produkt-, Support- und  Analyse-Teams auf der ganzen Welt. Nur wenige Fachleute bewerten die statistische Genauigkeit ihrer Studien.

Nicht zu wissen, ob die Daten gültig sind, macht diese unbrauchbar. Und noch schlimmer: Es inspiriert Teams zu der Annahme, dass sie aus Daten heraus handeln, wenn das gar nicht der Fall ist. In die Irre geleitete Teams überprüfen sich seltener selbst und entdecken Fehler oft erst, nachdem sie begangen wurden.

Was hindert Teams daran, die statistische Signifikanz ihrer Ergebnisse zu überprüfen? Nur nebenbei bemerkt, diese Test-Methode selbst könnte von besseren Marketing profitieren. Die offizielle Definition ist „ein Ergebnis, welches es bei einer Nullhypothese unwahrscheinlich hätte geben können“, und diese findet sich in der Regel neben mitreißenden Beschreibungen von „parametrischen Tests“ in Klassikern des 20. Jahrhunderts, wie dem Werk Statistical Methods for Research Workers von Ronald Fisher.

Für Teams ohne Zeit für weitere Schulabschlüsse haben wir hier einen einfachen und gutverständlichen Leitfaden zusammengestellt.

MÖCHTEN AUCH SIE DIE RICHTIGEN KPIS FÜR IHR GESCHÄFTSWACHSTUM AUSWÄHLEN?

Erfahren Sie, wie Sie die wichtigsten Metriken auswählen.

Guide herunterladen (Englisch)

Was ist ein statistischer Signifikanztest?

Mit einem statistischen Signifikanztest können Sie bewerten, ob die Testergebnisse einer Stichprobenpopulation wahrscheinlich auf die gesamte Population zutreffen. Die Teams können damit bestimmen, ob sie den Ergebnissen eines A/B-Tests vertrauen können. Wenn sie beispielsweise erfahren, dass eine E-Mailnachricht von 20 Prozent ihrer Abonnenten sehr positiv aufgenommen wurde, ist das eine Erfolgsbestätigung und sie können daraufhin die E-Mail an die gesamte Liste senden.

Die heutigen Unternehmen testen viel und generieren Unmengen von Daten, jedoch müssen sie auch die Richtigkeit ihrer Resultate demonstrieren. Ohne deren Rechtsgültigkeit sind Zahlen gefährlich fungibel. Oder wie Mark Twain es ausdrückte: „Es gibt Lügen, es gibt verdammte Lügen und dann gibt es Statistiken.“

Teams können sich ein Beispiel für fragwürdige Statistiken ansehen, indem sie einfach eine Google-Suche nach „den besten Betreffzeilen für E-Mails“ durchführen. Sie finden Seiten mit legitim klingenden Studien, in denen keine Methodik erklärt wird, deren demografische Daten (normalerweise Kunden von nur einem Unternehmen) fehlen oder in denen keine eigene statistische Signifikanz berechnet wurde. Diesen Studien ist nicht zu trauen.

Jedes Team, das A/B-Tests durchführt, sollte dies für sein eigenes Publikum tun und daraufhin bestätigen, dass relevante Beziehungen gültig sind. Zum Beispiel, ob eine bestimmte Überschrift die Öffnungsrate von E-Mails wirklich beeinflusst oder ob die Farbe eines CTA-Buttons (Aktionsaufruf) tatsächlich die Klicks erhöht.

Grundlegende Fehler und deren Vermeidung

Testen ist wichtig, denn beim Testen einer Teilpopulation gibt es immer eine Wahrscheinlichkeit, dass beispielsweise nur eingefleischte Fans der Farbe Orange am Test teilnehmen, während der Farbgeschmack einer breiteren Population einem Regenbogen ähnelt. Wenn ein Testergebnis statistisch signifikant ist, bedeutet dies, dass die Wahrscheinlichkeit einer Stichprobe aus nur Orangeliebhabern niedriger ist als ein vorgegebener Schwellenwert – fast immer fünf Prozent – das heißt, die Chancen sind außerordentlich niedrig und das Ergebnis ist wahrscheinlich gültig.
(Wenn die Teams einen Test mit ihrer gesamten Population durchführen, ist es nicht erforderlich, die statistische Signifikanz zu testen.)

Bei der Beurteilung eines statistischen Tests ist eine Vielzahl von möglichen Vorurteilen zu berücksichtigen. Während des Zweiten Weltkriegs hatte der Statistiker Abraham Wald eine ähnliche Grafik wie unten, die zeigte, wo aus der Schlacht zurückgekehrte Flugzeuge getroffen wurden, und er musste bestimmen, wo die Flugzeuge mehr Rüstung erhalten sollten.

Wie sollte er vorgehen? Die scheinbar logische Antwort – mehr Rüstung an der Einschussstelle der getroffenen Flugzeuge anzubringen – ist jedoch die falsche. Warum? Dies sind die Flugzeuge, die zurückgekehrt waren. Der nicht sichtbare Teil der Population hier – nicht zurückgekehrte Flugzeuge – sind jene, die an den Stellen getroffen wurden, die in der oberen Grafik nicht markiert sind. Dieser Effekt wird als sogenannter „Survivorship-Bias“ bezeichnet und ist einer von vielen  statistischen Ergebnis-Verzerrungen, die bei der Beurteilung von Design und Ergebnissen eines Experiments berücksichtigt werden müssen. Überlegen Sie, welche Faktoren eine Stichprobe so beeinflussen und verändern, dass sie für die gesamte Bevölkerung weniger repräsentativ ist: Beschränkt sich der Test etwa überwiegend auf eine bestimmte geografische Region? Ist der Test darauf angewiesen, dass Personen auf Umfragen antworten? Wird das Experiment durch die Tatsache beeinflusst, dass die Teilnehmer wissen, dass das Experiment stattfindet? Antworten auf diese Art von Fragen sollten Ihre Reaktion auf die Ergebnisse beeinflussen.

Berechnung der statistischen Signifikanz

Die gebräuchlichste Methode zum Testen der statistischen Signifikanz ist die Chi-Quadrat-Verteilung von Pearson, benannt nach dem Erfinder Karl Pearson. „Chi“ ist das griechische „x“, und der Test fordert die Benutzer auf, ihre Daten zu quadrieren, um die Unterschiede hervorzuheben.

Chi-Quadrat-Tests werden für diskrete Datensätze oder Daten verwendet, die nur in ganze Zahlen passen und nicht in einem Spektrum gemessen werden, z. B. Marketing-Konversions, bei denen Besucher entweder konvertieren oder nicht konvertieren – sie sind entweder eine Eins oder eine Zwei – und können nicht irgendwo dazwischen liegen.

Ein Test wird als statistisch signifikant angesehen, wenn die Wahrscheinlichkeit eines Zufallsergebnisses sehr gering ist. Das heißt, wenn die Wahrscheinlichkeit (p) niedriger als ein Schwellenwert (ɑ) ist, den das Team vorher festlegt.

Statistisch signifikant = Wahrscheinlichkeit (p) < Schwellenwert (ɑ)

Sechs Schritte zur Durchführung eines A/B-Tests und darauf folgender Anwendung des Chi-Quadrat-Tests:

Schritt 1: Nullhypothese festlegen

Die Teams legen zunächst die Nullhypothese für ihren A/B-Test fest. Die Idee der Nullhypothese ist, dass sie keine signifikanten Ergebnisse zeigt. Die Nullhypothese könnte etwa lauten „Die Beweise deuten nicht darauf hin, dass potenzielle Kunden unsere alte Zielseite der neuen vorziehen.“ Die Nullhypothese wird entweder widerlegt oder nicht widerlegt. Sie ist keine zu bestätigende Aussage.

Schritt 2: Alternative Hypothese festlegen

Die Teams legen eine Hypothese fest, die sie zu beweisen hoffen, z. B. „Kunden bevorzugen unsere neue Zielseite.“

Schritt 3: Schwellenwert festlegen

Die Teams legen einen prozentualen Schwellenwert ɑ (der griechische Buchstabe Alpha) fest, unter dem die Hypothese als gültig betrachtet wird. Je niedriger ɑ ist, desto strenger ist der Test. Ein Schwellenwert von fünf Prozent ist sehr streng. Man könnte auch sagen, dass bei statistisch gültigen Testergebnissen nur eine von 20 Chancen besteht, dass das Ergebnis falsch ist. Ein höherer Schwellenwert für Fehler ist möglicherweise besser für Tests in Unternehmen geeignet. Jedoch ist dann unbedingt notwendig, diesen Schwellenwert vor dem Experiment festzulegen, um zu vermeiden, dass das gewünschte Ergebnis darüber entscheidet, was als signifikant gilt oder nicht.

Schritt 4: Test ausführen

Teams führen den A/B-Test aus. Sie testen die neue Version der Zielseite gegen die alte Version und zeichnen die Ergebnisse auf. Im Folgenden finden Sie Beispielergebnisse, bei denen die neue Zielseite A die alte Zielseite B übertrumpft hat, was die Richtigkeit der Alternativhypothese bestätigt.

Zur Erstellung des folgenden Diagramms zeichnen die Teams die Ergebnisse ihres Zielseitentests auf und fügen die Ergebnisse in Zeilen und Spalten hinzu.

BEOBACHTETE ERGEBNISSE

Schritt 5: Chi-Quadrat-Test durchführen

Der Chi-Quadrat-Test vergleicht die beobachteten Ergebnisse des A/B-Tests mit den erwarteten Ergebnissen, oder den Zahlen, die das Team hätte erwarten können, wenn es keine Unterschiede zwischen den beiden Zielseiten gegeben hätte. In diesem Beispiel beträgt die erwartete Gesamt-Konversionsrate 22 % – die Gesamt-Konversion beider Zielseiten (4.344), geteilt durch die Gesamtbesucher beider Seiten (19.805).

Die Teams ersetzen dann die beobachteten Zahlen (grün hervorgehoben) durch die erwarteten Zahlen. Um jeden erwarteten Wert zu berechnen, multiplizieren die Teams die Spaltensumme mit der Zeilensumme und dividieren sie durch die Gesamtzahl der Besucher.

Erwartet = (Spaltensumme * Zeilensumme) / Gesamtbesucher

Erwartet = (9.956 * 15.461) / 19.805

= 7.772

Wiederholen Sie die Berechnung für jedes der vier Kästchen. Das resultierende Diagramm zeigt die Zahlen, die das Team aufgezeichnet hätte, wenn beide Zielseiten identisch gewesen wären. Alle Summen bleiben gleich.

ERWARTETE ERGEBNISSE

Anschließend vergleicht das Team anhand der Chi-Quadrat-Methode, ob die beobachteten Ergebnisse erheblich von den erwarteten Ergebnissen abweichen. Für jedes der grünen Kästchen subtrahieren die Teams das Beobachtete vom Erwarteten, quadrieren das Ergebnis und dividieren dieses Ergebnis durch das Erwartete.

Chi-Quadrat = (erwartet – beobachtet)² / erwartet
Chi-Quadrat = (7.772 – 7.611)² / 7.772
Chi-Quadrat = 3,34

CHI-QUADRAT

Jetzt kann das Team den Test abschließen. Wenn die Wahrscheinlichkeit oder der p-Wert in der blauen Box oben über dem entsprechenden Wert in einer Chi-Quadrat-Verteilungstabelle für den Schwellenwert von fünf Prozent liegt, hat das Team eine statistisch signifikante Beziehung festgestellt.

In diesem Beispiel ist der p-Wert von 30,58 größer als der 5-Prozent-Schwellenwert von 3,84. Somit sind die Ergebnisse statistisch signifikant.

Schritt 6: Ergebnisse anwenden

Wenn ein Team feststellt, dass die Ergebnisse seines A/B-Tests statistisch signifikant sind, kann es mit gutem Gewissen das Gelernte auf seine gesamte Benutzerpopulation anwenden. In diesem Beispiel können Marketer die Zielseite A für ihre gesamte Zielgruppe einsetzen. Wären die Ergebnisse nicht statistisch signifikant, hätte das Team stattdessen erneut mit einer größeren Stichprobe testen können.

Das obige Beispiel ist mathematisch aufwendig. Teams können die Signifikanz auch mit einem Tool in Microsoft Excel oder einem einfachen Online-Signifikanzrechner durchführen. Das ist viel einfacher, jedoch diese Rechnungen einige Male manuell durchzuführen ist sinnvoll, um ein Gefühl für die Mathematik hinter diesen Tests zu bekommen.

Beispiele statistischer Signifikanz für A/B-Tests

Alle Teams, die ihre Entscheidungen mit mehr Vertrauen treffen möchten, können von statistischen Signifikanztests profitieren. Es können beispielsweise:

Marketing-Teams testen:

  • geöffnete, geklickte und beantwortete E-Mails
  • Zielseiten-Konversion
  • Antwortraten auf Benachrichtigungen
  • Konversionraten auf Push-Benachrichtigungen
  • Website-Handlungsaufforderungen
  • Kundenreaktionen auf Produkteinführungen
  • Kundenreaktionen auf neue Nachrichten

Produktteams testen:

  • Kundenreaktionen auf die Preisgestaltung
  • Kundenanfragen zu neuen Funktion
  • Benutzerreaktionen auf ein neues Design
  • Benutzerreaktionen auf neu eingeführte Funktionen

Analytics-Teams testen:

  • Kundenstudien
  • Preisstudien
  • Gesamtzielmarktstudien
  • Interne Studien

Kundenserviceteams testen:

  • Metriken für neue Lösungskanäle
  • Durchschnittliche Bearbeitungszeit (AHT)
  • Kundenzufriedenheit (CSAT)
  • Net Promoter Score (NPS)

Wann sollten Signifikanztests nicht angewendet werden?

Signifikanztests müssen nicht auf jeden Test angewendet werden. Wenn das Team sie nicht schnell berechnen kann, sollte es sie für Fälle vorbehalten, bei denen Testresultate ihnen viel Zeit, Aufwand, Geld oder Glaubwürdigkeit sparen können. Beispiele wären, wenn eine nicht ordnungsgemäß gestaltete Funktion später nur schwer zu entfernen ist oder wenn eine Marketingkampagne an die gesamte Abonnentenliste des Unternehmens das Vertrauen der Nutzer zerstören könnte. Wenn der Nachteil jedoch unwichtig ist, können Signifikanztests den Fortschritt nur verlangsamen.

„Wenn Entscheidungen nicht kostspielig und umkehrbar sind, probieren Sie es einfach aus. Die meisten Dinge sind sowieso wieder gutzumachen“, sagt Serien-Entrepreneur und CTO von Helpful.com, Farhan Thawar. „Ausprobieren und Scheitern ist Lernen. Wenn es jedoch Konsequenzen gibt, die Sie nicht rückgängig machen können – oder, in Jeff Bezos’ Worten, Türen, durch die Sie nicht zurückgehen können – dann testen Sie.“

Am besten mit vernünftigem Urteilsvermögen

Es sagten schon die alten Mathematiker: Alle Modelle sind falsch, einige sind jedoch nützlich. Die statistische Signifikanz ist kein Grund, Kollegen scharf zu kritisieren, wenn sie zu einer Besprechung erscheinen und sich aufgeregt über die Zahlen unterhalten, die sie gerade berechnet haben. Sie ist auch kein religiöses Gebot. Sie ist einfach ein Werkzeug zur Fehlerreduzierung und für das Treffen von Entscheidungen mit größerem Vertrauen.

Es gibt auch häufig wichtigere Kriterien für die Prüfung der Gültigkeit einer Studie als die statistische Signifikanz, z. B. Sicherstellen, dass die Daten durch Vorurteile nicht verfälscht wurden. Wie Tom Redman, Autor von Data Driven, dem Harvard Business Review mitteilte, lautet die wichtige Frage: „Hat das Ergebnis eine herausragende Marktbedeutung, wenn auch nur für kurze Zeit? Ich bin immer für das Einsetzen von Statistiken, jedoch kombiniert mit gutem Urteilsvermögen.“

MÖCHTEN AUCH SIE DIE RICHTIGEN KPIS FÜR IHR GESCHÄFTSWACHSTUM AUSWÄHLEN?

Erfahren Sie, wie Sie die wichtigsten Metriken auswählen.

Guide herunterladen (Englisch)