Signifikanz verstehen
Wann ist ein Testergebnis wirklich sicher — und wann täuscht es nur?
AcademyAnmeldenWann ist ein Testergebnis wirklich sicher — und wann täuscht es nur?
Sie deuten p-Werte, Konfidenzintervalle und Stichprobengröße richtig.
Sie unterscheiden statistische von praktischer Signifikanz.
Sie erkennen gängige Fehlinterpretationen, bevor sie teuer werden.
Was bedeutet es, wenn ein Test „neunundneunzig Prozent signifikant“ ist?
Warum reicht ein großer Uplift allein nicht für einen Rollout?
Der p-Wert sagt: Wahrscheinlichkeit, den beobachteten Unterschied zu sehen, wenn in Wahrheit keiner existiert.
Ein p-Wert von null Komma null drei bedeutet drei Prozent Wahrscheinlichkeit für einen Zufallseffekt.
Niedrig bedeutet: Der Effekt ist wahrscheinlich echt.
Fünfundneunzig Prozent Signifikanz entsprechen einem p-Wert von null Komma null fünf oder kleiner.
Das bedeutet: In nur fünf von hundert Fällen täuscht uns der Zufall.
Darunter halten wir den Test für nicht entscheidungsreif.
Ein fünfundneunzig-Prozent-Konfidenzintervall gibt eine Bandbreite für den wahren Effekt an.
Beispiel: plus drei Prozent mit Intervall minus eins bis plus sieben Prozent.
Wenn die Null drin liegt, ist der Effekt nicht signifikant.
Variante A: zwei Komma null null Prozent Conversion, tausend Conversions.
Variante B: zwei Komma vier vier Prozent Conversion, elfhundert Conversions.
Ergebnis: plus zwölf Prozent Uplift, aber p = null Komma null acht — noch nicht signifikant.
Ein plus ein Prozent Uplift kann bei genügend Daten signifikant sein.
Wenn die Implementierung tausend Euro kostet und der Effekt fünfhundert Euro bringt, ist er wirtschaftlich unsinnig.
Statistische Signifikanz sagt nur, dass ein Effekt wahrscheinlich echt ist — nicht, dass er groß ist.
Praktische Signifikanz fragt: Rechtfertigt der Effekt den Aufwand und das Risiko?
Ein MDE von fünfzehn Prozent definiert die kleinste wirtschaftlich relevante Veränderung.
Unterhalb des MDE wird selbst ein signifikanter Winner nicht ausgerollt.
Fehler eins: Signifikanz ist die Wahrscheinlichkeit, dass die Hypothese wahr ist.
Fehler zwei: Ein nicht signifikantes Ergebnis beweist, dass nichts passiert.
Fehler drei: Je kleiner der p-Wert, desto größer der Effekt.
Sie bedeutet nicht, dass Variante B bei neunundneunzig Prozent aller Nutzer besser funktioniert.
Sie bedeutet nicht, dass der Effekt in sechs Monaten noch genauso groß ist.
Sie bedeutet nicht, dass der Gewinn garantiert im nächsten Quartal wiederholt wird.
Mit zunehmender Stichprobengröße schrumpft das Konfidenzintervall.
Bei hundert Conversions pro Variante ist die Aussagekraft gering.
Bei tausend Conversions pro Variante wird der Schätzwert stabiler.
Der p-Wert misst die Zufallswahrscheinlichkeit, nicht die Wahrscheinlichkeit der Hypothese.
Das Konfidenzintervall zeigt die Bandbreite des wahren Effekts.
Statistische Signifikanz allein rechtfertigt noch keinen Rollout.
Ein Test zeigt plus fünfzehn Prozent Uplift bei achtundachtzig Prozent Signifikanz.
Das Management will sofort ausrollen.
Richtige Entscheidung: Test fortsetzen, bis fünfundneunzig Prozent oder das Intervall klar wird.
Baseline-Conversion: drei Prozent. MDE: fünfzehn Prozent relativ.
Das Ziel ist also ein absoluter Anstieg auf drei Komma fünfundvierzig Prozent.
Entwicklung und QA kosten achttausend Euro — der erwartete jährliche Mehrumsatz muss das mindestens verdreifachen.
Alpha ist das Fehlerrisiko bei fünf Prozent — also die fünfundneunzig-Prozent-Grenze.
Beta ist das Risiko, einen echten Effekt zu übersehen, typischerweise zwanzig Prozent.
Power von achtzig Prozent bedeutet: Wir finden einen echten Effekt in vier von fünf Fällen.
Wer jeden Tag auf das Ergebnis schaut und bei Signifikanz stoppt, erhöht das Fehlerrisiko massiv.
Bei zwanzig Blicken auf laufende Daten steigt das Alpha-Niveau deutlich über fünf Prozent.
Feste Laufzeiten und vorher festgelegte Stopp-Regeln schützen vor diesem Fehler.
Gegeben: Variante B zeigt plus acht Prozent Uplift, p = null Komma null drei, n = achthundert Conversions pro Variante.
Prüfen Sie: Ist das Ergebnis statistisch signifikant?
Prüfen Sie: Was fehlt, um die praktische Relevanz zu beurteilen?
Mindestens fünfundneunzig Prozent Signifikanz.
Mindestens hundert Conversions pro Variante, besser mehr.
Konfidenzintervall liegt vollständig auf der gewünschten Seite der Null.
Der p-Wert misst die Zufallswahrscheinlichkeit, nicht die Wahrscheinlichkeit der Hypothese.
Fünfundneunzig Prozent Signifikanz und ausreichend Conversions sind das JDKRUEGER-Minimum.
Statistische Signifikanz ohne praktische Relevanz rechtfertigt keinen Rollout.
Lesen Sie nie nur den Uplift, sondern immer auch den p-Wert und das Konfidenzintervall.
Vergleichen Sie den gemessenen Effekt mit dem vorher definierten MDE.
Legen Sie Laufzeit und Stopp-Regeln vor dem Test fest und halten Sie sich daran.
Wir validieren jeden Test mit fünfundneunzig Prozent Signifikanz, klaren Konfidenzintervallen und einem dokumentierten Business Case — bevor etwas ausgerollt wird.
Testen Sie Ihr Wissen.
Nächstes Modul: Test-Dauer & Traffic — wie lange muss ein Test laufen?