Modul 2 von 8 · A/B-Testing Mastery

Signifikanz verstehen

124 Min · Sie deuten p-Werte, Konfidenzintervalle, Stichprobengröße und MDE richtig, unterscheiden statistische von praktischer Signifikanz und vermeiden die teuersten Fehlinterpretationen bei Testergebnissen.

Start

Signifikanz verstehen

Wann ist ein Testergebnis wirklich sicher — und wann täuscht es nur?

Fünfundneunzig Prozent Sicherheit als Entscheidungsgrenze

Lernziel

Sie deuten p-Werte, Konfidenzintervalle und Stichprobengröße richtig.

Sie unterscheiden statistische von praktischer Signifikanz.

Sie erkennen gängige Fehlinterpretationen, bevor sie teuer werden.

Selbstcheck

Vorwissen aktivieren

Was bedeutet es, wenn ein Test „neunundneunzig Prozent signifikant“ ist?

Warum reicht ein großer Uplift allein nicht für einen Rollout?

Konzept

Der p-Wert: ein Wahrscheinlichkeitsstatement

Der p-Wert sagt: Wahrscheinlichkeit, den beobachteten Unterschied zu sehen, wenn in Wahrheit keiner existiert.

Ein p-Wert von null Komma null drei bedeutet drei Prozent Wahrscheinlichkeit für einen Zufallseffekt.

Niedrig bedeutet: Der Effekt ist wahrscheinlich echt.

Je kleiner der p-Wert, desto geringer die Zufallswahrscheinlichkeit

Konzept

Warum fünfundneunzig Prozent das JDKRUEGER-Minimum sind

Fünfundneunzig Prozent Signifikanz entsprechen einem p-Wert von null Komma null fünf oder kleiner.

Das bedeutet: In nur fünf von hundert Fällen täuscht uns der Zufall.

Darunter halten wir den Test für nicht entscheidungsreif.

Fünfundneunzig Prozent Sicherheit, fünf Prozent Restrisiko

Konzept

Konfidenzintervalle: wo die Wahrheit wahrscheinlich liegt

Ein fünfundneunzig-Prozent-Konfidenzintervall gibt eine Bandbreite für den wahren Effekt an.

Beispiel: plus drei Prozent mit Intervall minus eins bis plus sieben Prozent.

Wenn die Null drin liegt, ist der Effekt nicht signifikant.

Konfidenzintervall, das die Null überlappt

Beispiel

Beispiel: zwei Varianten, unterschiedliche Sicherheit

Variante A: zwei Komma null null Prozent Conversion, tausend Conversions.

Variante B: zwei Komma vier vier Prozent Conversion, elfhundert Conversions.

Ergebnis: plus zwölf Prozent Uplift, aber p = null Komma null acht — noch nicht signifikant.

Zwölf Prozent Uplift ohne ausreichende Signifikanz

Konzept

Statistisch signifikant heißt nicht automatisch wichtig

Ein plus ein Prozent Uplift kann bei genügend Daten signifikant sein.

Wenn die Implementierung tausend Euro kostet und der Effekt fünfhundert Euro bringt, ist er wirtschaftlich unsinnig.

Statistische Signifikanz sagt nur, dass ein Effekt wahrscheinlich echt ist — nicht, dass er groß ist.

Statistische Sicherheit vs. Geschäftsrelevanz

Konzept

Praktische Signifikanz: ab wann zählt es wirklich?

Praktische Signifikanz fragt: Rechtfertigt der Effekt den Aufwand und das Risiko?

Ein MDE von fünfzehn Prozent definiert die kleinste wirtschaftlich relevante Veränderung.

Unterhalb des MDE wird selbst ein signifikanter Winner nicht ausgerollt.

Häufiges Missverständnis

Häufige Fehlinterpretationen

Fehler eins: Signifikanz ist die Wahrscheinlichkeit, dass die Hypothese wahr ist.

Fehler zwei: Ein nicht signifikantes Ergebnis beweist, dass nichts passiert.

Fehler drei: Je kleiner der p-Wert, desto größer der Effekt.

Drei gefährliche Irrtümer über Signifikanz

Konzept

Was Signifikanz definitiv nicht bedeutet

Sie bedeutet nicht, dass Variante B bei neunundneunzig Prozent aller Nutzer besser funktioniert.

Sie bedeutet nicht, dass der Effekt in sechs Monaten noch genauso groß ist.

Sie bedeutet nicht, dass der Gewinn garantiert im nächsten Quartal wiederholt wird.

Signifikanz ist keine Zukunftsgarantie

Konzept

Stichprobengröße: warum mehr Conversions mehr Sicherheit bringen

Mit zunehmender Stichprobengröße schrumpft das Konfidenzintervall.

Bei hundert Conversions pro Variante ist die Aussagekraft gering.

Bei tausend Conversions pro Variante wird der Schätzwert stabiler.

Wachsende Stichprobe, schrumpfendes Intervall

Zwischen-Check

Zwischen-Check: Was haben wir gelernt?

Der p-Wert misst die Zufallswahrscheinlichkeit, nicht die Wahrscheinlichkeit der Hypothese.

Das Konfidenzintervall zeigt die Bandbreite des wahren Effekts.

Statistische Signifikanz allein rechtfertigt noch keinen Rollout.

Szenario

Szenario: achtundachtzig Prozent Signifikanz

Ein Test zeigt plus fünfzehn Prozent Uplift bei achtundachtzig Prozent Signifikanz.

Das Management will sofort ausrollen.

Richtige Entscheidung: Test fortsetzen, bis fünfundneunzig Prozent oder das Intervall klar wird.

Achtundachtzig Prozent sind noch keine Entscheidungsgrundlage

Beispiel

Beispiel: MDE, Kosten und ROI im Blick

Baseline-Conversion: drei Prozent. MDE: fünfzehn Prozent relativ.

Das Ziel ist also ein absoluter Anstieg auf drei Komma fünfundvierzig Prozent.

Entwicklung und QA kosten achttausend Euro — der erwartete jährliche Mehrumsatz muss das mindestens verdreifachen.

Minimum Detectable Effect als wirtschaftliche Hürde

Konzept

Alpha, Beta und Power kurz erklärt

Alpha ist das Fehlerrisiko bei fünf Prozent — also die fünfundneunzig-Prozent-Grenze.

Beta ist das Risiko, einen echten Effekt zu übersehen, typischerweise zwanzig Prozent.

Power von achtzig Prozent bedeutet: Wir finden einen echten Effekt in vier von fünf Fällen.

Konzept

Der Peeking-Effekt: warum tägliches Hinschauen teuer wird

Wer jeden Tag auf das Ergebnis schaut und bei Signifikanz stoppt, erhöht das Fehlerrisiko massiv.

Bei zwanzig Blicken auf laufende Daten steigt das Alpha-Niveau deutlich über fünf Prozent.

Feste Laufzeiten und vorher festgelegte Stopp-Regeln schützen vor diesem Fehler.

Mehr Blicke erhöhen das Fehlerrisiko über fünf Prozent

Übung

Ihre Übung: bewerten Sie ein Testergebnis

Gegeben: Variante B zeigt plus acht Prozent Uplift, p = null Komma null drei, n = achthundert Conversions pro Variante.

Prüfen Sie: Ist das Ergebnis statistisch signifikant?

Prüfen Sie: Was fehlt, um die praktische Relevanz zu beurteilen?

Konzept

Wann ist ein Test entscheidungsreif?

Mindestens fünfundneunzig Prozent Signifikanz.

Mindestens hundert Conversions pro Variante, besser mehr.

Konfidenzintervall liegt vollständig auf der gewünschten Seite der Null.

Zusammenfassung

Zusammenfassung: Signifikanz richtig lesen

Der p-Wert misst die Zufallswahrscheinlichkeit, nicht die Wahrscheinlichkeit der Hypothese.

Fünfundneunzig Prozent Signifikanz und ausreichend Conversions sind das JDKRUEGER-Minimum.

Statistische Signifikanz ohne praktische Relevanz rechtfertigt keinen Rollout.

Zusammenfassung

Was Sie mitnehmen

Lesen Sie nie nur den Uplift, sondern immer auch den p-Wert und das Konfidenzintervall.

Vergleichen Sie den gemessenen Effekt mit dem vorher definierten MDE.

Legen Sie Laufzeit und Stopp-Regeln vor dem Test fest und halten Sie sich daran.

Vom Uplift zur validen Entscheidung

Zwischenschritt

Das JDKRUEGER-Versprechen

Wir validieren jeden Test mit fünfundneunzig Prozent Signifikanz, klaren Konfidenzintervallen und einem dokumentierten Business Case — bevor etwas ausgerollt wird.

Messbar. Belegt. Skalierbar.

Quiz

Testen Sie Ihr Wissen.

Ein A/B-Test zeigt einen p-Wert von null Komma null drei. Was sagt diese Zahl korrekt aus?

Die Wahrscheinlichkeit, dass die Hypothese wahr ist, beträgt drei Prozent. Mit drei Prozent Wahrscheinlichkeit würden wir einen so großen oder größeren Unterschied sehen, wenn in Wahrheit keiner existiert. Variante B ist mit neunundneunzig Prozent Sicherheit bei fast allen Nutzern besser. Der beobachtete Uplift beträgt genau drei Prozent.

Ein fünfundneunzig-Prozent-Konfidenzintervall für den Uplift liegt bei minus eins Prozent bis plus sieben Prozent. Was folgt daraus?

Der Effekt ist statistisch signifikant, weil die Obergrenze positiv ist. Mit fünfundneunzig Prozent Wahrscheinlichkeit liegt der wahre Effekt exakt bei plus drei Prozent. Der Effekt ist nicht signifikant, weil das Intervall die Null enthält. Variante B ist maximal sieben Prozent schlechter als die Kontrolle.

Ein Test erreicht neunundneunzig Prozent Signifikanz bei einem Uplift von plus einem Prozent. Implementierung und QA kosten zehntausend Euro, der erwartete jährliche Mehrumsatz liegt bei viertausend Euro. Wie entscheiden Sie?

Sofort ausrollen, weil die statistische Sicherheit sehr hoch ist. Nicht ausrollen, weil der geschätzte Mehrumsatz die Kosten nicht rechtfertigt. Den Test verlängern, um den p-Wert weiter zu senken. Das MDE nachträglich an den gemessenen Effekt anpassen.

Ein Team legt vor dem Start eines Tests ein Alpha-Niveau von fünf Prozent fest. Nach zwei Wochen zeigt die Variante einen scheinbar signifikanten Effekt. Was bedeutet das festgelegte Alpha-Niveau für die Bewertung?

Mit fünf Prozent Wahrscheinlichkeit könnte der beobachtete Effekt ein falsch positiver Befund sein. Der Effekt ist zu fünf Prozent wahrscheinlich echt und zu fünfundneunzig Prozent Zufall. Der Test erkennt echte Effekte in fünf von hundert Fällen. Fünf Prozent der Besucher werden der Variante B zugeordnet.

Ein Team prüft jeden Morgen die laufenden Testdaten und stoppt, sobald die Signifikanz erreicht ist. Welches Problem entsteht dadurch?

Das Konfidenzintervall wird automatisch kleiner. Das tatsächliche Fehlerrisiko steigt deutlich über das ursprünglich festgelegte Alpha-Niveau. Der MDE wird präziser, weil mehr Zwischenstichproben genutzt werden. Die Stichprobengröße nimmt ab, was die Aussagekraft erhöht.

Abschluss

Modul abgeschlossen

Nächstes Modul: Test-Dauer & Traffic — wie lange muss ein Test laufen?

Transkript dieser Folie

Übung

Wenden Sie das Gelernte direkt an.

Testergebnis bewerten

calculation

Nehmen Sie ein reales oder fiktives Testergebnis mit folgenden Daten: Uplift in Prozent, p-Wert, untere und obere Grenze des Konfidenzintervalls, geschätzte Implementierungskosten und erwarteter jährlicher Mehrumsatz. Entscheiden Sie anhand der vier Kriterien aus dem Modul, ob der Test entscheidungsreif ist, und begründen Sie Ihre Entscheidung in drei Sätzen.

Peeking in Ihrem Unternehmen

reflection

Überlegen Sie: Wie oft wird bei laufenden Tests in Ihrem Unternehmen auf die Daten geschaut? Gibt es feste Stopp-Regeln, oder werden Tests gestoppt, sobald ein Ergebnis „gut aussieht“? Notieren Sie ein konkretes Verbesserungspotenzial für den Umgang mit laufenden Tests.

Quellen & Weiterführendes

Materialien zum Vertiefen.

American Statistical Association — Statement on Statistical Significance and P-Values study
Grundlegende Einordnung von p-Werten und deren korrekte Interpretation aus wissenschaftlicher Perspektive.
Evan Miller — Sample Size Calculator tool
Praktischer Rechner für Stichprobengröße, MDE, Signifikanz und Power.
CXL — Common A/B Testing Mistakes & How to Avoid Them article
Überblick über häufige Fehler beim A/B-Testing, inklusive Peeking und Fehlinterpretation von Signifikanz.
Trustworthy Online Controlled Experiments — Kohavi, Tang, Xu book
Standardwerk zu A/B-Testing in der Praxis mit Kapiteln zu Power, Peeking und statistischen Fallstricken.

Zusammenfassung & Reflexion

Kurz zurückschauen, bevor Sie weiterlernen.

Wie würden Sie einem Geschäftsführer erklären, warum ein achtundachtzig-prozentiges Ergebnis noch nicht ausreicht?
Welche Guardrail-Metriken sind in Ihrem Shop besonders wichtig, um Nebenwirkungen eines Tests zu erkennen?
Wann haben Sie zuletzt einen Test gestoppt, bevor die geplante Laufzeit erreicht war — und warum?

Feedback

War dieses Modul hilfreich für Ihren Shop?

Signifikanz verstehen