Modul 1 von 8 · A/B-Testing Mastery

A/B-Testing für Nicht-Statistiker

125 Min · Sie erkennen, was einen echten A/B-Test auszeichnet, verstehen, warum paralleles Testen unter gleichen Bedingungen zuverlässiger ist als ein Vorher-Nachher-Vergleich, und formulieren eine eigene, falsifizierbare Testhypothese auf Entscheider-Ebene.

Start

A/B-Testing für Nicht-Statistiker

Entscheidungen treffen, die der Wirklichkeit standhalten — nicht dem Bauchgefühl.

Von der Vermutung zur belegten Entscheidung

Lernziel

Sie erkennen, was einen echten A/B-Test auszeichnet.

Sie verstehen, warum paralleles Testen unter gleichen Bedingungen zuverlässiger ist als Vorher-Nachher.

Sie formulieren eine eigene, falsifizierbare Testhypothese.

Selbstcheck

Vorwissen aktivieren

Wie unterscheiden Sie heute im Shop zwischen einer erfolgreichen Änderung und einem Zufallstreffer?

Wann war das letzte Mal, dass eine neue Variante „offensichtlich besser“ schien — aber niemand die Zahlen geprüft hat?

Konzept

Das Geschäftsproblem: siebzig Prozent Abbruch

Das Baymard Institute ermittelte aus über einhunderttausend Checkout-Prozessen eine durchschnittliche Warenkorbabbruchrate von neunundsechzig Komma acht Prozent.

Jeder zweite Shop-Betreiber unterschätzt diesen Wert, weil er im Tagesgeschäft nicht sichtbar ist.

Die Folge: Tausende Besucher verlassen die Seite kurz vor dem Kauf.

Durchschnittliche Warenkorbabbruchrate im E-Commerce

Konzept

Warum mehr Traffic kein Hebel ist

Bei einer Conversion Rate von drei Prozent und einem Abbruch von siebzig Prozent brauchen Sie dreißig Klicks für einen Kauf.

Mehr bezahlter Traffic bei gleicher Conversion-Rate frisst nur Marge und verschärft den Druck auf die Kosten.

Der echte Hebel liegt im bestehenden Traffic, nicht in neuem.

Zehntausend Besucher → dreitausend Warenkörbe → neunhundert Käufe

Konzept

Was ein echter A/B-Test tut

Der vorhandene Traffic wird nach dem Zufallsprinzip in zwei gleich große Gruppen aufgeteilt.

Gruppe A sieht die aktuelle Version, Gruppe B sieht die veränderte Version.

Beide Gruppen surfen zur gleichen Zeit unter denselben Bedingungen.

Konzept

Was ein A/B-Test nicht ist

Es ist kein Designwettbewerb, bei dem die schönere Variante gewinnt.

Es ist keine Plattform für Meinungen wie „bei mir klickt niemand auf Grün“.

Es ist auch keine Methode, um jede Woche eine neue Idee durchzuwirbeln.

Daten vs. Meinung

Konzept

Anatomie eines Experiments: die Hypothese

Eine Hypothese sagt, welche Änderung Sie warum testen und welche Auswirkung Sie erwarten.

Schwach: „Wir testen einen neuen Button.“

Stark: „Wenn wir den CTA-Button im Warenkorb vergrößern, steigt die Conversion Rate um fünf Prozent, weil die Handlung deutlicher wird.“

Konzept

Kontrolle, Variante und Randomisierung

Die Kontrolle ist die aktuelle Version — Ihr Status quo, gemessen unter den aktuellen Bedingungen.

Die Variante enthält genau eine gezielte Änderung.

Randomisierung sorgt dafür, dass Nutzer nicht selbst wählen, sondern zufällig zugeordnet werden.

Kontrolle vs. Variante

Konzept

Metrik und Traffic-Split

Die Primärmetrik ist die eine Kennzahl, an der Sie Erfolg oder Misserfolg messen — meist Conversion Rate oder Umsatz pro Besucher.

Der Traffic-Split bestimmt, welcher Anteil der Besucher welche Variante sieht, typischerweise fünfzig zu fünfzig.

Eine ungleiche Aufteilung verlängert die Testlaufzeit oder schwächt die Aussagekraft.

Typischer fünfzig zu fünfzig Traffic-Split

Beispiel

Warum Vorher-Nachher lügt: ein konkretes Szenario

Montag: Regen, dreitausend Besucher, Conversion Rate zwei Komma eins Prozent.

Dienstag: Sonne, dreitausend Besucher, neuer Header live, Conversion Rate zwei Komma vier Prozent.

Schlussfolgerung: Der Header bringt fünfzehn Prozent mehr Umsatz.

Wahrscheinlichkeit: Das Wetter und der Wochentag haben das Ergebnis verzerrt.

Vorher-Nachher mit externem Störfaktor

Konzept

Kampagnen, Feiertage und Werbeaktionen

Am Black Friday steigt die Conversion Rate fast überall — unabhängig davon, was Sie am Shop ändern.

Eine Retargeting-Kampagne kann die Kontrollgruppe anders ansprechen als die Variante.

Wer Vorher-Nachher misst, blendet diese Störfaktoren aus statt sie zu kontrollieren.

Störfaktoren wirken ungleich auf Zeitvergleiche

Konzept

Paralleles Testen eliminiert Störfaktoren

Bei einem A/B-Test laufen beide Varianten zur gleichen Zeit.

Wetter, Wochentag, Kampagnen und saisonale Effekte wirken sich auf beide Gruppen gleich aus.

Der einzige systematische Unterschied bleibt die getestete Änderung.

Zwischen-Check

Zwischen-Check: Die drei Säulen

Echte Hypothese: Was ändert sich, warum und an welcher Metrik gemessen?

Zufällige Aufteilung: Die Gruppen müssen vergleichbar sein.

Parallele Messung: Nur so werden externe Störfaktoren neutralisiert.

Konzept

Primärmetrik vs. Guardrail-Metriken

Die Primärmetrik entscheidet, ob die Variante gewinnt — zum Beispiel Umsatz pro Besucher.

Guardrail-Metriken schützen vor Nebenwirkungen: Rücklaufquote, Support-Anfragen, durchschnittlicher Bestellwert.

Eine Variante kann die Conversion steigern und gleichzeitig den Bestellwert senken.

Primärmetrik und Guardrails im Blick

Beispiel

Geschäftsmetriken, die Sinn ergeben

Conversion Rate: Anteil der Besucher, die kaufen.

Umsatz pro Besucher: Kombiniert Conversion und Bestellwert.

Customer Lifetime Value: Zeigt langfristige Wirkung, besonders bei Abonnements.

Beispiel: Bei fünfzigtausend Besuchern pro Monat und einem durchschnittlichen Bestellwert von fünfzig Euro steigt der Umsatz pro Besucher um fünfzig Cent bereits um fünfundzwanzigtausend Euro pro Monat.

Beispielhafte Geschäftsmetriken

Konzept

Qualität einer Hypothese

Falsifizierbar: Das Gegenteil muss theoretisch möglich sein.

Eine Variable: Ändern Sie nur ein Element pro Variante.

Erwartete Wirkung: Nennen Sie Richtung und Größenordnung der erwarteten Veränderung.

Häufiges Missverständnis

Häufige Fehler, die Tests ungültig machen

Peeking: Sie schauen täglich auf das Ergebnis und beenden den Test, sobald etwas Signifikantes blinkt.

Zu früh stoppen: Varianten schwanken zufällig, bis genügend Daten vorliegen.

Zu viele Varianten: Bei zehn Varianten gewinnt fast immer zufällig eine.

Peeking, Frühstoppen, Varianten-Inflation vermeiden

Übung

Ihre Übung: eine falsifizierbare Hypothese

Wählen Sie eine Seite oder ein Element in Ihrem Shop.

Formulieren Sie: Wenn wir X ändern, dann steigt oder sinkt Y um Z, gemessen an Metrik M.

Prüfen Sie: Ist nur eine Variable verändert? Ist das Gegenteil denkbar?

Zusammenfassung

Zusammenfassung: die wichtigsten Punkte

Siebzig Prozent aller Warenkörbe werden online nicht gekauft — mehr Traffic löst das Problem nicht.

Ein echter A/B-Test teilt Traffic zufällig auf und testet parallel unter gleichen Bedingungen.

Vorher-Nachher wird durch Wetter, Wochentag und Kampagnen verzerrt.

Zusammenfassung

Was Sie mitnehmen

Definieren Sie vor dem Test eine klare Primärmetrik und passende Guardrails.

Formulieren Sie Hypothesen so, dass das Gegenteil möglich ist und nur eine Variable verändert wird.

Vermeiden Sie Peeking, Frühstoppen und zu viele Varianten.

Von der Vermutung zur validen Entscheidung

Zwischenschritt

Das JDKRUEGER-Versprechen

Wir führen in DACH mehr A/B-Tests durch als klassische Agenturen verkaufen — und beweisen jede Empfehlung mit Daten.

Messbar. Skalierbar. Belegt.

Quiz

Testen Sie Ihr Wissen.

Ein Shop hat eine Conversion Rate von drei Prozent und eine Warenkorbabbruchrate von etwa siebzig Prozent. Was ist die sinnvollste Schlussfolgerung für die Strategie?

Mehr bezahlten Traffic kaufen, um die fehlenden Käufe auszugleichen. Die Warenkorbabbruchrate ist ein Einzelfall, der nur bei schlechten Shops auftritt. Der größte Hebel liegt darin, den bestehenden Traffic effektiver zu konvertieren. Die Conversion Rate ist so hoch, dass keine Optimierung nötig ist.

Ein Shop startet eine neue Startseite am ersten März. Im April stellt das Team fest, dass die Conversion Rate gestiegen ist. Gleichzeitig lief aber eine große Frühjahrs-Kampagne. Warum ist der Schluss „die Startseite wirkt“ fragwürdig?

Weil Kampagnen die Kontrollgruppe anders ansprechen können als die Variante Weil der Vergleich über zwei Zeiträume externe Störfaktoren nicht ausschließt Weil Startseiten generell keine Conversion steigern können Weil der März statistisch gesehen immer schwächer ist als der April

Welche Hypothese ist für einen A/B-Test am besten geeignet?

Wir testen einen neuen Button, weil der alte uns nicht gefällt. Mehr Vertrauen im Shop führt langfristig zu mehr Umsatz. Wenn wir den CTA-Button im Warenkorb vergrößern, steigt die Conversion Rate um fünf Prozent, weil die Handlung deutlicher wird. Wir verändern gleichzeitig Headline, Buttonfarbe und Preisdarstellung, um mehr zu verkaufen.

Eine Variante steigert die Conversion Rate um acht Prozent, senkt aber den durchschnittlichen Bestellwert um zwanzig Prozent. Was zeigt dies?

Die Primärmetrik ist irrelevant, solange die Conversion Rate steigt. Guardrail-Metriken sind nur für statistische Experten relevant. Guardrail-Metriken können Nebenwirkungen aufdecken, die den scheinbaren Erfolg zunichtemachen. Der Test sollte sofort gestoppt und die Variante ausgerollt werden.

Ein Team prüft jeden Morgen die laufenden Testdaten und stoppt, sobald die Signifikanz erreicht ist. Welches Problem entsteht dadurch?

Das Konfidenzintervall wird automatisch kleiner. Das tatsächliche Fehlerrisiko steigt deutlich über das ursprünglich festgelegte Alpha-Niveau. Der Traffic-Split wird ungünstiger, weil zu viele Besucher zugewiesen wurden. Die Stichprobengröße nimmt ab, was die Aussagekraft erhöht.

Abschluss

Modul abgeschlossen

Nächstes Modul: Signifikanz verstehen — wann ist ein Test wirklich sicher?

Transkript dieser Folie

Übung

Wenden Sie das Gelernte direkt an.

Ihre erste falsifizierbare Hypothese

mini-audit

Wählen Sie ein Element in Ihrem Shop, das Sie verändern möchten, zum Beispiel eine Headline, einen Button oder eine Produktseite. Formulieren Sie die Hypothese nach dem Schema: Wenn wir X ändern, dann steigt oder sinkt Y um Z Prozent, gemessen an Metrik M. Prüfen Sie, ob nur eine Variable verändert wird und ob das Gegenteil prinzipiell möglich ist.

Parallelität in Ihrem Unternehmen prüfen

benchmark

Suchen Sie die letzten drei größeren Shop-Änderungen in Ihrem Unternehmen heraus. Entscheiden Sie für jede, ob sie als reine Live-Schaltung, als Vorher-Nachher-Vergleich oder als paralleler A/B-Test umgesetzt wurde. Markieren Sie, bei welchen Entscheidungen heute noch Unsicherheit besteht, ob die Änderung wirklich gewirkt hat.

Quellen & Weiterführendes

Materialien zum Vertiefen.

Baymard Institute — E-Commerce Checkout Usability study
Quelle der neunundsechzig Komma acht Prozent Abbruch-Benchmark; regelmäßig aktualisierte Studien zu Checkout-Verhalten.
CXL — Why CRO is the most important marketing activity article
Argumentation für Conversion-Optimierung als ökonomischer Hebel vor dem Kauf zusätzlichen Traffics.
Trustworthy Online Controlled Experiments — Kohavi, Tang, Xu book
Standardwerk zu Experimentier-Methodik in Tech-Unternehmen; fundiert und praxisnah.
Reforge — Experimentation Loop framework
Framework für skalierbare Experimentierkultur und systematisches Lernen aus Tests.

Zusammenfassung & Reflexion

Kurz zurückschauen, bevor Sie weiterlernen.

Wo in Ihrem Shop werden heute Entscheidungen auf Basis von Meinungen getroffen, wo auf Basis paralleler Daten?
Welche Hypothese würden Sie als Erstes testen, wenn Sie ab morgen jeden Test parallel und zufällig aufteilen müssten?
Wie würden Sie einem Kollegen erklären, warum Vorher-Nachher kein valider Beweis ist?

Feedback

War dieses Modul hilfreich für Ihren Shop?

A/B-Testing für Nicht-Statistiker