A/B-Tests werden von immer mehr Online-Marketing-Experten empfohlen, um vermeintlich kleine Design-Entscheidungen schnell und einfach zu klären und die Conversion-Raten zu steigern. Case Studies zeigen, wie viel Umsatzpotenzial in solchen A/B-Tests steckt. Dank verschiedener Tools sind die Tests auch für jeden einfach durchzuführen.
Doch immer wieder sehe ich, wie solche Tests falsch aufgesetzt und falsch interpretiert werden. Denn häufig sind A/B-Tests lt. den Testtools schon bei wenigen Besuchern und wenigen Conversions statistisch signifikant. Kann das sein? Kann ein A/B-Test so schnell signifikant werden?
Schauen wir uns an, was „statistisch signifikant“ überhaupt heißt und was das für A/B-Tests bedeutet.
Ein A/B-Test ist letzten Endes ein Experiment. Es werden bestimmte Testbedingungen geschaffen (Gestaltung der Webseite, Einrichtung der Test-Tools) und Testobjekte (die Besucher) werden einem Test unterzogen. Während des Experiments zeichnet das Tool auf, wie viele Besucher welche Testvariante gesehen haben und wie viele jeweils konvertiert sind.
Das Tool könnte zum Beispiel auswerfen:
Variante A hatte 20 Besucher und 5 Conversions, also eine Conversion-Rate von 25%.
Variante B hatte 22 Besucher und 4 Conversions, also eine Conversion-Rate von 18,18%.
Tja nun. B hat 2 Besucher mehr, aber eine Conversion weniger. Rechnerisch scheint das klar zu sein: A ist besser als B.
Das Problem ist: Es könnte reiner Zufall sein, dass A eine Conversion mehr hat. Intuitiv würde ich auch sagen, dass die eine Conversion Unterschied ja noch nix heißen muss. Es könnte ja sein, dass A und B bei jeweils 40 Besuchern die gleiche Conversion-Rate erzielen würden.
Mithilfe der Statistik können wir nun ausrechnen, ob unsere Zahlen durch Zufall erklärbar sind. Wenn unsere Zahlen statistisch gesehen nicht mehr durch Zufall erklärbar sind, ist unser Ergebnis statistisch signifikant.
„Statistisch signifikant“ heißt also: Wir haben zwar nur einen kleinen Teil aller möglichen Besucher getestet (wir testen ja nur über einen bestimmten Zeitraum), aber eine Variante ist im Test so viel besser, dass das nicht mehr Zufall sein kann.
Das Beispiel oben ist übrigens nicht signifikant (was wahrscheinlich nicht überraschend ist…). Doch was ist nun mit signifikanten Testergebnissen?
Bei kleinen Besucherzahlen wird ein A/B-Test so schnell signifikant, weil die Statistik mit derselben Conversion-Rate hochrechnet.
Gehen wir ein Beispiel durch:
Variante A hatte 20 Besucher und 8 Conversions, also eine Conversion-Rate von 40%.
Variante B hatte 24 Besucher und 1 Conversion, also eine Conversion-Rate von 4,17%.
Das ist rein rechnerisch statistisch signifikant. Deshalb würde das Tool auch zum jetzigen Zeitpunkt Signifikanz ausweisen.
Trotzdem meldet sich die Intuition: Kann das denn richtig sein? Bei so wenigen Besuchern schon?
Ja, rechnerisch haben wir hier Signifikanz. Die statistische Logik würde die Conversion-Raten hochrechnen. D.h. der Variante A wird auch noch bei 1.000 Besuchern eine Conversion-Rate von 40% unterstellt. Dieser Unterschied zwischen Variante A und B ist also rein rechnerisch nicht mehr durch Zufall erklärbar.
Das Problem liegt woanders: Bei Störfaktoren.
Ein Störfaktor ist erstmal alles, was die Testobjekte eines Experiments (beim A/B-Test also die Besucher) beeinflusst, aber nicht von uns gewünscht ist.
Ein Störfaktor ist z. B. die Intention des Besuchers. Möchte er gerade mit gezückter Kreditkarte etwas einkaufen und sucht nur noch nach einem guten Preis? Oder ist er zufällig im Facebook-Feed auf einen Artikel gestoßen und schaut nur mal so aus Interesse vorbei?
Wenn wir solche Störfaktoren beim Test nicht kontrollieren, verfälschen sie unsere Ergebnisse. Es könnte ja sein, dass die Variante A vor allem Kaufinteressierten gezeigt wurde, während Variante B nur Informationssuchenden gezeigt wurde.
Hinzu kommt, dass Störfaktoren nicht statistisch ermittelt werden können. Es gibt nun mal keinen Rechenweg, der fehlende Faktoren ermitteln könnte. Stattdessen müssen wir analytisch herangehen: Gibt es einen sachlichen Grund, wie der Test noch beeinflusst sein könnte?
Mir fallen vor allem folgende Faktoren ein:
Hinzu kommen Faktoren, die wir gar nicht so einfach messen können: Alter, Geschlecht, Einkommen und andere Merkmale des Besuchers selbst.
All diese Faktoren beeinflussen die Conversion ebenso wie das geliebte Testbeispiel „Buttonfarbe“. Nur können wir sie nicht so leicht messen.
Es gibt zwei Wege, um Störfaktoren bei A/B-Tests auszuschließen:
Das würde z. B. für den Störfaktor „Alter“ heißen, dass beide Testvarianten zu gleichen Teilen den verschiedenen Altersgruppen zugeordnet werden müssen (sogenanntes Matching). Durch die gleichmäßige Aufteilung ist auch bei kleinen Besucherzahlen sichergestellt, dass der Störfaktor das Ergebnis nicht beeinflusst.
Da aber viele Faktoren gar nicht gemessen werden können, fällt diese Möglichkeit für A/B-Tests in der Regel weg.
Die Idee ist, dass sich bei genug Besuchern die Besucher quasi von alleine gleichmäßig auf die Testvarianten aufteilen. Wenn wir genug Besucher testen, löst der Zufall die Störfaktoren auf (sogenannte Randomisierung).
Das funktioniert, ganz grob gesagt, aber erst ab ca. 1.000 Besuchern. Wohlgemerkt: 1.000 Besucher einer einzelnen Seite, nicht einer Domain. Damit keine zeitlichen Verzerrungen dazu kommen, hat sich eine Testdauer von einem Monat bewährt.
Die Zahl 1.000 hat sich bei vielen Umfragen bewährt. Dahinter steht die Annahme, dass sich bei größeren Stichproben das Stichprobenmittel nicht mehr großartig ändert (sogenannter abnehmender Grenznutzen). Wer mehr wissen möchte, muss leider in die Untiefen der Statistik eintauchen, z. B. bei Schumann (2012): Repräsentative Umfrage, Kapitel 9*
Tests mit schlechtem Design, die Störfaktoren nicht ausreichend angehen oder zu kleine Stichproben nehmen, bringen dir keinen Mehrwert.
Mir ist bewusst, dass das viele vermeintlich pragmatisch angehen und sagen: „Mei, für meine Zwecke brauchts nicht so genau sein.“ Das ist naiv. Entweder willst du dir ein seriöses Online Business aufbauen oder nicht. Da du dich mit A/B-Tests beschäftigst, willst du anscheinend ein echtes Business aufbauen. Dann solltest du aber auch so konsequent sein und deine Werkzeuge richtig benutzen. Bei A/B-Tests gehört da nun mal auch etwas Statistik-Know-how dazu.
Ansonsten gilt: „Das kannste schon so machen, aber dann isses halt suboptimal!“ ;)
Wenn du mehr über Statistik lernen möchtest, ohne gleich mit Mathe erschlagen zu werden, empfehle ich dir die folgenden beiden Bücher:
Walter Krämer (2011): So lügt man mit Statistik*
Beide gehen sehr bodenständig an Statistikthemen heran und erklären statistische Zusammenhänge, ohne ein Mathe-Leistungsabi zu erwarten.
Studierter Wirtschaftsinformatiker, ausgebildeter Großhandelskaufmann, fünf Jahre Berufserfahrung als Sachbearbeiter im pharmazeutischen Großhandel. Während des Studiums war ich selbstständig und seit Februar 2019 bin ich fest als Technical SEO Manager angestellt.
Blogkommentare werden im Moment nicht dargestellt.