Warum dein A/B-Test so schnell signifikant geworden ist.


A/B-Tests werden von immer mehr Online-Marketing-Experten empfohlen, um vermeintlich kleine Design-Entscheidungen schnell und einfach zu klären und die Conversion-Raten zu steigern. Case Studies zeigen, wie viel Umsatzpotenzial in solchen A/B-Tests steckt. Dank verschiedener Tools sind die Tests auch für jeden einfach durchzuführen.

Doch immer wieder sehe ich, wie solche Tests falsch aufgesetzt und falsch interpretiert werden. Denn häufig sind A/B-Tests lt. den Testtools schon bei wenigen Besuchern und wenigen Conversions statistisch signifikant. Kann das sein? Kann ein A/B-Test so schnell signifikant werden?

Schauen wir uns an, was „statistisch signifikant“ überhaupt heißt und was das für A/B-Tests bedeutet.

Was heißt statistisch signifikant?

Ein A/B-Test ist letzten Endes ein Experiment. Es werden bestimmte Testbedingungen geschaffen (Gestaltung der Webseite, Einrichtung der Test-Tools) und Testobjekte (die Besucher) werden einem Test unterzogen. Während des Experiments zeichnet das Tool auf, wie viele Besucher welche Testvariante gesehen haben und wie viele jeweils konvertiert sind.

Das Tool könnte zum Beispiel auswerfen:

Variante A hatte 20 Besucher und 5 Conversions, also eine Conversion-Rate von 25%.

Variante B hatte 22 Besucher und 4 Conversions, also eine Conversion-Rate von 18,18%.

Tja nun. B hat 2 Besucher mehr, aber eine Conversion weniger. Rechnerisch scheint das klar zu sein: A ist besser als B.

Das Problem ist: Es könnte reiner Zufall sein, dass A eine Conversion mehr hat. Intuitiv würde ich auch sagen, dass die eine Conversion Unterschied ja noch nix heißen muss. Es könnte ja sein, dass A und B bei jeweils 40 Besuchern die gleiche Conversion-Rate erzielen würden.

Mithilfe der Statistik können wir nun ausrechnen, ob unsere Zahlen durch Zufall erklärbar sind. Wenn unsere Zahlen statistisch gesehen nicht mehr durch Zufall erklärbar sind, ist unser Ergebnis statistisch signifikant.

„Statistisch signifikant“ heißt also: Wir haben zwar nur einen kleinen Teil aller möglichen Besucher getestet (wir testen ja nur über einen bestimmten Zeitraum), aber eine Variante ist im Test so viel besser, dass das nicht mehr Zufall sein kann.

Das Beispiel oben ist übrigens nicht signifikant (was wahrscheinlich nicht überraschend ist…). Doch was ist nun mit signifikanten Testergebnissen?

Warum ein A/B-Test so schnell signifikant werden kann

Bei kleinen Besucherzahlen wird ein A/B-Test so schnell signifikant, weil die Statistik mit derselben Conversion-Rate hochrechnet.

Gehen wir ein Beispiel durch:

Variante A hatte 20 Besucher und 8 Conversions, also eine Conversion-Rate von 40%.

Variante B hatte 24 Besucher und 1 Conversion, also eine Conversion-Rate von 4,17%.

Das ist rein rechnerisch statistisch signifikant. Deshalb würde das Tool auch zum jetzigen Zeitpunkt Signifikanz ausweisen.

Trotzdem meldet sich die Intuition: Kann das denn richtig sein? Bei so wenigen Besuchern schon?

Ja, rechnerisch haben wir hier Signifikanz. Die statistische Logik würde die Conversion-Raten hochrechnen. D.h. der Variante A wird auch noch bei 1.000 Besuchern eine Conversion-Rate von 40% unterstellt. Dieser Unterschied zwischen Variante A und B ist also rein rechnerisch nicht mehr durch Zufall erklärbar.

Das Problem liegt woanders: Bei Störfaktoren.

Was sind Störfaktoren bei A/B-Tests?

Ein Störfaktor ist erstmal alles, was die Testobjekte eines Experiments (beim A/B-Test also die Besucher) beeinflusst, aber nicht von uns gewünscht ist.

Ein Störfaktor ist z. B. die Intention des Besuchers. Möchte er gerade mit gezückter Kreditkarte etwas einkaufen und sucht nur noch nach einem guten Preis? Oder ist er zufällig im Facebook-Feed auf einen Artikel gestoßen und schaut nur mal so aus Interesse vorbei?

Wenn wir solche Störfaktoren beim Test nicht kontrollieren, verfälschen sie unsere Ergebnisse. Es könnte ja sein, dass die Variante A vor allem Kaufinteressierten gezeigt wurde, während Variante B nur Informationssuchenden gezeigt wurde.

Hinzu kommt, dass Störfaktoren nicht statistisch ermittelt werden können. Es gibt nun mal keinen Rechenweg, der fehlende Faktoren ermitteln könnte. Stattdessen müssen wir analytisch herangehen: Gibt es einen sachlichen Grund, wie der Test noch beeinflusst sein könnte?

Mir fallen vor allem folgende Faktoren ein:

  • Intention des Besuchers (informativ vs. kaufinteressiert), z. B. über das Suchwort, der Besucherquelle oder der Einstiegsseite schätzbar,
  • Tageszeit (Feierabend-Shopping vs. nur mal kurz in der Mittagspause etwas nachlesen),
  • Wochentag (an manchen Wochentagen sind Besucher kaufwilliger als an anderen),
  • Feiertage,
  • Gewöhnungseffekt (alte Besucher klicken vielleicht nur auf das Neue, weil sie es noch nicht kennen),
  • Unterschiedliche Produkte. Tests sollten nur für eine einzelne Seite gelten, nicht für die ganze Domain. Ansonsten könnte es sein, dass es Unterschiede je Produkt gibt.

Hinzu kommen Faktoren, die wir gar nicht so einfach messen können: Alter, Geschlecht, Einkommen und andere Merkmale des Besuchers selbst.

All diese Faktoren beeinflussen die Conversion ebenso wie das geliebte Testbeispiel „Buttonfarbe“. Nur können wir sie nicht so leicht messen.

Wie können Störfaktoren ausgeschlossen werden?

Es gibt zwei Wege, um Störfaktoren bei A/B-Tests auszuschließen:

1. Möglichkeit: Den Störfaktor messen und gleichmäßig aufteilen.

Das würde z. B. für den Störfaktor „Alter“ heißen, dass beide Testvarianten zu gleichen Teilen den verschiedenen Altersgruppen zugeordnet werden müssen (sogenanntes Matching). Durch die gleichmäßige Aufteilung ist auch bei kleinen Besucherzahlen sichergestellt, dass der Störfaktor das Ergebnis nicht beeinflusst.

Da aber viele Faktoren gar nicht gemessen werden können, fällt diese Möglichkeit für A/B-Tests in der Regel weg.

2. Möglichkeit: Die Stichprobe so hoch wählen, dass sich Störfaktoren aufheben.

Die Idee ist, dass sich bei genug Besuchern die Besucher quasi von alleine gleichmäßig auf die Testvarianten aufteilen. Wenn wir genug Besucher testen, löst der Zufall die Störfaktoren auf (sogenannte Randomisierung).

Das funktioniert, ganz grob gesagt, aber erst ab ca. 1.000 Besuchern. Wohlgemerkt: 1.000 Besucher einer einzelnen Seite, nicht einer Domain. Damit keine zeitlichen Verzerrungen dazu kommen, hat sich eine Testdauer von einem Monat bewährt.

Die Zahl 1.000 hat sich bei vielen Umfragen bewährt. Dahinter steht die Annahme, dass sich bei größeren Stichproben das Stichprobenmittel nicht mehr großartig ändert (sogenannter abnehmender Grenznutzen). Wer mehr wissen möchte, muss leider in die Untiefen der Statistik eintauchen, z. B. bei Schumann (2012): Repräsentative Umfrage, Kapitel 9*

Unsaubere Experimente bringen dir nichts.

Tests mit schlechtem Design, die Störfaktoren nicht ausreichend angehen oder zu kleine Stichproben nehmen, bringen dir keinen Mehrwert.

Mir ist bewusst, dass das viele vermeintlich pragmatisch angehen und sagen: „Mei, für meine Zwecke brauchts nicht so genau sein.“ Das ist naiv. Entweder willst du dir ein seriöses Online Business aufbauen oder nicht. Da du dich mit A/B-Tests beschäftigst, willst du anscheinend ein echtes Business aufbauen. Dann solltest du aber auch so konsequent sein und deine Werkzeuge richtig benutzen. Bei A/B-Tests gehört da nun mal auch etwas Statistik-Know-how dazu.

Ansonsten gilt: „Das kannste schon so machen, aber dann isses halt suboptimal!“ ;)

Büchertipps

Wenn du mehr über Statistik lernen möchtest, ohne gleich mit Mathe erschlagen zu werden, empfehle ich dir die folgenden beiden Bücher:

Walter Krämer (2011): So lügt man mit Statistik*

Hans-Peter Beck-Bornholdt, Hans-Hermann Dubben (2005): Der Hund, der Eier legt – Erkennen von Fehlinformationen durch Querdenken*

Beide gehen sehr bodenständig an Statistikthemen heran und erklären statistische Zusammenhänge, ohne ein Mathe-Leistungsabi zu erwarten.

Geschrieben von:
Sven Meyer

Sven Meyer

Studierter Wirtschaftsinformatiker, ausgebildeter Großhandelskaufmann, fünf Jahre Berufserfahrung als Sachbearbeiter im pharmazeutischen Großhandel. Während des Studiums war ich selbstständig und seit Februar 2019 bin ich fest als Technical SEO Manager angestellt.

Bildquelle(n):


    Blogkommentare werden im Moment nicht dargestellt.