A/B Testing - mittels generativer Verfahren (Bayes-Faktor)

Ein Anbieter stellt in Aussicht, dass durch ein neues Verfahren mehr Personen von einem Produkt kaufen werden. In einer vorgegebenen Zeitspanne werden 98 Personen zufällig dem neuen Verfahren («Variation») zugewiesen. Zeitgleich und unabhängig werden weitere 151 Personen mit dem bewährten Verfahren («Control») bedient. Mit dem neuen Verfahren kauften 65 Personen das Produkt, in der Kontrollgruppe sind es «nur» 77 Personen, siehe A/B-Testing.xlsx. Kann der gemessene Unterschied von 30% Umsatzwachstum in der Gruppe «Variation» im Vergleich zu «Control» auf das neue Verfahren zurückgeführt werden oder ist dies der Stichprobenvariabilität und der Unsicherheit bezüglich des wahren Parameters des datengenerierenden Prozesses geschuldet? Mit einem A/B-Test liefern Sie die Antwort. 

Gehen wir davon aus, dass das Unternehmen mit einer Erfolgswahrscheinlichkeit von 50% anhand der bisherigen Erfahrung rechnet («Nullhypothese»). Von 100 Personen würden somit 50 Personen das Produkt kaufen. Es ist aber nicht so, dass von jeweils zwei unabhängig befragten Personen genau eine Person das Produkt kaufen wird. Manchmal werden 5 Personen hintereinander das Produkt nicht kaufen, um dann anschliessend vielleicht nur eine Personen zu überzeugen. Diese Stichprobenvariabilität gilt es von einem «echten» Effekt zu unterscheiden.

 

In einem ersten Schritt ist zu prüfen, welcher Anteil mit dem gemessenen Parameter von 51% in der Kontrollgruppe den gesuchten 76 Personen (50% von 151) gemäss Nullhypothese entsprechen.  Unter Rückgriff der in der Formel fmc_BayesFactor (siehe Zelle R8) hinterlegten Binomialverteilung mit 50'000 Versuchen resultiert ein Wert von ca. 6.5% (Zwischenresultat von fmc_BayesFactor). Oder in Worten: Wird vom empirischen Parameter von 0.51 ausgegangen, dann entsprechen ca. 6.5% aller ermittelten Werte genau 77 Personen von 151, welche das Angebot unter Annahme der Gültigkeit der Nullhypothese annehmen. Da wie oben beschrieben die gemessenen 51% rein zufällig entstanden sein könnten, wird in einem Alternativszenario («Alternativhypothese») eine Binomialverteilung gewählt, bei welcher der Parameter zufällig zwischen 0 und 1 (0% und 100%) schwanken kann.  In diesem Fall beträgt die Wahrscheinlichkeit genau 77 von 151 Personen anzutreffen, welche das Angebot annehmen, ca. 0.6% (Zwischenresultat von fmc_BayesFactor). Das Verhältnis, dass die Alternativhypothese besser  als die ermittelten 51% gegenüber der Nullhypothese von 50% zu liegen kommt, beträgt 0.1 = 1 / (6.5 / 0.6). Oder mit anderen Worten: mit 9:1 ist der ermittelte Parameter von 0.51 glaubhafter als die Alternativausprägung des Binomialparameters, welcher zwischen 0 und 1 schwanken kann; dies unter der Voraussetzung, dass die Nullhypothese gilt. Der Wert von 0.1 wird als Ergebnis ausgegeben (siehe Zelle R8). 

 

Mit der Gruppe «Variation» ist analog vorzugehen. Würde die Nullhypothese gültig sein, wonach 50% der Kunden das Produkt kaufen, müssten bei 98 ausgewählten Personen 49 Kaufabschlüsse resultieren. Gemessen wurde in der Variation aber eine Kaufquote von 66%, sprich von 98 Personen haben am Schluss 65 den Kauf getätigt. Das Verhältnis, dass das Alternativhypothese besser als die ermittelten 66% gegenüber der Nullhypothese von 50% zu liegen kommt, beträgt ca. 25.25. Oder mit anderen Worten: mit ca. 25:1 ist die Alternativausprägung des Binomialparameters, welcher zwischen 0 und 1 schwanken kann, glaubhafter als der ermittelte Parameterwert von 0.66, unter der Annahme dass der wahre Parameter 0.5 beträgt. Um die Gruppe «Variation» gegenüber der Gruppe «Control» zu vergleichen, ist die Likelihood Ratio zu bilden, wobei beide ermittelten Grössen ins Verhältnis gesetzt werden, also 25.25 / 0.01 = 244.23 (siehe Zelle R13, Abweichungen ergeben sich aufgrund von Rundungen). Dieser Wert induziert, dass die Gruppe «Variation» mit einem Chancenverhältnis von 244:2 sich von der Gruppe «Control» unterscheidet und somit die ermittelte Umsatzdifferenz von 30% nicht auf den Zufall zurückgeführt werden kann. Daher die Aussage «Extreme evidence» in Zelle B13.     

 

Durch eine Simulation kann der Sachverhalt auch graphisch dargestellt werden (die Simulation ignoriert aber die Alternativhypothese): Im 95% Intervall sind die Unterschiede zwischen der Gruppe «Variation» und der Gruppe «Control» durchwegs positiv und variieren zwischen +5% und +61%. Es besteht eine über 99%-ige Wahrscheinlichkeit, dass «Variation» besser abschneidet als «Control» (Zelle H10). 

Die gemessene Umsatzdifferenz von 30% ist für sich alleine aber keine Indikation, dass hier der Zufall nicht im Spiel ist. Nehmen wir an, dass das Experiment über eine kürzere Zeitdauer durchgeführt wird. In der Gruppe «Control» werden 42 Personen gemessen, wovon 21 den Kaufabschluss tätigen. In der Gruppe «Variation» sind es von 47 Personen hingegen 31, welche den Kauf tätigen. Der Unterschied zwischen «Variation» und «Control» beträgt neu 31.91%.

 

Die Likelihood Ratio liegt hier nur bei 8.4. Sie ist also um das mehr als das dreissig-fache gefallen, obwohl das Umsatzwachstum gestiegen ist!  Sie ahnen es wohl; bei so wenig Personen, welche in die Stichprobe eingeflossen sind, wird der Zufall überhand nehmen. Daher die Aussage «Moderate evidence» in Zelle B13. Die graphische Analyse untermauert dies. Im 95% Intervall sind die Unterschiede zwischen der Gruppe «Variation» und der Gruppe «Control» sowohl negativ als auch positiv und variieren zwischen -7% und +91%. Der Wert von 0, gleichbedeutend mit der Feststellung, dass zwischen «Control» und «Variation» kein Unterschied besteht, ist somit Bestandteil des Intervalls, womit die Ausgangsfrage, ob ein Unterschied zwischen den beiden Gruppen besteht, im glaubhaften Intervall von 95% verneint werden kann. Ein knapper Sieg für die Nullhypothese. Trotzdem: Mit dem neuen Verfahren besteht immerhin ein fast 95% Wahrscheinlichkeit, dass «Variation» besser als «Control» abschneidet (Zelle H10). 

Der Vorteil des Bayes-Faktor in diesem Beispiel ist gegenüber klassischen Methoden in vielerlei Hinsicht überlegen:

  • Sie brauchen keine zusätzliche Testverfahren, etwa auf Basis eines Fisher’s Exact Tests.
  • Sie prüfen automatisch immer die Alternativhypothesen und
  • Sie berücksichtigen die gemessene relative Abweichung der «Control» Gruppe zur Nullhypothese automatisch mit

Zudem: Das alles können Sie in Microsoft Excel mit MC FLO umsetzen. So einfach. 

 

P.S: Neben einer numerischen Analyse über den Bayes-Faktor raten wir immer auch einen graphischen Vergleich heranzuziehen. 

Wie ersichtlich, haben beide Verteilungen im letzten beschriebenen Fall einen hohen Überdeckungsbereich. Beide wahrscheinlichsten Werte werden von der jeweils anderen Verteilung ebenfalls erreicht. Eine Verteilung der Ergebnisse im 2-dimensionalen Raum schafft weitere Klarheit. 

Im unteren rechten Bereich sind die meisten Ausprägungen ersichtlich. Im oberen linken Teil (links von der Diagonalen) sind aber auch Treffer zu beobachten. Würde «Variation» klar gewinnen, müssten nahezu alle Ausprägungen (gelb oder grün) im unteren rechten Bereich sich widerfinden. 

Kommentar schreiben

Kommentare: 0