Mi is az az A/B tesztelés, és hogyan csináljuk jól?

2017-11-02 Bresztovszky Ádám Comments 0 Comment

Olvasási idő: 21 perc

Az A/B tesztelés a sikerünk kulcsa lehet, amennyiben helyesen használjuk. Ennek ellenére sajnos nagyon kevesen használják, és még kevesebben végzik el helyesen a tesztelést. Tegyünk róla, hogy ne legyen így!

Amint elérkezünk arra a pontra, hogy a szolgáltatásunkat online térben szeretnénk hirdetni, hamar szembesülünk azzal a ténnyel, hogy egyes hirdetések jobban működnek, mint mások. Ez egy természetes jelenség: a célközönségünk egy nagy valószínűséggel jól körülhatárolt csoport, aminek tagjai rendelkeznek közös tulajdonságokkal és ízlésvilággal. Ezek a tulajdonságok azok, amik alapján döntenek, ezek tartják őket egy csoportban, emiatt valami jobban és valami kevésbé tetszik nekik. Sajnos ezeket a jellemzőket nem tudjuk a legtöbb esetben magunktól meghatározni, legalábbis nem kellő pontossággal. Ha viszont nem tudjuk pontosan meghatározni a kritikus jellemzőket, akkor a hirdetéseinket és az online jelenlétünket sem tudjuk profivá fejleszteni. Ha nem profi és pontos egy hirdetés, vagyis nem rezonál maximálisan a célközönségünkkel, akkor a hirdetéseink relevanciája alacsonyabb lesz. Korábbi cikkemben már kifejtettem, hogy a távoli relevancia milyen problémákat vonhat maga után (röviden: súlyosakat).

Szerencsére van arra lehetőségünk, hogy a célközönségünket jobban megismerjük és hirdetéseink célzása igazán profi és pontos legyenek a számukra. Egyszerű teszteléssel (vagy inkább tesztelések sorozatával) kell kipuhatolózni, hogy melyek azok a jellemzők, melyek közelebb állnak a célcsoportunkat meghatározó értékrendekhez.

Nem tiszta még a kép? Ne aggódj, a cikk végére teljesen egyértelmű lesz! Vágjunk is bele a részletekbe!

Mi az az A/B tesztelés?

Az említett tesztelési folyamatot A/B tesztelésnek, vagy “split” (magyarul talán a “szétválasztó” a helyes szó) tesztelésnek hívjuk. Tulajdonképpen arról van szó, hogy két (vagy akár több) nagy mértékben megegyező, de mégis egy ponton eltérő verziót állítunk egymással szembe, abból a célból, hogy kiderítsük: melyik szerepel jobban. Maga a tesztelés folyamata igazából egy összehasonlító kísérlet, melyet akkor használunk, ha a teljesítményünket optimalizálni szeretnénk, de nem tudjuk, hogy milyen változtatással érhetjük el a legjobb eredményt.

Az alábbi egyszerű példával könnyen szemléltethető az A/B tesztelés:

Az étteremben a szakács szeretne olyan ételt készíteni, amire Te biztosan azt fogod mondani, hogy ez a legfinomabb, amit valaha ettél. Azt tudja, hogy szereted a gulyáslevest, de nem tudja pontosan, hogy milyen ízvilág áll a legközelebb hozzád. Úgy dönt, hogy egy szétválasztó kísérletnek vet alá Téged.

Első körben kivisz Neked két tányér levest és megkér, hogy kóstolj bele mind a kettőbe. Egyikbe sok sót tesz, míg a másikat sótlanul készíti el. Mivel Te szereted több sóval az ételt ezért az előbbit választod.
Eztután ismét két tányér levest tesz eléd. Immáron mind a kettőt sok sóval, de egyiket csípősen, másikat pedig csípős hozzávaló nélkül. Mivel Te nem nagyon szereted a csípős ételeket, ezért most is megvan a kísérlet nyertese.
Ez így megy addig, amíg meg nem találja a szakács azt az ízvilágot, ami biztosan elnyeri a tetszésedet. Voálá: máris megvan a Számodra tökéletes gulyásleves!

Látod mi történt? A szakács egy olyan kísérlettel találta meg a megfelelő receptet, melyben egymáshoz hasonló, de mégis egy összetevőben eltérő verziókat mutatott meg Neked, mint a célközönségének. Nos, az A/B teszt pont ugyanígy néz ki a marketinggyakorlatban is.

ab_teszteles_grafika — Az A/B tesztelés során egy meglevő verziót (kontroll verziót) versenyeztetünk egy vagy több kihívóval

Felmerülhet a kérdés, hogy nem egyszerűbb-e megkérdezni egyből, hogy hogyan szereted a levest (explicit módszer)? Sajnos ez több okból sem működőképes megoldás, azon kívül, hogy rettentően amatőr is lenne a kérdés egy szakácstól.
A valóságban nagy célcsoportokat vizsgálunk (több száz, vagy gyakran tízezer fő), és nem tudunk mindenkit megkérdezni. Főleg nem minden lehetséges kérdéssel. Másrészről olyan változókat is vizsgálunk, melyeket nem biztos, hogy célcsoportunk meg tud (vagy akar) válaszolni magától (implicit változók). Például Te meg tudod mondani, hogy egy kék vagy egy zöld gombra kattintanál-e szívesebben? Nem hiszem. Viszont, ha 1000 embernek a 60%-a a kékre kattint, míg 40%-a a zöldre, akkor a célközönségünk nagyobb része a kék színt kedveli jobban, ezért érdemes azt használni.

Hogyan készítsd elő az A/B tesztelés folyamatát?

Ahhoz, hogy A/B tesztelés pontos és hasznos legyen, több kérdést is körbe kell járnunk. Ezen pontok megértése és helyes alkalmazása kritikus. Ha rosszul végezzük el a próbát, vagy félreértelmezzük a tesztünk eredményeit, akkor az nagy mértékben eltéríthet minket a helyes úttól. Értelemszerűen ezt szeretnénk elkerülni, tehát nézzük meg mire kell figyelnünk, ha mondjuk azt szeretnénk, hogy összességében több konverziót érjünk el.

Meg kell állapítani, hogy melyik felületünk az, ahol az optimalizálásra a legnagyobb szükség van. Vagyis, tudnunk kell, hogy hol érdemes egyáltalán tesztelni a jobb verzió megállapításának reményében?
Ezt követően az adott felület hirdetésein belül kell megvizsgálni a lehetséges tesztelési opciókat, melyek hatással lehetnek a célunkra.
Végül pedig végig kell menni azokon a pontokon, amik szükségesek ahhoz, hogy egyáltalán elvégezhető és értelmezhető legyen az A/B tesztelés.

Lássuk sorban, kifejtve az egyes pontokat:

1. Elsőként határozzuk meg az optimalizálni szükséges felületünket

Ahhoz, hogy meg tudjuk állapítani azt, hogy melyik felületünket szükséges elsőként optimalizálni PIE vagy ICE módszert szokás alkalmazni.

PIE módszer

A PIE framework egy egyszerű priorizálási folyamat, mellyel eldönthetjük, hogy mely pontok azok, amik a legnagyobb hatással vannak a sikerünkre. Az értékelés során 1 és 10 közti számot rendelünk az egyes blokkokhoz, majd ezek egyes átlagával megkapott végeredmény alapján fontossági sorrendet tudunk megállapítani. A blokkok az alábbiak:

Potential (potenciál)

Azt kell értékelnünk, hogy a tesztelendő felület mennyire teljesít rosszul jelenleg. Ezt nem szabad megérzésekre bízni, hanem számokkal kell igazolni (irány az Analytics!). Például, ha konverziót szeretnénk optimalizálni, akkor meg kell vizsgálni, hogy azonos feltételek mellett az AdWords hirdetéseink, a Facebook hirdetéseink, vagy mondjuk az e-maileink teljesítenek-e a legrosszabbul. Ha az AdWords teljesít legrosszabbul, akkor neki 10 pont jár, ezt követi kevesebb ponttal a jobban teljesítő felület.

Importance (fontosság)

Azt vizsgáljuk ennél a blokknál, hogy mennyire fontos számunkra (illetve a cégünk számára) az adott felület. Ha mondjuk az AdWords-re szeretnénk több pénzt áldozni, míg a Facebookra kevesebbet (például azért, mert a konkurensünk AdWords-ön viszi el a legtöbb Ügyfelet előlünk), akkor az AdWords 10 pontot érdemel, míg a Facebook mondjuk 5 pontot.

Ease (egyszerűség)

Arra a kérdésre válaszolunk ennél a blokknál, hogy mennyire egyszerű változtatni az adott opción? Egy landing page áttervezése általában nehezebb, mint egy Facebook hirdetés átírása, így előbbi 5 pontot, utóbbi 10 pontot kap.

pie_framework — Egy egyszerű Pie Framework segíthet a tesztelési sorrend kialakításában

ICE módszer

A ICE metódus nagyban hasonlít a PIE módszerhez, de máshonnan közelíti meg a kérdést, illetve annyiban tér el, hogy 1-est vagy 2-est adhatsz pontszámként. Az 1-es a nagyon fontos, a kettes a kevésbé fontos jelzés.

Impact (hatás)

Milyen hatást érhetünk el, ha sikeres lesz a tesztelés? Mit várhatunk a sikeresség esetén? Például, ha átírom az AdWords vagy a Facebook hirdetéseim szövegét, akkor mind a két esetben 50%-kal fog nőni az átkattintók aránya, de ez Adwords esetén 20 embert, Facebook esetén csak 10 embert fog jelenteni. Első esetben 1 pontot adunk, másodikban 2-őt, hiszen az AdWords optimalizálásnak nagyobb a pozitív hozadéka, hatása.

Cost (költség)

Ez egyszerű: mennyibe kerül nekünk az adott felület módosítgatása? Egy landing page módosítása lehetséges, hogy programozói tudást igényel, így többe fog kerülni, mint egy Facebook szöveg átírása. A landing page 2 pontot, míg a Facebook 1 pontot kaphat.

Effort (erőfeszítés)

Ez is egyértelmű: mennyi erőfeszítést igényel a módosítások integrálása? Egy hírlevél grafikai megváltoztatása több időbe kerül, mint egy AdWords kampánybeállítás módosítása. Ráadásul a hírlevél esetén több kollégát is érinthet a munka. A könnyebben módosítható opció több pontot kap, mint az időigényesebb.

Létezik több módszer is (ICE v2., vagy akár a PXL módszer), de ez a kettő a legjellemzőbb. Ha az egyes módszereknél mutatott táblázat szerint gyorsan összeállítjuk a saját adatsorunkat, akkor könnyen láthatjátok, hogy mely felületek érték el a legmagasabb átlagpontot. Ezeket a felületeket kell elsőként optimalizálni és alávetni tesztelésnek.

Ice framework a gyakorlatban — Az ICE módszer kicsit másabb, mint a PIE verzió

TIPP: Párosíthatod a különböző módszereket, tehát alkalmazhatsz akár “PIEICE” megoldást is, én ezt szoktam csinálni. Időigényesebb, de tuti, hogy egy olyan sorrendem lesz, amelynél mindent figyelembe vettem. Ehhez viszont az etérő pontozási rendszert módosítani kell kissé.

Ha megtudtuk, hogy a konverziószerzés szempontjából melyik felületünkön a legégetőbb az optimalizálás, akkor ott kell elkezdenünk tesztelni a hirdetéseket A/B tesztelés segítségével. De mit is tudunk tesztelni egy hirdetésen belül?

2. Mit tesztelhetünk egy hirdetésen belül?

Nézzük az alábbi példát:

Egy hagyományos Facebook hirdetés sok kis elemből tevődik össze, melyeket mind tesztelni is lehet

Az a célunk, hogy több interakció érkezzen a fenti posztunkra. Egyértelmű, hogy a hirdetés több részletét kell külön-külön tesztelni ahhoz, hogy a tökéletes posztot megtaláljuk. Az alábbiakat kell tesztelnünk:

A hirdetés képe
A poszt szövege
A felhívás szövege
A leírás szövege
A link megjelenése
A gomb felirata

És emellett még a háttérben is kell tesztelni az alábbiakat:

A célközönség és a célzási beállítások
A kampánystratégia
A manuális, vagy automatikus licitálás, licitösszegek
A hirdetés optimalizálása
A tesztelési időszak

Így máris van 12 tesztelési lehetőségünk, mely mind befolyásolja, hogy a hirdetésünket mennyire kedvelik majd az emberek, és mindet külön időpontban kell lefuttatni. Ha csak mindegyik esetben 2 variációt tesztelünk, akkor máris legalább 24 hirdetést kell elkészítenünk. Érezhető, hogy ez egy hosszadalmas és energiaigénylő tevékenység. Ugyanakkor az is sejthető, hogy egyes tesztelési választások jobban, míg mások kevésbé fogják befolyásolni a végeredményt. Emiatt a gyakorlat úgy tartja, hogy elsőként azokat a pontokat érdemes tesztelni, amik megérzésünk szerint nagyobb ráhatással vannak a hirdetésünk sikerére, majd a végén elegendő a kisebb befolyással bíró opciókat vizsgálni.

TIPP: A Facebook belső tesztelési lehetőségeiről részletesebb cikket is írtam ezen a címen: “A Facebook tesztelőeszközeinek előnyei és hátrányai”

Facebok tesztelési lehetőségeg a háttérben — A Facebook beépített lehetőségként egyelőre kevés opciót engedélyez tesztelni, de külső szoftverrel, vagy magunktól összeállítva számos lehetőségünk van (UPDATE: cseréltem a képet, már van kreatív tesztelési lehetőség is!)

Azért szükséges előbb a nagyobb horderejű opciókat választani, mert az A/B tesztelés során óhatatlanul is elvesztünk értékes vásárlókat, kattintókat. Ők azok, akik abban a tesztcsoportban voltak, aminek hirdetése gyengébben teljesített. Lehetséges, hogy ha ők a nyertes verziónak a csoportjába kerültek volna, akkor kattintottak volna, de így nem volt nekik szimpatikus a hirdetésünk. Ha elsőként letisztázzuk a nagyobb horderejű kérdéseket, akkor a tesztelési folyamat későbbi részében már nem veszítünk el olyan sok potenciális embert.

TIPP: A “vesztes” verzióban elvesztett értékes embereket is vissza lehet szerezni. Érdemes lehet a tesztet követően egy másik jellegű hirdetést mutatni nekik, már azokkal az eredményes megállapításokkal, amiket a tesztünk során kiderítettünk. Lehetőség szerint SOHA ne teszteljünk a teljes célközönséggel, különítsünk el egy véletlenszerű tesztcsoportot, így ha valamit elbaltázunk, akkor nem lesz akkora gond belőle.

3. Mire kell figyelni a teszt előkészítésénél?

Miután megállapítottuk, hogy melyik felületen kezdjük az A/B tesztelést és pontosan milyen lehetőségeink vannak a hirdetésen belül, akkor meg kell vizsgálni, hogy a teszteléshez szükséges kritériumokat meg tudjuk-e teremteni. Nézzük, hogy mik ezek a kritériumok:

Megfelelően meghatároztuk-e az A/B tesztelés célját?

Ha nem tudjuk mit várunk a teszttől, akkor azt sem tudjuk, hogy megkaptuk-e a várt értéket és eredményt. Ezért már az A/B tesztelés elkezdése előtt meg kell határozni a szükséges célokat és KPI-okat. Ezek az alábbiak lehetnek például:

– Szeretném, ha többen keresnék fel a weboldalamat, ezért a CTA feliratát változtatom meg vonzóbb szövegre
– 10%-kal szeretném növelni a hirdetésem CTR-ét, ezért több, különálló szöveget írok és kiderül, melyik a jobb

Fontos tehát, hogy mindig legyen célja a tesztnek, és mindig a célunknak megfelelő mutatót vizsgáljuk. Ha az e-maileink megnyitási arányát szeretnénk javítani, akkor a levelek subject line-ját változtassuk és az open rate-et nézzük. Ha az ajánlatkérések számát szeretnénk növelni, akkor tesztelhetjük például az AdWords hirdetési stratégiánkat, állíthatjuk mondjuk konverzió optimalizálásra, és a konverziós arányt nézzük, ne a pontos konverziók számát.

Rendelkezünk-e a teszteléshez szükséges méretű célközönséggel?

Ahhoz, hogy a tesztünk eredménye értelmezhető legyen, megfelelő méretű célközönséggel kell rendelkeznünk. Magától értetődő, hogy mondjuk 2 emberrel elég nehéz messzemenő következtetéseket levonni. Konkrét méretet erre vonatkozóan nehéz lenne megadni, de általánosságban azt mondhatom, hogy összesen legalább 200 embert érdemes tesztelésnek alávetni.

TIPP: Létezik természetesen erre is pontos számláló, itt található: Optimizely A/B Test Sample Size Calculator.

A teljes célcsoportot két egyenlő részre szükséges osztani, esetünkben 100-100 főre. A két csoport “irányítottan véletlenszerű” legyen, tehát egyaránt szerepeljenek benne férfiak és nők, illetve legyünk tekintettel a korra is és egyéb sajátosságokra is. Ha erre nem figyelünk, akkor öntudatlanul több változót is elhelyezünk a tesztben. Csökkentsük lehetőség szerint az eltérések számát.

optimizely — Az Optimizely Sample Size kalkulátora megmutatja, hogy körülbelül mekkora minimális közönségen kell elvégezni a tesztet

Csak egy eltérés van a verzióink közt?

Nagyon fontos kiemelni, hogy csak egy és csakis egy darab eltérés legyen a tesztelt verziók között. Ha több eltérés is van, akkor nem fogjuk tudni pontosan eldönteni, hogy pontosan melyik eltérés miatt teljesít jobban az egyik hirdetés, mint a másik.
Példának okáért, ha egy hírlevél szövege és a benne levő CTA is eltér a verzióink közt, akkor honnan tudjuk majd megállapítani, hogy vajon a szöveg miatt, vagy a gomb miatt eredményezett-e több konverziót a nyertes? Sehogy, ezért erre a pontra nagyon figyeljünk. Emiatt kell például egyszerre (párhuzamosan) futtatni a verziókat. Ha más-más időben küldenénk, akkor az időpont is egy új változó lenne és lehetséges, hogy nem az e-mail szövege, hanem a kiküldés időpontja döntené el az A/B tesztelés végeredményét.

TIPP: Fontos megjegyezni, hogy nem csak két verziót lehet egymással szembe állítani. Tesztelhetünk akár 5 vagy 10 verziót is, a lényeg, hogy csak egy ponton térjenek el, tehát egy változó legyen. Például: Melyik a jobb: a sárga, a piros, a kék, vagy a zöld CTA?

Meddig kell majd futtatnunk az A/B tesztünket?

Nagyon sok helyen olvasni erre a kérdésre pontosan megadott választ. Például “legalább 2 hétig”, vagy “legalább 1 hónapig”. Ezek hibás megállapítások, nincs ilyen jellegű, egzakt időintervallum. Van, amikor 3 nap, vagy amikor 2 hónap kell a teszteléshez. Az idő nem nagyon számít, inkább azt figyeljük, hogy egy minimális számú vizsgált értékkel rendelkezzünk ahhoz, hogy messzemenő következtetést le tudjunk vonni. Ilyesmikre gondolok:

– Legalább 15 konverzió
– Legalább 1000 interakció/oldalmegtekintés/megjelenés

Az, hogy mikor lehet pontos megállapítást tenni, attól függ, hogy a tesztünk eredménye nem a véletlenen múlt, hanem szignifikáns eltérés tapasztalható a két verzió eredménye közt. Erről a következő bekezdésben beszélek részletesen.

A split teszt sikere — A split teszt használata minden esetben javít a stratégiánk sikerén

Hogyan értékeljük ki helyesen az A/B tesztelés eredményét?

A tesztünket folyamatosan ellenőrizni kell, hiszen ahogy korábban már megállapítottuk, előre nem tudhatjuk azt, hogy mennyi ideig kell futtatnunk ahhoz, hogy pontos végkövetkeztetésre tudjunk jutni. De mikor tudjuk, hogy a tesztünk aktuális státusza engedhet-e végső következtetést?

A végső következtetés megállapításához a tesztelt verzióink eredményeinek szignifikáns eltérést kell mutatniuk. Ez azt jelenti, hogy a kapott eredmények közt nem a véletlenszerűség alkot eltérést, hanem matematikailag számottevő különbség mutatkozik meg. A szignifikanciaszint egy százalékos arányszám, ami azt mutatja meg, hogy mennyi a valószínűsége annak, hogy statisztikailag igazolható az, hogy az egyik verziónk jobban teljesített, mint a másik. Általában 90-95%-os szint felett mondható biztosnak az, hogy az egyik verzió hatásosabb, mint a másik.

Az AdWords beépített kampányoptimalizálója — Az AdWords beépített kampánykísérletek tesztelője kis nyilakkal jelzi, hogy a tesztünk jelenlegi állása szignifikáns éltérést mutat-e

Nézünk egy példát:

Két hirdetést tesztelünk Facebook-on. Az “A” verzió esetén 1000 kattintásból 4 esetben történt vásárlás, míg a “B” hirdetés esetén 900 kattintásból 7 vásárlás történt. Vajon melyik hirdetésünk a jobb? A véletlen miatt lett több a “B” hirdetés konverzióinak száma, vagy tényleg jobb az a hirdetés?

A példa esetén könnyen gondolhatnánk, hogy a “B” a nyertes, hiszen kevesebb kattintásból több konverzió érkezett, tehát jobb volt az arány, mint az “A” hirdetés esetén. Ez ugyanakkor nem szignifikáns eredmény (86%), tehát nem lehetünk teljesen biztosak abban, hogy a különbség nem a véletlen műve.

Hogyan állapítottam ezt meg? Manapság ez már nagyon egyszerű! Nem szeretnék belemenni a matematikai alapokba, mivel erre szerencsére esetünkben nincs is szükség. Egyszerűen csak használjuk az alábbi ingyenes szignifikanciaszámlálók egyikét, melyek egyből kiírják a végeredményt (előbbi egyszerűbb, utóbbi pedig egy profi teszter):

kissmetrics signifikancia — A példa szignifikanciai vizsgálata a Kissmetrics alkalmazásával

Mit tehetünk, ha az A/B tesztelés eredménye nem szignifikáns?

Ha a verziók közti különbség nem szignifikáns, akkor vagy várnunk kell még, hogy több konverzió érkezzen és esetleg nagyobb különbség legyen az eredmények közt, vagy más változókat kell választani, hiszen ezek közt nincs értelmezhető különbség. Utóbbi miatt lényeges, hogy a tesztünk előkészületei megtörténjenek, hiszen nincs is rosszabb, mint feleslegesen várni, eredmény nélkül.

Mit tegyünk, ha az A/B tesztelés szignifikáns különbséget mutat?

Ebben az esetben örülhetünk, hiszen megállapítottuk, hogy az egyik verzió jobban működik a másiknál. A nyertes verzió beállításait alkalmazhatjuk éles környezetben is, de természetesen itt nem áll meg a dolog: jöhet a következő teszt 🙂

Konklúzió

Ahhoz, hogy hirdetéseink sikeresek legyenek, elengedhetetlen, hogy kommunikációnk a célcsoportunk értékrendjével összhangban legyen. Sokszor ez apróságokon múlik, amik bár egyenként kis részben, de erejüket összeadva nagyban meghatározzák azt, hogy átütő-e az üzenetünk. Mivel a legkisebb rezdüléseket nem tudjuk megsaccolni, minden esetben tesztelésnek kell alávetni a marketingünket. A nagyszerű az az online marketingben, hogy ezt olcsón és egyszerűen meg lehet tenni, a kulcs csak annyi, hogy legyünk pontosak és türelmesek. Az A/B tesztelés egy folyamatos játék, hiszen ami ma bevált, nem biztos, hogy jövő hónapban is működni fog. Viszont, ha hátradőlünk, azzal a saját pénztárcánkat tartalmát pazaroljuk, hiszen nem biztos, hogy a legjobb módszert használjuk. A precíz tesztelés némi gyakorlattal elősegíti a nagy döntéseket, szóval ne vegyük félvállról a dolgot és teszteljünk mindent!

marketingDOT

Az online marketing blog és hírportál