Blog

RSS
2017/04/10 13:01

Modelowanie atrybucji w praktyce (cz. 6) Najlepszy model atrybucji

Który z modeli atrybucji jest najlepszy? To pytanie zadaje każdy, kto zapoznał się z szeroką paletą dostępnych modeli atrybucji konwersji. W opracowaniach poświęconych temu zagadnieniu znajdziemy różnego rodzaju opinie.

  • Himanshu Sharma w książce Attribution Modelling in Google Analytics and Beyond stwierdza, że „nie ma czegoś takiego jak dobry lub zły model atrybucji. Należy wybrać model atrybucji w oparciu o własny model biznesowy, cele reklamowe i hipotezy, które chcemy przetestować. Modelowanie atrybucji służy do testów, jest środkiem, a nie celem.”
  • Artykuły pomocy Google Analytics wskazują na konieczność dostosowania modeli atrybucji do kontekstu procesu biznesowego i każdorazowego weryfikowania skuteczności danego modelu.

To, że specyfika każdej branży, firmy, strony internetowej i stosowanej strategii marketingowej może mieć wpływ na wybór modelu atrybucji, wydaje się zupełnie zrozumiałe. Ale jak określić, który model atrybucji jest najlepszy w konkretnym wypadku? Czy taki model w ogóle istnieje?

Czym jest modelowanie atrybucji

Modelowanie atrybucji polega na określaniu wpływu poszczególnych interakcji na łączny wynik w postaci konwersji i przypisywaniu tym interakcjom wartości w sposób najlepiej odzwierciedlający ich wkład w osiągnięty wynik. Łączna wartość wszystkich interakcji jest równa osiągniętemu łącznemu wynikowi.

Idealny model atrybucji powinien w najbardziej sprawiedliwy sposób wynagradzać poszczególne kanały, wskazywać, na ile zmieniłyby się nasze przychody, gdybyśmy zrezygnowali z danego kanału. Porównując wartość konwersji przypisaną danemu kanałowi z poniesionymi wydatkami, powinniśmy móc określić, na ile dany kanał jest rentowny (ROAS) i na tej podstawie rozważyć ewentualną zmianę alokacji budżetów.

ROAS model atrybucji

Tworzenie takiego modelu napotyka jednak istotne trudności praktyczne, związane między innymi z kompletnością zbieranych danych (Google Analytics rejestruje tylko pewien fragment rzeczywistości), brakiem możliwości pomiaru faktycznego wpływu danego kanału na łączny wynik oraz wyborem metody podziału wartości pomiędzy poszczególne kanały.

Model atrybucji oparty o dane (data-driven)

Narzędziem, który próbuje zmierzyć się z tym zadaniem, jest model atrybucji oparty o dane (data-driven) wykorzystujący metody analizy statystycznej i teorii gier celem określenia najbardziej sprawiedliwego podziału przychodu pomiędzy poszczególne interakcje.

Działanie modelu atrybucji opartego o dane opiera się o:

  • Analizę interakcji występujących na ścieżkach konwersji celem określenia, jaki jest oczekiwany wzrost wartości konwersji dzięki pojawieniu się danej interakcji na ścieżce w stosunku do ścieżki, na której ta interakcja nie występuje;
  • Przypisywanie poszczególnym kanałom udziałów w konwersjach odpowiadających ich wkładowi w doprowadzenie do konwersji z wykorzystaniem algorytmu opartego o wartość Shapleya – poprzez sumowanie cząstkowych wzrostów prawdopodobieństw konwersji wynikających z pojawienia się danego kanału na określonej pozycji dla wszystkich możliwych permutacji wystąpień kanałów. Wynik przypisań jest widoczny w raporcie eksploratora modeli atrybucji opartych o danych.

metodologia data driven

Model atrybucji oparty o dane dostępny jest obecnie dla użytkowników Google Analytics 360 (Premium) i może być on indywidualnie dostosowywany tak samo, jak inne modele multi-touch w Google Analytics (więcej informacji na ten temat w artykule pomocy Google Analytics).

Model data-driven dostępny jest również w Google AdWords. Rzecz jasna, model ten analizuje jedynie kliknięcia reklamy w wyszukiwarce Google (tj. bez sieci reklamowej) i udział w konwersjach jest wyliczany wyłącznie w odniesieniu do tych kliknięć (więcej informacji na ten temat w artykule pomocy Google AdWords).

Nieco więcej możliwości daje model oparty o dane w DoubleClick Search. Poza reklamami w wyszukiwarce, uwzględniane mogą być kliknięcia reklamy w sieci reklamowej i reklamy displayowe, a także kliknięcia w organiczne wyniki wyszukiwania (zob. artykuł pomocy DoubleClick Search). Model ten umożliwia wprowadzanie modyfikacji – pierwszym etapem konfiguracji tego modelu jest oznaczenie etykietami tych słów kluczowych i/lub grup produktów, których udział ma być brany w modelu. Model będzie więc przypisywał udziały jedynie w tych konwersjach, w których na ścieżce konwersji wystąpiło chociaż jedno kliknięcie związane z wybranymi słowami kluczowymi i grupowaniem produktów.

Przykładowo, w modelu opartym o dane w DoubleClick Search możemy wyróżnić oddzielnymi etykietami: (i) słowa związane z własną marką, (ii) słowa generyczne oraz (iii) słowa związane z nazwami konkurencji – a następnie stworzyć model w którym nie są uwzględniane etykiety stworzone dla słów związanych w własną marką.

Jakie są ograniczenia modelu atrybucji data-driven?

Przede wszystkim, należy mieć na uwadze to, że algorytm określający wpływ poszczególnych kliknięć nie testuje faktycznego wpływu tych interakcji na konwersje, ale jedynie analizuje koincydencję kliknięć i konwersji. Wiedza na temat szczegółów działania algorytmu jest ograniczona, niemniej zobaczmy, w jaki sposób Google tłumaczy ideę jego działania:

model atrrybucji oparty o dane jak dziala

Porównując dane konwersji ścieżki ABC (na które wystąpiło kliknięcie A) ze ścieżką różniącą się tym, że brak na niej kliknięcia A, czyli ścieżką BC dochodzimy do wniosku, że ścieżka ABC ma o 50% większe prawdopodobieństwo konwersji (wzrost z 2% do 3%). Mechanizm jest zrozumiały, użytkownik który szuka pomysłu na prezent najprawdopodobniej zamierza go kupić, więc na tle innych użytkowników, którzy szukają informacji o tabletach może on mieć większe prawdopodobieństwo konwersji.

Ale czy to właśnie kliknięcie w reklamę związaną ze słowem „gadżety na prezent” miało taki wpływ na zakup w naszym sklepie? Czy ten sam użytkownik, gdyby odwiedził naszą stronę po raz pierwszy szukając „najlepsze tablety” czy nawet dopiero szukając „tablet nexus 9” nie dokonałby również transakcji? Porównując ścieżki ABC i BC, porównujemy użytkowników o których wiemy, że mają pilną intencję zakupową (szukają prezentu) z użytkownikami, którzy mają lub nie mają pełnej intencji zakupowej.

Zastanówmy się, co by było, gdyby nasz model analizował również kliknięcia reklam innych firm, nie tylko naszej. Załóżmy, że szukając „gadżetów na prezent” użytkownik wszedłby na stronę konkurencji, która również oferuje tablety, a następnie – zainspirowany – zacząłby szukać informacji o tabletach, by ostatecznie wybrać Nexusa 9. Załóżmy, że osoby, które wcześniej odwiedziły stronę konkurencji przy wyszukiwaniu słowa „gadżety na prezent” również mają większy współczynnik konwersji:

model atrrybucji oparty o dane jak dziala z reklama konkurencji

Czy również tutaj moglibyśmy uznać, że prawdopodobieństwo konwersji wzrasta (w tym przypadku nieco mniej, o 40%) i na podstawie tego przypisać udział w konwersji reklamie, za którą zapłaciła konkurencja? Czy będąc konsekwentnym, uznalibyśmy że opłacałoby się dotowanie reklam konkurencji?

Inny przykład: Badając statystyki odkrywamy, że na terenach, na których żyje więcej bocianów odnotowujemy zwiększony przyrost naturalny. Czy na tej podstawie możemy wyciągać wniosek, że przynajmniej za cześć urodzin odpowiadają bociany? Nie. Bociany chętniej osiedlają się na terenach wiejskich, które również cechuje większy przyrost naturalny…

wegiel jest we wiosce przed wojna tez byl

Na podstawie samej korelacji między kliknięciem określonych reklam a konwersją nie możemy jednoznacznie wyciągać wniosków o istnieniu związku przyczynowo-skutkowego między nimi, ani oceniać jego siły. Jedynym sposobem, by zmierzyć oddziaływanie, jest przeprowadzenie testu A/B na statystycznie tożsamych grupach użytkowników, którym w okresie testu będzie lub nie będzie wyświetlana określona reklama. Obecnie taki test można wykonać dla remarketingu (zobacz przykład takiego testu) stosując narzędzie grup użytkowników. Ta sama metoda może pozwolić również mierzenie atrybucji reklam które są wyświetlane powracającym użytkownikom, o ile do reklam tych możemy zastosować listy remarketingowe Google Analytics.

Google, którego cookie znajdują się na większości urządzeń na świecie, posiada techniczne możliwości wykonywania takich testów również na nowych użytkownikach strony, ale tego rodzaju testy nie są (jeszcze) dostępne. Dodatkową trudnością jest to, nie wszystkie kanały będzie się dało w prosty sposób wyłączać w testach A/B, np. ruch organiczny, media społecznościowe. Nawet jeśli teoretycznie można sobie wyobrazić takie rozwiązania, to jesteśmy obecnie bardzo daleko od nich.

Model atrybucji oparty o dane w praktyce

Jak opisane ograniczenia mogą wpływać na skuteczność działania modelu opartego o dane?  Wyobraźmy sobie, że analizujemy zachowanie użytkowników naszego przykładu, którzy ostatecznie kupili tablet. Widzimy, że wyszukiwali oni „najlepsze tablety” oraz „tablet nexus 9”, po czym zachowywali się w następujący sposób:

  • 20% z nich kupiło tablet od razu, a pozostali postanowili porównać oferty, po czym
  • 40% porównało oferty i kupiło u nas po wyszukiwaniu nazwy naszego sklepu
  • 40% porównało oferty i kupiło u konkurencji

Użytkownicy, którzy postanowili wrócić, wchodzili na stronę przez reklamę, która wyświetliła się przy wyszukiwaniu nazwy sklepu, ale gdyby się nie wyświetliła, to wchodziliby przez link w bezpłatnych wynikach wyszukiwania który obecnie wyświetla się pod reklamą.

Z punktu widzenia ścieżek konwersji widzimy, że użytkownicy, którzy kliknęli w reklamę związaną z nazwą sklepu mieli dwa razy wyższy współczynnik konwersji niż ci, którzy jej nie kliknęli:

model atrrybucji oparty o dane jak dziala z brand 2

Można oczekiwać, że algorytm modelu atrybucji przypisałby dużą wagę reklamom związanym z marką sklepu – po jej kliknięciu mamy bardzo silny wzrost liczby konwersji. Faktycznie jednak, gdybyśmy te reklamy wyłączyli, łączna liczba konwersji by się nie zmieniła, gdyż użytkownicy zamierzający kupić u nas tablet weszliby przez wyniki organiczne, a skoro tak, to atrybucja reklam związanych z nazwą sklepu jest zerowa.

Realny świat jest oczywiście bardziej skomplikowany. Użytkownicy klikają zarówno w wyniki organiczne, jak i płatne, a przy wyszukiwaniu nazwy firmy mogą się pojawić reklamy konkurencji, dlatego atrybucja reklam związanych z marką nie jest zerowa. Niemniej, oczekiwalibyśmy przesunięcia znacznej części udziału w konwersji na wcześniejsze interakcje z reklamami w stosunku do modelu ostatniego kliknięcia, co jednak w praktyce zazwyczaj nie występuje:

porownanie konwersji brand i data driven last click

Kolejnym problemem modelu opartego o dane są ograniczenia w analizie konwersji między różnymi urządzeniami, co może w niektórych przypadkach obniżyć znaczenie kampanii mobilnych.

Model atrybucji oparty o dane nie jest, bynajmniej, bezużyteczny. Jego niewątpliwą zaletą jest możliwość przeanalizowania ogromnej ilości ścieżek konwersji, co „na piechotę” byłoby praktycznie niemożliwe. Stosując go należy jednak pamiętać, że:

  • model oparty o dane nie jest panaceum, które wyliczy atrybucję każdego z kanałów, ale jedynie dostarczy nam kolejnej hipotezy do zweryfikowania;
  • model oparty o dane warto modyfikować, uwzględniając w nim procesy, których wpływu na konwersje jesteśmy świadomi, np. wyłączając z udziału w konwersji słowa związane z marką lub reklamy remarketingowe, pozostawiając algorytmowi dane, których nie jesteśmy w stanie przeanalizować ręcznie;
  • wyniki modelu opartego o dane mogą pomóc w lepszym zrozumieniu ścieżki konwersji i odkryciu nowych możliwości optymalizacji.

O jakie możliwości może chodzić? Załóżmy, że w naszym przykładzie model data-driven wskazał bardzo silny, kilkukrotny wzrost udziału słowa „gadżety na prezent” w stosunku do modelu ostatniego kliknięcia. Czy po prostu podnosimy kilkukrotnie stawkę oferowaną za to słowo? Nie. Po przeanalizowaniu danych dochodzimy do istoty zjawiska: osoby szukające prezentów mają zwiększoną intencję zakupową, choć niekoniecznie będą zainteresowane przedmiotami z naszej oferty, a na dalszym etapie tak czy tak mogą zostać przechwyceni przez konkurencję.

Tworzymy więc listę remarketingową osób, które weszły na stronę z tego wyszukiwania. Wykorzystujemy ją w remarketingu w sieci reklamowej, jeśli dana osoba spędziła odpowiedni czas na stronie wskazujący, że nasza oferta mogła ją zainteresować. Listę remarketingową wykorzystujemy również w wyszukiwarce – jeśli taka osoba stronie szuka tabletów, możemy zakładać, że z większym prawdopodobieństwem dokona zakupu niż inni użytkownicy, którzy nie są jeszcze przekonani, czy w ogóle chcą cokolwiek kupować. Badamy skuteczność ścieżki i stopniowo zwiększamy stawki, również za słowo „gadżety na prezent”.

Czy idealny model atrybucji istnieje i czy jest nam potrzebny?

Z całą pewnością istnieje taka kombinacja mediów, która w najbardziej optymalny kosztowo sposób zapewni realizację celów kampanii. Perspektywa opracowania idealnego modelu atrybucji, który w sposób niemalże automatyczny mógłby sterować naszym procesem decyzyjnym wydaje się być atrakcyjna. W praktyce jednak może się okazać, że opracowanie takiego modelu i weryfikacja jego skuteczności będą bardzo trudne.

Nawet gdyby istniała możliwość dokonania pomiarów atrybucji poszczególnych źródeł, pojawia się jeszcze jedna trudność. Dane, na których pracujemy, obejmują tylko pewien fragment rzeczywistości, gdyż nie wszystkie działania marketingowe i procesy są odzwierciedlone w Google Analytics, np. kampanie offline, polecenia użytkowników, przejścia między urządzeniami czy interakcje nie powodujące wejścia na stronę (np. wyświetlenia reklam), a których danych nie możemy pobrać do systemu i skojarzyć z użytkownikiem. Z tego powodu model taki i tak nie będzie kompletny.

Pamiętajmy, że modelowanie atrybucji nie jest sztuką dla sztuki. Modele atrybucji to przede wszystkim narzędzia, które ułatwiają analizę danych oraz podejmowanie konkretnych decyzji. Tym kwestiom poświęcone będą kolejne artykuły:

Modelowanie atrybucji w praktyce (cz. 7) Wspomaganie czy kanibalizacja

Wcześniejsze artykuły z cyklu Modelowanie atrybucji w praktyce:

Cz. 1 – Wprowadzenie
Cz. 2 – Zgrupowania kanałów
Cz. 3 – Modele Last-Click i modele awaryjne
Cz. 3½ – Ostatnie kliknięcie niebezpośrednie
Cz. 4 – Modele uwzględniające wspomaganie
Cz. 5 – Okna konwersji



Autor

Witold Wrodarczyk

Dyrektor Operacyjny Adequate Interactive Boutique Google Analytics & AdWords Qualified Professional

Adequate - Agencja interaktywna

Adres:
ul. Okopowa 47/23
01-059 Warszawa
Telefon:
(+48) 22 299 50 28

Nasza strona korzysta z plików cookie w celu realizacji usługi zgodnie z Polityką Prywatności.