Blog

RSS
2017/03/07 10:28

Modelowanie atrybucji w praktyce (cz. 1) Wprowadzenie

Już od kilku lat dzięki Google Analytics narzędzia modelowania atrybucji dostępne są szerokiemu gronu analityków i właścicieli stron internetowych. Mimo że narzędzia te zostały w tym czasie udoskonalone i rozbudowane o szereg dodatkowych funkcji, modelowanie atrybucji jest wciąż jedną z bardziej niedocenianych i – jak się wydaje – zbyt rzadko wykorzystywanych metod analizy.

Czym jest modelowanie atrybucji?

Najczęściej stosowane, standardowe modele oceny skuteczności działań marketingowych online (śledzenia konwersji) przypisują całość „zasług” w doprowadzeniu do konwersji konkretnemu kliknięciu w reklamę lub link. W raportach Google Analytics jest to ostatnie kliknięcie niebezpośrednie, czyli wizyty i konwersje bezpośrednie dokonane przez użytkownika który wcześniej odwiedził stronę z innego źródła, będą przypisane do tego właśnie źródła.

Wcześniejsze wizyty użytkownika na stronie są ignorowane, a nierzadko zdarza się, że użytkownicy odwiedzają stronę wiele razy z różnych źródeł, zanim dokonają konwersji:

sciezka wielokanalowa 3

Ruch bezpośredni (direct) i pochodzące z niego konwersje odnoszą się więc do użytkowników, którzy wcześniej (w okresie ostatnich 90 dni, bo tyle wynosi domyślne okno konwersji w Analytics) nie odwiedzili strony z innego źródła i jeśli jest to któraś wizyta na stronie, to wszystkie poprzednie też były wejściami bezpośrednimi.

Systemy śledzenia konwersji systemów reklamowych (np. Google AdWords, Facebook Ads) przypisują konwersję ostatniemu kliknięciu w reklamę i to – rzecz jasna – tylko w reklamę danego systemu. Nie ma znaczenia, czy po tym kliknięciu użytkownik wchodził na stronę z innych źródeł, czy nie.

Jeśli nasz klient kliknie reklamę AdWords, następnie kliknie reklamę na Facebooku, po czym odwiedzi stronę przez link na blogu, by po kilku dniach wejść bezpośrednio i dokonać zakupu – system AdWords wskaże, że konwersja pochodzi z reklamy AdWords, śledzenie konwersji Facebook Ads przypisze ją ostatnio klikniętej reklamie na Facebooku, a raport Google Analytics jako źródło tej konwersji wskaże odesłanie (referral) z domeny bloga. Co więcej – każdy z tych systemów będzie „twierdził”, że dane źródło w 100% odpowiada za doprowadzenie do konwersji.

Użytkownicy, którzy konwertują przy pierwszej wizycie na stronie stanowią tylko pewną część konwersji. Będzie ona tym mniejsza, im poważniejszą decyzję dana konwersja stanowi. Jeśli konwersją jest np. pobranie pliku, to będzie ona przeciętnie wymagała mniej wizyt, niż subskrypcja newslettera.

W przypadku leadów w postaci zapytania zakupowego, konwersji przy pierwszej wizycie będzie jeszcze mniej, a jeśli konwersją jest zakup i opłacenie transakcji, to liczba konwersji, które wymagały więcej niż jednej wizyty będzie znacznie większa, tym bardziej, im bardziej wartościowy jest kupowany produkt. Na przeciętną liczbę wizyt przed zakupem wpływać też będą inne czynniki, takie jak siła marki, zaufanie do niej i lojalność klientów, a także to, na ile dany produkt jest unikalny i jaka panuje na rynku konkurencja – co może skłaniać użytkowników do szukania opinii i porównywania ofert.

W branży e-commerce użytkownicy dokonują przeciętnie kilku wizyt przed transakcją, a wizyty te często pochodzą z różnych źródeł. Mówimy o konwersjach wielokanałowych – za doprowadzenie do transakcji odpowiada kilka różnych kanałów marketingowych.

Jest oczywiste, że jeśli kilka systemów śledzenia konwersji przypisuje sobie 100% udział w doprowadzeniu do danej transakcji, to nie mogą one wszystkie mieć racji. Przypisywanie całości zasług w doprowadzeniu do konwersji jednemu z nakładających się na siebie kanałów jest z założenia nieprawidłowe, a podejmowane na tej podstawie decyzje o alokacji budżetów reklamowych na poszczególne kanały będą obarczone błędem.

Zobrazowanie konwersji wielokanalowejTrzeba od razu podkreślić, że błąd ten nie zawsze będzie duży. W przypadku nachodzących na siebie kanałów, efekt przenikania się źródeł konwersji może się wzajemnie znosić, skutkiem czego model przypisujący 100% udziału w konwersji do ostatniego kliknięcia nie będzie się istotnie różnił od alternatywnych modeli. Czasem jednak różnice te mogą być bardzo istotne i skutkować nawet wielokrotnym niedoszacowaniem lub przeszacowaniem opłacalności danego źródła ruchu.

Modelowanie atrybucji pomaga określić znaczenie poszczególnych źródeł ruchu i faktyczną wartość poszczególnych, pokrywających się źródeł ruchu prowadzących do konwersji.

W czym pomoże nam modelowanie atrybucji, a w czym nie?

Dziś nie ma (jeszcze) narzędzi, przynajmniej tych powszechnie dostępnych, które umożliwiałyby mierzenie atrybucji źródeł ruchu. Wymagałoby to możliwości przeprowadzenia testów A/B na kohortach użytkowników, co obecnie możliwe jest jedynie w przypadku remarketingu z wykorzystaniem list remarketingowych Google Analytics w AdWords (pomiar taki przeprowadziliśmy już w 2014 roku).

Nawet gdyby kiedyś doszło do pełnej integracji danych nie tylko wewnątrz produktów Google, ale i innych systemów reklamowych, pewne źródła wciąż pozostaną niezależne (np. bezpłatne wyniki wyszukiwania, odesłania ze stron zewnętrznych). Dlatego przeprowadzenie testu polegającego na wyłączeniu określonego źródła ruchu dla testowanej grupy użytkowników – w praktyce nie będzie najprawdopodobniej nigdy możliwe.

Google Analytics nie dostarcza nam 100% informacji na temat źródeł ruchu, stąd modelowanie atrybucji z użyciem tego narzędzia ogranicza się tylko do tych danych, które są w nim dostępne. Najważniejsze ograniczenia to:

  • Wiele wizyt nie ma zidentyfikowanych źródeł ruchu i w Google Analytics będą pojawiały się jako wizyty bezpośrednie. Wizyta bezpośrednia będzie miała miejsce nie tylko w przypadku wpisania adresu strony do przeglądarki czy kliknięcia w przeglądarce w zakładkę z ulubionymi linkami, ale również w przypadku wejścia z linku przesłanego przez SMS lub pocztą elektroniczną i odczytanego za pomocą aplikacji typu Outlook. Odesłanie ze strony https:// na stronę http:// również nie przekaże danych o stronie odsyłającej, a wizyta taka będzie odnotowana jako bezpośrednia (chyba, że linki te były otagowane). Czyszczenie i blokowanie plików cookie przez użytkowników również powoduje, że wizyty takie będą przez Google Analytics traktowane jako wizyty bezpośrednie.
  • Google Analytics standardowo nie mierzy konwersji między urządzeniami. Kiedy mówimy o „użytkowniku” mamy na myśli nie osobę, ale urządzenie: komputer, tablet, telefon komórkowy, a dokładniej – przeglądarkę na danym urządzeniu. Jeśli więc dana osoba odwiedzi stronę na komórce, Google Analytics nie będzie posiadać danych dotyczących źródeł wcześniejszych wizyt pochodzących z komputera tej osoby. Zmiana przeglądarki (np. z Firefox na Chrome) również spowoduje, że w Google Analytics zobaczymy innego użytkownika nie związanego z poprzednimi wizytami na innej przeglądarce. Pewne dane na temat konwersji między urządzeniami dostępne są w Google AdWords, a także dla zalogowanych na stronie użytkowników w Google Analytics (po odpowiedniej konfiguracji) i będziemy się mogli nimi posiłkować – dotyczą one jednak tylko pewnego wycinka całości ruchu na stronie.
  • Google Analytics mierzy tylko źródła online, a więc użytkownicy, którzy weszli na stronę po obejrzeniu reklamy w telewizji, billboardu, ulotki lub reklamy prasowej, czy też po odwiedzeniu tradycyjnego sklepu w fizycznej lokalizacji – będą traktowani jako wizyty bezpośrednie.
  • Google Analytics pomija inne interakcje niż kliknięcia. Mierzenie atrybucji wyświetleń reklamy, obejrzeń filmu i innych interakcji z reklamami dostępne jest w wersji Premium (Google Analytics 360 Suite) i dotyczy wyłącznie reklam Google, a więc pełna analiza atrybucji innych interakcji nie jest obecnie możliwa.

Mimo wspomnianych ograniczeń, modelowanie atrybucji w Google Analytics może dostarczyć nam wielu cennych informacji i pozwolić zaoszczędzić i/lub zarobić sporo pieniędzy. Nawet jeśli uzyskane odpowiedzi nie będą stuprocentowe, będziemy próbowali odpowiedzieć na pytania, takie jak:

  • Na ile poszczególne źródła ruchu wpływają na konwersje i jaka jest ich wartość w porównaniu z ponoszonymi na nie wydatkami?
  • W jakim stopniu źródła ruchu nachodzą na siebie?
  • Czy nachodzące na siebie kanały wspierają się, czy się kanibalizują?
  • Na ile zwiększenie wydatków, ich zmniejszenie lub rezygnacja z danego źródła ruchu powinny wpłynąć na zmianę w przychodach i ponoszonych wydatkach?
  • W które źródła ruchu należy zainwestować więcej, w które mniej, a z których być może zupełnie zrezygnować?

Modelowanie atrybucji w praktyce

Dostępne publikacje na temat modelowania atrybucji skupiają się głównie na opisie dostępnych narzędzi i podstawowych metod analizy. Nie ma sensu powielać tych treści. Tym, którzy dopiero poznają narzędzia modelowania atrybucji, polecimy przede wszystkim wiedzę źródłową, czyli materiały pomocy Google Analytics na temat atrybucji konwersji. Wciąż aktualny jest nasz artykuł Modelowanie atrybucji konwersji.

W serii artykułów spróbujemy przybliżyć szereg praktycznych zagadnień związanych z modelowaniem atrybucji. Pierwszy artykuł z tego cyklu: Modelowanie atrybucji w praktyce (cz. 2) Grupowanie kanałów ścieżek wielokanałowych.

Zainteresowanych doradztwem w zakresie modelowania atrybucji zapraszamy do kontaktu z nami.



Autor

Witold Wrodarczyk

Dyrektor Operacyjny Adequate Interactive Boutique Google Analytics & AdWords Qualified Professional

  • gdi

    „Przypisywanie całości zasług w doprowadzeniu do konwersji jednemu […] jest z założenia nieprawidłowe”
    Tak czysto teoretyzując – nie powinno się mówić, że „z założenia nieprawidłowe”. O tym raczej powinny decydować dane i liczby.
    Można sobie całkiem łatwo wyobrazić teoretyczną sytuację, że źródło X partycypuje w każdej transakcji, w takim samym stopniu kiedy jest jedynym jak i w dowolnej kombinacji z pozostałymi źródłami. Dlaczego więc nie uznać źródła X jako 100% sprawcy ?

    • http://www.adequate.pl Witold Wrodarczyk

      Oczywiście, teoretycznie jest możliwe, że jeden z kanałów jest zupełnie bezwartościowy, nie można jednak tak z góry zakładać – w tym sensie jest to z założenia błędne.

      Metoda porównywania ścieżek jest jednym ze sposobów dochodzenia do „właściwego” modelu atrybucji, w którym wagi przyznawane poszczególnym kanałom odpowiadają ich faktycznemu udziałowi w doprowadzeniu do konwersji. Stosowana jest ona między innymi w algorytmicznym modelu atrybucji Google (‚data driven attribution model’). Jeżeli użytkownicy, którzy na ścieżce mieli określoną interakcję konwertują z większym prawdopodobieństwem, niż ci, których ścieżka różni się tylko brakiem tej interakcji, to wskazuje, że interakcja ta ma udział w konwersji.

      Stosując tę metodę, jeśli źródło X partycypuje w każdej transakcji, a użytkownicy ze ścieżkami mającymi inne interakcje konwertują z tym samym prawdopodobieństwem, metoda ta wskazuje istotnie, że źródło X ma 100% udziału w konwersji, a pozostałe źródła nie wnoszą nic do prawdopodobieństwa konwersji.

      Metoda ta jednak nie jest do końca poprawna, gdyż nie bierze pod uwagę możliwości, że interakcja z określonym kanałem może wskazywać do przynależności do innej grupy użytkowników (persony), której zachowanie będzie odmienne.

      Wyobraźmy sobie sytuację, w której każda konwersja poprzedzona jest wizytą z AdWords, gdzie słowem kluczowym jest nazwa produktu. Widzimy też, że użytkownicy, którzy wcześniej odwiedzili stronę z kampanii na Facebooku, konwertują z takim samym współczynnikiem konwersji, jak pozostali. Czy to znaczy, że kampania na Facebooku nie miała żadnego udziału w konwersji? Nie. Część użytkowników dowiedziała się o produkcie właśnie z Facebooka i gdyby nie Facebook, nigdy nie wyszukiwaliby w Google nazwy produktu.

      Inny przykład: Użytkownicy którzy mieli interakcję ze stroną z opiniami na temat produktu, konwertują z niższym prawdopodobieństwem, niż ci, którzy tej interakcji nie mieli. Czy to znaczy, że opinie, mimo że są dobre, mają negatywny wpływ na konwersje? Raczej nie. Powodem zjawiska jest to, że (w tym przykładzie) użytkownicy szukający opinii o tym produkcie to osoby, które zachowują się inaczej, niż pozostali, są bardziej ostrożni i dokonują szerszej analizy przed zakupem, przez co z większym prawdopodobieństwem stykają się również z konkurencyjnymi ofertami i prawdopodobieństwo konwersji jest u nich mniejsze. Gdyby jednak opinii nie znaleźli, szansa na konwersję byłaby jeszcze mniejsza.

      Porównywanie ścieżek nie daje odpowiedzi na pytanie o faktyczną atrybucję. Jest jedynie pewną przesłanką, którą możemy wykorzystać w analizie. Jak już wspomniano w artykule, jedynym sposobem wyznaczenia atrybucji jest test A/B, którego przeprowadzenie technicznie nie jest możliwe (za wyjątkiem remarketingu). Modele data-driven wykorzystujące tę metodę mają tendencję do przypisywania nadmiernego udziału wejściom bezpośrednim i słowom kluczowym związanym z marką, które pojawiają się zazwyczaj na większości ścieżek.

      Temat ten będzie poruszany w jednym z kolejnych artykułów.

    • http://www.adequate.pl Witold Wrodarczyk

      Oczywiście, teoretycznie jest możliwe, że jeden z kanałów jest
      zupełnie bezwartościowy, nie można jednak tak z góry zakładać – w tym
      sensie jest to z założenia błędne.

      Metoda porównywania ścieżek jest jednym ze sposobów dochodzenia do
      „właściwego” modelu atrybucji, w którym wagi przyznawane poszczególnym
      kanałom odpowiadają ich faktycznemu udziałowi w doprowadzeniu do
      konwersji. Stosowana jest ona między innymi w algorytmicznym modelu
      atrybucji Google (data driven attribution model). Jeżeli użytkownicy,
      którzy na ścieżce mieli określoną interakcję konwertują z większym
      prawdopodobieństwem, niż ci, których ścieżka różni się tylko brakiem tej
      interakcji, to wskazuje, że interakcja ta ma udział w konwersji.

      Stosując tę metodę, jeśli źródło X partycypuje w każdej transakcji, a
      użytkownicy ze ścieżkami mającymi inne interakcje konwertują z tym
      samym prawdopodobieństwem, metoda ta wskazuje istotnie, że źródło X ma
      100% udziału w konwersji, a pozostałe źródła nie wnoszą nic do
      prawdopodobieństwa konwersji.

      Metoda ta jednak nie jest do końca poprawna, gdyż nie bierze pod
      uwagę możliwości, że interakcja z określonym kanałem może wskazywać do
      przynależności do innej grupy użytkowników (persony), której zachowanie
      będzie odmienne.

      Wyobraźmy sobie sytuację, w której każda konwersja poprzedzona jest
      wizytą z AdWords, gdzie słowem kluczowym jest nazwa produktu. Widzimy
      też, że użytkownicy, którzy wcześniej odwiedzili stronę z kampanii na
      Facebooku, konwertują z takim samym współczynnikiem konwersji, jak
      pozostali. Czy to znaczy, że kampania na Facebooku nie miała żadnego
      udziału w konwersji? Nie. Część użytkowników dowiedziała się o produkcie
      właśnie z Facebooka i gdyby nie Facebook, nigdy nie wyszukiwaliby w
      Google nazwy produktu.

      Inny przykład: Użytkownicy którzy mieli interakcję ze stroną z
      opiniami na temat produktu, konwertują z niższym prawdopodobieństwem,
      niż ci, którzy tej interakcji nie mieli. Czy to znaczy, że opinie, mimo
      że są dobre, mają negatywny wpływ na konwersje? Raczej nie. Powodem
      zjawiska jest to, że (w tym przykładzie) użytkownicy szukający opinii o
      tym produkcie to osoby, które zachowują się inaczej, niż pozostali, są
      bardziej ostrożni i dokonują szerszej analizy przed zakupem, przez co z
      większym prawdopodobieństwem stykają się również z konkurencyjnymi
      ofertami i prawdopodobieństwo konwersji jest u nich mniejsze. Gdyby
      jednak opinii nie znaleźli, szansa na konwersję byłaby jeszcze mniejsza.

      Porównywanie ścieżek nie daje odpowiedzi na pytanie o faktyczną
      atrybucję. Jest jedynie pewną przesłanką, którą możemy wykorzystać w
      analizie. Jak już wspomniano w artykule, jedynym sposobem wyznaczenia
      atrybucji jest test A/B, którego przeprowadzenie technicznie nie jest
      możliwe (za wyjątkiem remarketingu). Modele data-driven wykorzystujące
      tę metodę mają tendencję do przypisywania nadmiernego udziału wejściom
      bezpośrednim i słowom kluczowym związanym z marką, które pojawiają się
      zazwyczaj na większości ścieżek.

      Temat ten będzie poruszany w jednym z kolejnych artykułów.

  • https://www.szymkowiak.online/ Łukasz
    • http://www.adequate.pl Witold Wrodarczyk

      No tak to często wygląda. Czasem się dziwię, że ludzie mają tyle czasu :)

Adequate - Agencja interaktywna

Adres:
ul. Okopowa 47/23
01-059 Warszawa
Telefon:
(+48) 22 299 50 28

Nasza strona korzysta z plików cookie w celu realizacji usługi zgodnie z Polityką Prywatności.