RSS
2018/04/12 22:16

Możliwy wyciek danych osobowych przez Google Analytics?

Wejście w życie RODO uświadomiło firmom znaczenie ochrony danych osobowych. Wysokie kary za naruszenie przepisów, sięgające 20 mln euro i więcej, podziałały na wyobraźnię przedsiębiorców. Gorączkowo zmieniane są procedury i dokumentacja.

W tym kontekście warto przyjrzeć się również Google Analytics (GA), bo może nas spotkać niemiła niespodzianka.

Google Analytics jest bezpieczne i zgodne z RODO

Od razu trzeba podkreślić, artykuł ten nie mówi o wycieku danych z Google Analytics. To najpopularniejsze narzędzie analityczne jest bezpieczne. Dostęp do danych zabezpiecza szereg rozwiązań technicznych i organizacyjnych (zob. artykuł pomocy GA) i prawdopodobieństwo, że zostanie naruszona poufność gromadzonych tam danych – jest znikome.

System Google Analytics jest zgodny z RODO, w szczególności:

  • Google umożliwia zawarcie zgodnego z RODO aneksu o przetwarzaniu danych, który wypełnia obowiązek zawarcia umowy powierzenia przetwarzania danych;
  • Zostały przygotowane narzędzia umożliwiające ustalenie okresu przechowywania danych (zob. artykuł pomocy GA na temat retencji danych) oraz narzędzie do usuwania danych cookie związanych z indywidualnymi użytkownikami;

Trzeba też podkreślić, że, zasady korzystania z Google Analytics zabraniają przesyłania do Google danych umożliwiających identyfikację osoby. Google zastrzega, że w przypadku naruszenia zakazu, może wyłączyć usługę i usunąć dane. Dlatego klasyczne, nie spseudonimizowane dane osobowe w Google Analytics w ogóle nie powinny się znaleźć. W takim razie…

Skąd biorą się dane osobowe w Google Analytics?

Powodem – jak przy każdym narzędziu – jest niewłaściwe stosowanie Google Analytics przez właścicieli witryn. Co trzeba podkreślić, jest to zazwyczaj niezamierzone i wynika z braku świadomości, jak działa strona www, a także w jaki sposób użytkownicy na nią trafiają.

Najczęściej dane osobowe wprowadzane są przez strony www do Google Analytics poprzez adresy URL, w tym parametry oraz tytuły strony (meta title).

Adresy URL z danymi osobowymi

W adresie URL dane osobowe mogą pojawić się w sposób bezpośredni (zob. ilustracja poniżej), np:

  • jako parametry śledzące generowane przy wysyłce mailingu lub SMS (1);
  • jako parametry tworzone w przy zakupie produktu na podstawie wprowadzonych przez użytkownika danych (2);
  • jako parametry związane z logowaniem, które w skrajnym przypadku mogą zawierać nazwę użytkownika i hasło (3):

Dane Osobowe w adresach URL w Google Analytics

Dane osobowe mogą znajdować się w adresach URL również w sposób pośredni (4 i 5). Polega to na tym, że co prawda w adresie URL nie znajdują się dane osobowe, ale adres ten wskazuje stronę, na której dane osobowe są dostępne, a czasem nawet zawiera klucz uwierzytelniający umożliwiający zalogowanie. Przykładem takiej strony może być link z potwierdzeniem transakcji, np. rezerwacji hotelu:

Strona transakcji z danymi osobowymi

Oczywiście część z powyższych przykładów to skrajne przypadki, możliwe raczej teoretycznie niż występujące w praktyce. Większość serwisów posiada odpowiednią architekturę i nie ma możliwość odczytania z adresu URL nazwy użytkownika i hasła, czy też zalogowania się na konto i dokonania zmian przez osoby postronne. Czasami jednak można odnieść wrażenie, że projektanci stron www jakby nie brali pod uwagę faktu, że adres URL lub tytuł strony może być czytany przez kogokolwiek poza użytkownikiem.

Wyszukiwanie w witrynie

Szczególnym przypadkiem wprowadzenia danych osobowych do GA przez parametr adresu URL jest wyszukiwanie w witrynie. Może się zdarzyć, że użytkownik (najczęściej omyłkowo) wprowadzi do takiej wyszukiwarki dane osobowe:

Dane Osoobowe w Wyszukiwrce Wewnętrznej Strony w Google Analytics

Tytuły strony

Dane osobowe mogą zostać przez stronę umieszczone w danych GA również poprzez tytuł strony (meta title), który jest również wczytywany przez Google Analytics. Zdarza się też, że w polu tym pojawia się po prostu adres URL strony:

Dane Osoobowe w Tytułach Strony w Google Analytics

Inne możliwości

Dane osobowe mogą też zostać wprowadzone do Google Analytics przez bardziej zaawansowane funkcje, takie jak parametry zdarzeń (events), wartości transakcji eCommerce, przez interfejs API, w ręcznie przesłanym pliku CSV lub przez Measurement Protocol. Warto sprawdzić, czy przez niedopatrzenie nie są w ten sposób wysyłane do GA informacje umożliwiające identyfikację użytkownika.

To może być niegroźny incydent

Dane osobowe wprowadzone do Google Analytics, dostępne są wyłącznie dla osób uprawnionych, posiadających dostęp do konta GA. Najczęściej są to właściciele witryny, pracownicy i strony trzecie (np. agencje marketingowe) zobowiązane z mocy prawa lub umową do zachowania poufności. Nierzadko większość tych osób ma dostęp do tych samych danych również za pośrednictwem innych systemów (np. programów księgowych i rozliczeniowych), więc fakt, że mogą je podejrzeć również w GA, nie zmienia wiele z punktu widzenia faktycznego bezpieczeństwa tych danych.

Dostęp do danych GA przez pracowników Google jest również ograniczony do niezbędnego minimum i jest obwarowany szeregiem procedur. Stąd więc nawet jeśli w GA znajdą się dane, które tam trafić nie powinny, to prawdopodobieństwo, że zostaną one za sprawą Google wykorzystane ze szkodą dla osób, których dotyczą – jest znikome.

Dlatego w większości przypadków przekazanie danych osobowych do Google Analytics nie wiąże się z istotnym ryzykiem dla bezpieczeństwa danych. Jeżeli jesteś jedyną osobą, która posiada dostęp do GA, to szansa, że ktokolwiek się o tym dowie, jest praktycznie żadna.

To może być poważny problem

Przekazanie danych osobowych do firmy zewnętrznej bez zawartej uprzednio umowy powierzenia przetwarzania danych, może stanowić naruszenie prawa – potwierdza radca prawny Tomasz Palak. Tymczasem aneks o przetwarzaniu danych firmy Google w przypadku usługi GA obejmuje wyłącznie dane takie, jak identyfikatory cookie, IP, urządzeń i klientów (dane pseudonimizowane).

Oznacza to, że umowa powierzenia przetwarzania danych osobowych nie obejmuje zwykłych danych osobowych przesłanych do Google niezgodnie z warunkami korzystania z Google Analytics. Jedną z praktycznych konsekwencji może być brak możliwości selektywnego usunięcia tych danych, w przypadku gdy osoba, której dane dotyczą, zażąda tego zgodnie z przepisami RODO (procedura usuwania indywidualnych danych z Google Analytics obejmuje jedynie dane związane ze wspomnianymi identyfikatorami).

Pojawienie się danych w GA może w niektórych przypadkach oznaczać również faktyczne zagrożenie dla ich bezpieczeństwa.

Kto miał dostęp do danych?

Dostęp do twojego konta Google Analytics mógł być udzielany różnym osobom. Zdarza się, że dostęp przydziela się bez zawarcia stosownej umowy o zachowaniu poufności i bez świadomości, że w GA znajdują się dane osobowe.

Niezależnie od podpisanych umów, pojawia się pytanie, czy osoby, które miały dostęp do GA, dają faktyczną rękojmię poufności informacji? Czy mamy pewność, że osoby te należycie chronią swoje dane dostępu do konta Google?

Dane osobowe to nie statystyki

Nieuprawnione użycie danych analitycznych na temat ruchu na stronie internetowej w najgorszym wypadku naruszy tajemnicę przedsiębiorstwa. Ujawnienie ich niepożądanym osobom (np. konkurencji) w szczególnych przypadkach może okazać się dla firmy niekorzystne. Skala problemu jest jednak nieporównywalna z wyciekiem danych osobowych i ich nieuprawnionym użyciem na masową skalę, co może pociągnąć za sobą konsekwencje finansowe, prawne i negatywnie odbić się na reputacji firmy.

Zakres danych

Kolejną kwestią jest, o jakich danych mówimy. Czy są to wyłącznie adresy email, czy pełne dane osobowe, umożliwiające wykorzystanie tożsamości innej osoby? Czy mogły to być dane wrażliwe? Na ile dane te mogą mieć znaczenie dla prywatności i bezpieczeństwa tej osoby i jej majątku? Czy dane umożliwiły zalogowanie na konto? Czy możliwe było zawarcie transakcji lub dokonanie płatności? Czy mówimy o danych klientów niewielkiego sklepu, czy dużej instytucji finansowej?

Połączenie informacji kto, w jakim czasie i na jaką skalę miał dostęp do danych osobowych, a także jakie to były dane – pozwoli ocenić, czy mamy do czynienia z drobnym incydentem, czy poważnym problemem, wymagającym natychmiastowych działań.

Co robić w wypadku wykrycia danych osobowych w Google Analytics?

  • Przede wszystkim: zachowaj spokój. Dane te najprawdopodobniej gromadzą się w GA od dłuższego czasu. Jeśli dotychczas nie wyniknął z tego powodu problem, niewielka szansa, że stanie się to akurat teraz.
  • Określ dokładnie, jakie dane znalazły się Google Analytics i kiedy. Sprawdź, jakie osoby mają dostęp do GA oraz przejrzyj historię zmian, by odszukać ewentualnych usuniętych użytkowników, którzy mogli mieć dostęp do danych w przeszłości. Na tej podstawie będzie można określić skalę i wagę problemu.
  • Poinformuj osobę odpowiedzialną za bezpieczeństwo danych osobowych lub kierownictwo firmy.
  • Zidentyfikuj, które strony serwisu przekazują dane osobowe do Google Analytics i tak zmodyfikuj ustawienia tych stron i/lub kodu śledzącego, by dane już nie trafiały do GA.
  • Zadecydujcie, co zrobić z dotychczas zebranymi danymi.

Artykuł ten nie jest poradą prawną i przedstawia przede wszystkim aspekty techniczne obecności danych osobowych w GA. W każdym indywidualnym przypadku należy zasięgnąć profesjonalnej opinii, która pozwoli ocenić stan techniczny i prawny, a następnie zaproponować rozwiązania. Zapraszamy do kontaktu z nami.

Poniżej kilka uwag praktycznych, które warto wziąć pod uwagę:

  • Jeśli chcesz usunąć te dane z Google Analytics, to wiedz, że Google nie przewiduje procedury indywidualnego usuwania tego rodzaju danych z konta GA, tym bardziej że zgodnie z warunkami korzystania z usługi, dane te nie powinny się tam znaleźć. Jedynym sposobem jest usunięcie konta/usługi/widoku. Po przeniesieniu do kosza, jest ono całkowicie usuwane są po pewnym czasie (zob. artykuł pomocy GA).
  • Zanim zdecydujesz się skasować konto, zastanów się, czy tak radykalne rozwiązanie jest konieczne w twoim przypadku. Faktu przesłania danych nie da się już odwrócić. Tak długo, jak dostęp do tego konta jest ograniczony do bardzo wąskiego grona osób z odpowiednimi uprawnieniami (czy wręcz ma do niego dostęp tylko jedna osoba), a w GA nie znalazły się dane tysięcy kart kredytowych z kodami zabezpieczającymi, realne zagrożenie dla bezpieczeństwa danych jest znikome. Dane historyczne oraz listy remarketingowe mogą się jeszcze przydać, więc rozważ, czy ich nie utrzymać do czasu, kiedy już będzie można uznać, że są praktycznie nieprzydatne. Zwróć też uwagę, że istnieje możliwość przeniesienia usługi GA na inne konto.
  • Jeśli została podjęta decyzja o usunięciu konta/usługi/widoku, warto zapisać przynajmniej kilka najważniejszych raportów, aby móc w przyszłości sięgnąć do danych historycznych. Możesz też pobrać dane z GA przez API. Jeśli korzystasz z bezpłatnej wersji GA, mogą wystąpić pewne ograniczenia ilości pobranych rekordów, które uniemożliwią pobranie wszystkich danych. Niemniej, im więcej danych zapiszesz, tym lepiej. W plikach tych możesz oczywiście zaciemnić dane osobowe.
  • Jeżeli dane zostały wysłane wyłącznie w sposób pośredni, tzn. w postaci adresów URL umożliwiających dostęp, wystarczy dokonać odpowiednich przekierowań na poziomie serwera i/lub dokonać takich zmian programistycznych, że dostęp do danych osobowych nie jest możliwy z użyciem adresów, które znalazły się w GA i nie będzie potrzeby usuwania niczego z GA.
  • Sprawdź, czy raportowanie wyszukiwania w witrynie nie zawiera danych osobowych. Jednym z rozwiązań jest wyszukiwanie słownikowe, które ogranicza wyszukiwane hasła wyłącznie do fraz znajdujących się na stronie.
  • Utwórz alerty wykrywające pojawienie się w GA danych mogących być danymi osobowymi. Pamiętaj, że w każdej chwili niedopatrzenie dewelopera lub nieodpowiednie użycie parametrów w adresach url (np. w mailingu) może spowodować, że znowu dane się tam pojawią. Niezależnie od alertów, warto regularnie audytować Google Analytics pod tym kątem.
  • Jeśli funkcjonalność linku zawierającego dane osobowe (np. potwierdzenie rezerwacji pokoju hotelowego) jest potrzebna do funkcjonowania serwisu, zadbaj, aby adresy tej strony nie były przesyłane do Google Analytics.
    .
    Jedną z opcji zapewnienia bezpieczeństwa jest usunięcie z tych stron wszelkich kodów śledzących. Ponieważ jednak strony takie są często stronami konwersji, może to wymagać dodatkowych rozwiązań programistycznych, aby wciąż raportować konwersje i dane o transakcjach. Stosowanym czasem rozwiązaniem są filtry Wyszukaj i zastąp oraz Wyklucz parametry zapytania z URL. Trzeba jednak pamiętać, że filtry dokonują zmiany danych dopiero po przesłaniu danych do GA.
    .
    Aby naprawdę uniemożliwić przesłanie danych osobowych do Google Analytics, konieczna jest odpowiednia modyfikacja kodu GA, która dokona zmiany adresów URL przed ich wysłaniem do Google (zob. artykuł pomocy GA). Modyfikacje takie można w prosty sposób przygotować przez Google Tag Managera.

.
anonimizacja IP oraz URL Google Analytics
.

Poniżej przykład wdrożenia tego rozwiązania na serwisie Booking.com. Zauważ, że strona ta nie tylko umożliwia dostęp do danych bez zalogowania, ale i modyfikację rezerwacji. Do Google Analytics wysyłany jest jednak adres bez klucza uwierzytelniającego.

.
Booking.com anonimize IP replace GA tracked URL

To nie wina Google – To wina twojej strony

Jak widać, źródłem problemu jest to, że w niektórych witrynach część adresów URL zawiera dane osobowe lub adresy te umożliwiają dostęp do danych osobowych (a czasem nawet klucz uwierzytelniający umożliwiający zalogowanie).

Google Analytics udostępnia narzędzia, które pozwalają na zapewnienie prywatności danych nawet na takich stronach. Odpowiednio skonfigurowany kod Google Analytics może być bezpiecznie umieszczony na każdej stronie

Trzeba też pamiętać, że również inne kody Google pobierają adresy URL:

W przypadku tych kodów, zalecane rozwiązania to m.in.:

Google zawiadamia użytkowników AdSense, AdWords i DoubleClick o wykrytych naruszeniach zakazu przesyłania danych osobowych w wiadomościach email połączonych z żądaniem rozwiązania lub wyjaśnienia problemu (zob. np. artykuł pomocy Google dot. usuwania naruszeń zasad).

Prawdopodobnie również w Google Analytics należy się spodziewać wprowadzenia dalszych ułatwień w usuwaniu określonych danych, a także wprowadzenia algorytmów automatycznego usuwania niepożądanych informacji przez Google. Już pojawiają się pierwsze doniesienia o zaciemnianiu przez system Google Analytics adresów URL zawierających parametr “email” (w miejscu adresu email pojawia się oznaczenie “obfuscated”):

email obfuscated google analytics
Źródło: BrianClifton.com

Trzeba jednak pamiętać, że możliwość usuwania i zaciemnianie danych w serwisach Google nie zmienia faktu, że dane te zostały wcześniej przesłane do Google. Przede wszystkim należy więc skupić się na tym, aby do takich sytuacji nie dochodziło.

Inne kody śledzące

Piksel Facebooka również przesyła informacje na temat adresów URL. Co prawda dostęp do tych adresów nie jest aż tak kompleksowy, jak w raportach Google Analytics, ale faktem jest, że dane są przez Facebook zbierane.

A przecież mamy jeszcze inne kody śledzące, m.in. kody pozostałych sieci reklamowych (w szczególności realizujących remarketing), sieci afiliacyjnych, narzędzi SaaS, kody sieci reklamowych emitujące reklamy – większość z nich czyta informacje o adresach URL. Trzeba mieć świadomość, że niekoniecznie każda z tych firm musi mieć najwyższe standardy bezpieczeństwa danych i udostępniać narzędzia pozwalające na zaciemnienie danych osobowych.

Zwróć też uwagę, że nawet jeśli zadbasz o to, by adresy takie nie były zbierane przez kody śledzące, istnieje możliwość, że użytkownik sam bezrefleksyjnie taki adres udostępni, czasem nawet nieświadomie, poprzez zainstalowane dodatki do przeglądarki lub inne oprogramowanie na urządzeniu. Przykładowo, tak powszechnie używane adblocki, na swoich serwerach gromadzą informacje o adresach wszystkich odwiedzanych stron. A kto wie, co jeszcze użytkownik mógł sobie zainstalować. I owszem, będzie to wina użytkownika, ale taka sytuacja raczej nikomu nie wyjdzie na dobre.

W czarnym scenariuszu może dojść do zaindeksowania takich stron przez wyszukiwarkę.

Nie stosuj adresów zawierających dane osobowe

Ponieważ w przypadku wielu kodów śledzących maskowanie adresu URL i tytułu strony nie będzie możliwe, a sam użytkownik może nieświadomie (np. przez złośliwe oprogramowanie) przekazywać niezidentyfikowanym stronom trzecim informację o odwiedzanych stronach, generalna konkluzja jest taka, że w serwisach www należy unikać stosowania adresów zawierających dane osobowe lub umożliwiających dostęp do nich bez dodatkowego uwierzytelnienia. 

Zastanów się więc, czy na pewno takie strony są niezbędne dla funkcjonowania serwisu? Jeśli tak, to na stronach, których adresy URL umożliwiają dostęp do danych bez uwierzytelnienia, należy wstawiać wyłącznie takie kody śledzące, które umożliwiają zamaskowanie tego adresu przed jego pobraniem, takie jak odpowiednio zmodyfikowany kod Google Analytics. Strony takie powinny ograniczać widoczne dane do minimum (np. tylko imię: “Witold, oto Twoje zamówienie”), a pełne dane i możliwości modyfikacji powinny być dostępne wyłącznie po uprzednim, niedawnym zalogowaniu w danej przeglądarce.

Sprawdź, czy to nie dotyczy Twojej strony

Faktem jest, że to usługi Google, a w szczególności Google Analytics, są prawdopodobnie najlepiej przygotowane do śledzenia użytkowników z zachowaniem ochrony prywatności. Wejście w życie RODO oraz wzrastająca świadomość znaczenia ochrony danych osobowych spowodują, że te kwestie będą miały coraz większe znaczenie.

Chyba więc najwyższy czas wykonać audyt Google Analytics oraz strony www, by sprawdzić, jakie kody śledzące się tam znajdują i jakie informacje są przez nie czytane, aby ustalić czy i do kogo twoja strona przesyłała dane osobowe, a także kto do tych danych ma dostęp.

Jeżeli potrzebujesz pomocy przy analizie kwestii poruszanych w tym artykule,  skontaktuj z Adequate Interactive Boutique.

Podziękowania dla Macieja Lewińskiego (Akademia Analyticsza konsultację artykułu. 



Autor

Witold Wrodarczyk

Dyrektor Operacyjny Adequate Interactive Boutique Google Analytics & AdWords Qualified Professional

Adequate - Agencja interaktywna

Adres:
ul. Okopowa 47/23
01-059 Warszawa
Telefon:
(+48) 22 299 50 28

Sprawdź naszą Politykę Prywatności. Są tam WAŻNE INFORMACJE o używanych tu cookies i przetwarzaniu Twoich danych.