Największy od dawna wyciek danych Google, Github Leak z 13 marca, skrywa więcej tajemnic, niż mogłoby się wydawać. Dziś na warsztat bierzemy najnowsze analizy, które pokazują, że wyciek danych z marca zawiera jeszcze więcej ciekawych zapisów, które miały być implementowane w Google Search. Pominięte we wcześniejszych analizach aspekty dotyczą m.in. autorytetu strony, świeżości publikowania treści, polityki zbierania danych w Google Chrome i nie tylko. Przyglądamy się nowym wnioskom, do których doszli Rand Fishkin, współzałożyciel SparkToro i Michael King, właściciel iPullRank.
Nowe informacje w sprawie największego wycieku Google w 2024 r.
Ogromny wyciek dokumentów Google ujawnił wewnętrzne mechanizmy algorytmów rankingowych. Dokumenty ujawniły, w jaki sposób Google Search wykorzystuje kliknięcia, linki, treści i dane Google Chrome. Wyciek z 13 marca stał się skarbnicą wiedzy na temat realnych działań realizowanych przez Google, co do których dotąd mogły istnieć jedynie przesłanki. Przypomnijmy, że dokumenty, które wydają się pochodzić z wewnętrznego Content API Warehouse Google, zostały opublikowane 13 marca br. w serwisie Github – największej, ogólnodostępnej platformie udostępnienia kodu open source i nie tylko. Przecieki były opublikowane przez zautomatyzowanego bota o nicku yoshi-code-bot.
Algorytm rankingowy Google pod lupą
Chociaż o wycieku pisaliśmy już wcześniej, teraz na jaw wychodzą niuanse, które dodają jednak ciekawego wglądu na to, jak działa Google Search. Rand Fishkin, współzałożyciel SparkToro i Michael King, CEO iPullRank, dokonali ponownej analizy udostępnionych materiałów.
Algorytm rankingowy Google składa się z 2 596 modułów i 14 014 atrybutów. Choć dokumenty nie precyzują, jak dokładnie te funkcje są ważone. Funkcje ponownego rankingu, zwane Twiddlers, mają zdolność do „dostosowywania wyniku wyszukiwania dokumentu lub zmiany jego rankingu”. Zawartość może być zdegradowana z różnych powodów, takich jak:
- linki niepasujące do strony docelowej,
- sygnały z SERP wskazujące na niezadowolenie użytkowników,
- recenzje produktów,
- lokalizacja,
- dokładność dopasowania domeny,
- treści pornograficzne i inne treści zabronione lub ograniczane wiekowo.
Ogromne znaczenie linków i przechowywanie kopii każdej wersji strony
Pomimo narracji uwypuklając znaczenie contentu, która zaczęła dominować w dyskursie SEO od czasu wprowadzenia grafów wiedzy E-A-T, klasyczne linkowanie wciąż ma ogromne znaczenie. Wbrew dość lakonicznym informacjom ze strony Google Dev, system rankingowy Google bierze pod uwagę zgodność, różnorodność i trafność linków przychodzących oraz wychodzących. Wskaźnik PageRank pozostaje nadal istotnym elementem funkcji rankingowych Google szczególnie dla strony głównej. Jednocześnie, jak zauważają Fishkin i King, przedstawiciele Google kłamali na temat linków niebędących „top 3 ranking factors”. Wciąż nie jest jasne, w jaki sposób funkcje te są ważone, ale wiadomo, że wszystkie te parametry są faktycznie brane pod uwagę przez system rankingowy Google Search.
Kolejną istotną rzeczą, która została pominięta w pierwszych analizach wycieku danych, jest kwestia przechowywania danych. Google przechowuje kopię każdej wersji każdej strony, którą kiedykolwiek zaindeksował. Oznacza to, że możliwe jest „zapamiętanie” każdej zmiany wprowadzonej na stronie. Wymaga to ogromnych zasobów i kosztów, więc takie działania Google muszą być uzasadnione. Możliwe, że funkcja zapamiętywania każdego obrazu strony wykracza poza zastosowania SEO i odpowiada również za kwestie bezpieczeństwa. Z perspektywy SEO ważne jest jednak to, że przy analizie linków Google uwzględnia jedynie ostatnie 20 zmian na stronie. Prawdopodobnie to właśnie analiza tych zmian pozwala również na weryfikację, w jakim stopniu dane treści są “świeże”.
Pozytywne i negatywne kliknięcia
W pierwszej analizie tuż po wycieku pisaliśmy o tym, jak Google przez lata wprowadzało w błąd użytkowników co do kliknięć. Okazuje się bowiem, że algorytmy rankingowe dokładniej, niż sądzono, klasyfikuje nie tylko liczbę kliknięć, ale ich kontekst. Wyróżniają m.in. badClicks, goodClicks, lastLongestClicks i unsquashedClicks. Dokumenty i zeznania z procesu antymonopolowego USA przeciwko Google potwierdziły, że Google wykorzystuje kliknięcia w rankingu – szczególnie z systemem Navboost, czyli „jednym z ważnych sygnałów” wykorzystywanych przez Google do rankingu.
Według Kinga sprawia to, że w obrębie SEO trzeba nastawić się na strategie polegające nie tylko na wzroście klikalności, ale także utrzymaniu ruchu i zainteresowania użytkowników. Oznacza to, że konieczne jest takie działanie, które pozwoli zmniejszyć pulę negatywnych kliknięć, np. badClicks czy unsquashedClicks, na rzecz tych pozytywnych. Skupienie się na przyciąganiu bardziej wykwalifikowanego ruchu zapewnić ma lepsze doświadczenia użytkownika, co z kolei przełoży się pozytywnie na ocenę strony przez algorytmy rankingowe Google Search.
Budowanie marki i autorytetu – Google Search weryfikuje firmy za pomocą Chrome
Rand Fishkin stwierdził, że spośród wszystkich informacji dostarczanych przez marcowy przeciek Google, to właśnie marka ma największe znaczenie pod względem SEO. Mówi wprost: „jeśli miałbym jedną uniwersalną radę dla marketerów dążących do poprawy organicznych rankingów i ruchu, brzmiałaby ona tak: zbuduj znaną, popularną, dobrze rozpoznawalną markę w swojej dziedzinie, poza wyszukiwaniem Google, a Google zainteresuje się tym jeszcze bardziej”.
Dane wskazują, że faktycznie Google bardzo mocno interesuje się markami i to nie tylko w obrębie profili firmowych, ale także danych, do których ma dostęp poprzez analizę innych stron. Częściowo zadania te realizowane są przy pomocy przeglądarki Google Chrome. Jeden z modułu przeglądarki, ChromeInTotal, ma wykorzystywać dane do uzupełnienia informacji wykorzystywanych w rankingu Google Search. Obejmuje to m.in. weryfikowanie informacje o firmach. Innymi słowy, dane z Google Chrome przyczyniają się do analizy marek i firm, co przekłada się na pozycje tych stron w wyszukiwarce.
ChromeInTotal ma być wykorzystywany także w innych celach. Udostępnione na Github dane wskazują, że Google korzysta z Chrome do wewnętrznego targetowania stron internetowych i ich twórców. Google ma podobno dodawać do swojej białej listy pewne domeny związane z wyborami i COVID, za co mają odpowiadać specjalne funkcje: isElectionAuthority oraz isCovidLocalAuthority. Od dawna wiadomo, że Google (podobnie zresztą, jak Microsoft w obrębie Binga) posiadają takie listy wyjątków, a specyficzne algorytmy wpływają na ranking niektórych stron internetowych (najczęściej z tematyki YMYL, ale bynajmniej nie tylko).
Google niejawnie śledzi autorstwo publikowanych treści
Kolejną ciekawą funkcją algorytmów, której nie poświęcono uwagi w pierwszych analizach, jest smallPersonalSite. Funkcja ta dotyczy małych stron autorskich i blogów. Spekuluje się, że Google może promować lub degradować takie strony za pomocą Twiddlers – jednego z rdzeni nadrzędnych Google Search, który odpowiada za dostosowywanie wyników wyszukiwania. SmallPersonalSite ma także wpływać na docelowy poziom autorytetu strony. Z przecieku wynika bowiem, że słynna kategoria authoritativeness,należąca doE-A-T / E-E-A-T, również zależy od wyników czynnika smallPersonalSite w przypadku mniejszych stron, które nie są markami. Na tym jednak nie koniec.
Google przechowuje informacje o autorach powiązane z treścią. Przeciek pokazał, że Google ma szereg zaawansowanych mechanizmów, których celem jest weryfikacja, czy dany autor: a) istnieje, b) faktycznie jest autorem (bądź zleceniodawcą) tekstu. Pośrednio odpowiada za to również siteAuthority. Z jednej strony dowodzi to faktycznym staraniom Google’a do zapewniania użytkownikom dostępu do wysokiej jakości treści. Przypomnijmy, że cała narracja nastawiona na szczególną rolę contentu zaczyna się tuż po słynnej aktualizacji Panda w 2011 roku, kiedy Google publicznie oświadcza, że „niskiej jakości treści na części strony mogą wpływać na pozycjonowanie całej strony”. Później przedstawiciele Google wycofywali się z tej tezy, choć przecieki dowodzą, że coś jest na rzeczy.
Znaczenie świeżości treści i wektoryzacja stron
Regularne aktualizowanie treści i dodawanie nowych artykułów faktycznie ma znaczenie dla pozycjonowania i nie jest tylko mrzonką o konieczności tworzenia coraz lepszego contentu. Nie chodzi tu jednak tylko o jakość treści, co ich regularność, systematyczność publikacji i konsekwentność autorów serwisu. Google przywiązuje bowiem bardzo dużą wagę do świeżych informacji i treści, analizując nie tylko sam content, ale także tagi schema, URL-e, daty i przypisanych autorów. Z przecieku wynika, że algorytmy Google posiadają odrębne funkcje odpowiedzialne za te zadania, m.in. bylineDate, syntacticDate i semanticDate.
Procesem zachodzącym równolegle jest wektoryzacja stron w celu oceny zgodności treści z jej główną tematyką. Google porównuje m.in. osadzenia stron (funkcja siteRadius) z osadzeniami witryn (siteFocusScore), co ma dostarczać informacji nt. stopnia zgodności tematycznej witryny. Innymi słowy, algorytmy Google analizują treść tak, aby określić jej związek z ogólną tematyką witryny.
Czynniki potencjalnie obniżające pozycję strony w SERP
Dokumenty z Google API opublikowane na łamach Github pokazują też szereg funkcji odpowiedzialnych za degradacje algorytmiczne. Mówiąc wprost, chodzi o czynniki, które wpływają na obniżenie pozycji strony w SERP. Opisy te jednak są fragmentaryczne i krótkie. Wiadomo, że do takich czynników degradujących Google zalicza:
- niedopasowanie kotwicy – gdy link nie pasuje do witryny docelowej, do której prowadzi, obniża to wartość witryny,
- degradacja SERP – funkcja prawdopodobnie wykorzystująca dane behawioralne użytkowników wyszukiwarki; jeśli algorytm widzi, że wynik strony jest omijany i rzadziej wybierany od innych, może obniżać pozycję tej strony w rankingu wyszukiwania,
- kara za nawigacje – degradacja stosowana w przypadku stron wykazujących złe praktyki w zakresie nawigacji, które generuje problemy z komfortem użytkowania,
- degradacja recenzji produktów – w dokumencie z Githuba pojawia się takie hasło, ale brakuje opisu,
- degradacja lokalizacji – jak wyżej; prawdopodobnie może chodzić o problemy z przypisywaniem właściwej lokacji przez właścicieli stron,
- inne degradacje – w dokumencie przewija się też kilka dodatkowych, ale już dość oczywistych terminów; w tym np. degradacje związane z treściami dla dorosłych czy z nielegalnymi substancjami.
Pozostałe wnioski na podstawie wycieku danych Google
Wyciek dokumentów Google API był ogromny pod względem objętościowym. Dowiedzieliśmy się z niego wielu informacji, także takich, które mogą wydawać się mniej istotne w kontekście pozostałych. Co jeszcze wiadomo? Według wewnętrznych dokumentów Google:
- aby określić, czy strona odpowiada tematyce i mieści się w danym zakresie tematycznym, roboty Google wektoryzują strony internetowe, a następnie porównuje ich zasięgi (siteRadius) z wynikiem osadzenia strony (siteFocusScore),
- Google przechowuje informacje o rejestracji domen (RegistrationInfo), które pobiera między innymi z WhoIs (choć możliwe jest, że także z innych źródeł),
- tytuły stron (meta title) nadal mają znaczenie dla pozycjonowania; pomimo tego, że Google modyfikuje sposób ich wyświetlania w SERP, posiada też funkcję o nazwie titlematchScore, która odpowiada za dokonywanie pomiarów, jak dobrze tytuł strony odpowiada danemu zapytaniu,
- Google mierzy wielkość czcionki w dokumentach (avgTermWeight) i anchorach.
Nowa analiza wycieku danych Google – podsumowanie
Nowe spojrzenie na największy w tym roku wyciek danych Google dostarcza wielu ciekawych informacji, które wcześniej zostały nieco przykryte głośniejszymi sprawami, np. podziałem na złe i dobre kliknięcia. To, co najbardziej intryguje, to zakres weryfikacji danych i wpływ z pozoru błahych czynników na pozycję stron w wynikach wyszukiwania. Analiza dat, zbieranie dokładnych informacji o autorach z całej sieci, weryfikowanie danych ze strony z danymi z innych stron (w tym m.in. danych rejestratorów domen itp.) to tylko wierzchołek góry lodowej.
Czynników, jak widać, jest mnóstwo. Google nie nazywa ich co prawda czynnikami rankingowymi, ale z dokumentu Google API jasno wynika, że to właśnie te czynniki mają pośrednie lub bezpośrednie przełożenie na wewnętrzny scoring stron w Google Search. Na pozycję strony w SERP wpływa nie tylko jakość tej strony, ale także to, czy użytkownicy chętnie klikają ją w wynikach wyszukiwania (potwierdza to wciąż istotną rolę meta description), czy daty artykułów się zgadzają, czy strony pozytywnie przechodzą wektoryzację i czy nie mają niedopasowanych kotwic.
Z niecierpliwością czekamy na kolejny wyciek danych, który na pewno nastąpi prędzej czy później i który dostarczy kolejnych puzzli to tej algorytmicznej układanki!