Działanie crawlerów to podstawa każdej wyszukiwarki. Szacuje się, że ruch botów odpowiadających za wyszukiwanie, prześwietlanie i indeksowanie stron internetowych to – w zależności od szacunków – ok. 1/4 całego ruchu w sieci. Działanie crawlerów jest szczegółowo opisane w wytycznych. Google właśnie poinformowało o zmianie dokumentacji i nie byłoby w tym nic dziwnego, gdyby nie zakres zmian. Zmiany dotyczące crawlerów obejmują modyfikację struktury dziennika, zmniejszenie strony przeglądowej, ale także pojawienie się zupełnie nowej sekcji. Co może oznaczać nagła zmiana dokumentacji Google? Czy dodane fragmenty mają charakter porządkowy, czy przygotowują nas na poważniejsze zmiany?
Google zmienia dokumentację crawlerów
Wszystkie dokumentacje techniczne dotyczące crawlerów Google na dniach zostały gruntownie przebudowane. Dokumentacja jest bardziej obszerna i zawiera więcej informacji. Na pierwszy rzut oka widoczna jest zmiana struktury, która obecnie w dużym stopniu pozbawiona jest sekcji przeglądowej. Pojawiły się za to trzy nowe i bardziej szczegółowe sekcje.
Crawlery Google to zautomatyzowane boty, które cały czas przeszukują internet. Szacuje się, że mogą odpowiadać nawet za 1/4 całego ruchu w sieci. Każda wyszukiwarka posiada własne boty. Najpopularniejszym crawlerem Google jest Googlebot, który analizuje strony, obserwuje ich aktualizacje, sprawdza dostępność, a także bierze udział w procesie indeksacji. Crawler działa na zasadzie pobierania stron przy użyciu protokołów takich jak HTTP/1.1 oraz HTTP/2 i analizowania ich zawartości. Crawlery wysyłają żądania HTTP do serwera, otrzymują dane strony i przetwarzają je, w tym analizują HTML, CSS, JavaScript oraz inne zasoby, aby zrozumieć strukturę strony, zawarte linki i zawartość. To właśnie od tej analizy zależy, jak często crawlery odwiedzają stronę oraz jak szybko przebiega proces indeksowania nowych witryn. Działalność crawlerów można ograniczyć m.in. poprzez plik robots.txt.
Jakie zmiany wprowadza Google?
W dzienniku zmian Google wspomina jedynie o dwóch modyfikacjach, choć w rzeczywistości wprowadzono ich znacznie więcej. Najważniejsze zmiany w dokumentacji crawlerów obejmują:
- zmiana struktury dokumentacji,
- dodanie zaktualizowanego numeru dla crawlera GoogleProducer,
- dodanie informacji na temat sposobu kodowania treści,
- wprowadzenie nowej sekcji poświęconej właściwościom technicznym crawlerów.
Sekcja dotycząca właściwości technicznych zawiera całkowicie nowe treści, co może tłumaczyć również przyczyny zdecydowania się o wprowadzeniu zmian. Trudno oczekiwać, aby Google zmieniło dokumentację wyłącznie w celu zrobienia porządków i zaprezentowaniu treści w bardziej intuicyjny sposób. Mimo że sposób działania crawlerów nie uległ zmianie, podział dokumentacji na trzy osobne strony tematyczne pozwolił Google dostarczyć więcej informacji w ramach przeglądu, jednocześnie skracając główną stronę, która ma charakter przeglądowy.
Pojawiają się także nowe informacje na temat kompresji treści, co jest szczególnie istotne w kontekście dyskusji o optymalizacji technicznej stron. W jednym fragmencie dokumentacji Google czytamy: „crawlery i fetchery Google obsługują następujące metody kompresji: gzip, deflate oraz Brotli (br). Każdy agent użytkownika Google informuje o obsługiwanych metodach kompresji w nagłówku Accept-Encoding, przesłanym wraz z każdym żądaniem. Przykład: Accept-Encoding: gzip, deflate”. Co więcej, pojawiły się także zupełnie nowe informacje dotyczące crawlowania w protokołach HTTP/1.1 oraz HTTP/2, a także stwierdzenie, że celem Google jest indeksowanie jak największej liczby stron bez obciążania serwerów witryny.
3 nowe podstrony w dokumentacji crawlerów
Jak wspomnieliśmy, Google zmieniło strukturę dokumentacji i dodało dodatkowe informacje na temat crawlerów. Najnowsza wersja dokumentacji zawiera trzy nowe sekcje:
- popularne crawlery,
- crawlery o szczególnym zastosowaniu,
- fetchery wywoływane przez użytkownika.
Poniżej omówimy z osobna każdą z tych grup, sprawdzając, jakie informacje na ten temat podaje zmodyfikowana wersja dokumentacji.
Popularne crawlery
Pierwsza sekcja opisuje powszechnie wykorzystywane crawlery. Niektóre z nich są związane z Googlebotem, m.in. Google-InspectionTool, który regularnie korzysta z Googlebota. Wszystkie boty zostały wymienione w dokumentacji i wszystkie mają sztywno przestrzegać reguł strony zawartych w pliku robots.txt.
Wśród wymienionych crawlerów z pierwszej sekcji znalazły się:
- Googlebot,
- Googlebot Image,
- Googlebot Video,
- Googlebot News,
- Google StoreBot,
- Google-InspectionTool,
- GoogleOther,
- GoogleOther-Image,
- GoogleOther-Video,
- Google-CloudVertexBot,
- Google-Extended.
Crawlery specjalistyczne
Crawlery o szczególnym zastosowaniu to specjalistyczne boty powiązane z konkretnymi produktami i usługami. Ich działanie ma bazować na podstawie umów z użytkownikami. Korzystają one z innych adresów IP od tych, które są używane przez GoogleBota. Sprawia to, że identyfikacja botów jest utrudniona.
W dokumentacji Google udostępnia następującą listę crawlerów specjalistycznego zastosowania:
- AdSense – agent użytkownika dla robots.txt: Mediapartners-Google,
- AdsBot – agent użytkownika dla robots.txt: AdsBot-Google,
- AdsBot Mobile Web – agent użytkownika dla robots.txt: AdsBot-Google-Mobile,
- APIs-Google – agent użytkownika dla robots.txt: APIs-Google,
- Google-Safety – agent użytkownika dla robots.txt: Google-Safety.
Fetchery
Sekcje dotycząca fetcherów wywołanych przez użytkownika dotyczy botów aktywowanych na żądanie użytkownika. Zanim przywołamy najważniejsze zapisy z tej sekcji dokumentacji Google, warto wpierw wyjaśnić, czym są fetchery?
Fetchery to zautomatyzowane boty działające w sieci, których zadaniem jest pobieranie zasobów na żądanie, często w ramach określonych usług lub procesów. Fetchery tym różnią się od crawlerów, że są inicjowane na prośbę użytkownika, a nie działają autonomicznie jak crawlery. W przypadku Google fetchery są wykorzystywane do wykonywania żądań pobierania treści na potrzeby produktów Google, takich jak Google Site Verifier czy Google Publisher Center. Co ważne – fetchery z reguły ignorują zasady zawarte w pliku robots.txt.
Nowa dokumentacja Google na temat crawlerów w taki sposób tłumaczy działanie fetcherów: „fetchery są inicjowane przez użytkowników w celu wykonania operacji pobierania w ramach produktu Google. Ogólne właściwości techniczne crawlerów Google mają również zastosowanie do fetcherów wywoływanych przez użytkownika”.
W dokumentacji zawarto krótką listę kilku tego typu botów:
- feedfetcher,
- Google Publisher Center,
- Google Read Aloud,
- Google Site Verifier.
Dlaczego Google zmienia dokumentację dotyczącą crawlerów?
Zmiany w dokumentacji mają być podyktowane uporządkowaniem dotychczasowych informacji. Google tłumaczy swoją decyzję jako konieczne działanie wymuszone dalszym dodawaniem nowych danych o crawlerach. Wobec tego niezbędne było zmienienie struktury dokumentacji, aby była bardziej elastyczna, ponieważ dotychczasowa wersja, zwłaszcza w kontekście strony przeglądowej, była zbyt obszerna.
Zdecydowano więc o podzieleniu treści na trzy podtematy, co pozwala na łatwiejsze i lepiej zorganizowane przedstawienie dalszych, szczegółowych informacji o crawlerach oraz uwolnienie miejsca na bardziej ogólne treści na stronie przeglądowej. W dzienniku Google następująco argumentuje podjęte kroki: “Dokumentacja stała się zbyt długa, co ograniczało naszą możliwość rozszerzania treści dotyczących naszych crawlerów i fetcherów wywoływanych przez użytkowników”.
Chociaż zawartość w dużej mierze pozostała taka sama, jej podział na podtematy ułatwia Google dodawanie nowych treści na nowych stronach bez dalszego rozrastania się oryginalnej strony. Oryginalna strona, zatytułowana „Przegląd crawlerów i fetcherów Google (user agents)”, teraz faktycznie pełni rolę przeglądową, a bardziej szczegółowe informacje zostały przeniesione na osobne strony.
Google zorganizował dokumentację na nowo, dodając wzmianki o tym, co dotyczy każdego z crawlerów osobno, a także fragment robots.txt dla każdego crawlera. Warto jednak zwrócić uwagę na to, że dziennik zmian nieco umniejsza skalę wprowadzonych modyfikacji. Google określa je jako uporządkowanie i reorganizacja informacji, jednak nie brakuje przecież wielu nowych informacji.
Porządki w dokumentacji crawlerów – podsumowanie
Najnowsza aktualizacja dokumentacji Google porządkuje informacje i dodaje nowe. Zmieniona struktura sprzyja organizacji treści i pozwala na płynne zawieranie kolejnych danych w przyszłości. Strona przeglądowa, która jest na początku dokumentacji, została mocno ograniczona, ale nie raczej nie kosztem merytorycznej treści, lecz ogólnych informacji, które nie są nikomu potrzebne. Osoby, które zaglądają do dokumentacji Google, raczej znają podstawy. Obecnie strona przeglądowa jest więc krótsza, ale bardziej przystępna i stanowi punkt wyjścia do zapoznania się z kolejnymi sekcjami.
Tych z kolei nie brakuje, bo największą zmianą nowej dokumentacji jest właśnie dodanie 3 nowych sekcji opisujących popularne crawlery, crawlery specjalistyczne i fetchery wywołane przez użytkownika. Rozbudowane opisy tych sekcji mogą wskazywać na to, że Google powszechnie wykorzystuje wszystkie powyższe boty. O wykorzystywaniu dwóch pierwszych wiadomo dużo, skala wykorzystywania fetcherów jest mniej oczywista ze względu na brak transparentnych umów. Na koniec warto nadmienić, że wprowadzone zmiany nie przekładają się w żaden sposób na ewentualne aktualizacji algorytmów Google. Pokazują one tylko sposób podejścia Google do dokumentacji oraz stwarzają łatwiejszą możliwość dalszych modyfikacji tej sekcji i dodawania nowych informacji.