Crawlery internetowe przeczesują codziennie miliony stron internetowych. Zaliczamy do nich zarówno agentów usług internetowych, m.in. Googlebota czy Bingbota, jak i szereg botów o odmiennej proweniencji. W ostatnich wiadomościach Google przestrzega użytkowników przed nowym zagrożeniem: fałszywym crawlerem, który podszywa się pod Googlebota. Zobacz, jak działają crawlery stron internetowych i czym charakteryzuje najnowszy “podszywacz”!
Fałszywe crawlery podszywają się pod Googleboty
Miliony crawlerów indeksują strony internetowe każdego dnia. Nie wszystkie pochodzą od znanych wydawców, takich jak Google czy Microsoft. W ostatnim czasie rozgorzała dyskusja na temat zachowania niektórych z Googlebotów, które notorycznie wysyłają żądania do serwera. Okazało się jednak, że wcale nie są to crawlery wysłane przez Google.
Martin Splitt, rzecznik ds. programowania z Google Search, ostrzega właścicieli stron internetowych, aby zachować ostrożność wobec ruchu, który wydaje się pochodzić od Googlebota. Wiele zapytań podszywających się pod Googlebota pochodzi w rzeczywistości od zewnętrznych scraperów, których celem jest pozyskanie jak największej bazy danych na temat różnych stron. Część z nich, jeśli to możliwe, kopiuje również treści ze stron internetowych.
Wiele robotów sieciowych fałszywie podaje się za Googlebota. Zjawisko to jest na tyle powszechne, że może skutecznie zniekształcać statystyki strony i marnować zasoby. Crawlery mogą podszywać się pod boty znanych wydawców zarówno poprzez podobne nazewnictwo, jak względnie podobne działania. W praktyce jednak nie każdy Googlebot, który podaje się za Googlebota, faktycznie nim jest. Odróżnianie crawlerów jest z roku na rok coraz ważniejsze ze względu na ich logarytmiczny przyrost. Fałszywe roboty mogą zniekształcać dane analityczne i utrudniać dokładną ocenę wydajności witryny. Mogą przełożyć się bezpośrednio na straty finansowe, spowodowane np. utrudnieniem dostępności strony lub wymogiem zużywania wyższych zasobów (co w przypadku elastycznych hostingów jest równoznaczne z wyższymi opłatami).
Jak odróżnić prawdziwego Googlebota od fałszywego?
Odróżnienie fałszywego crawlera od prawdziwego możliwe jest przede wszystkim na podstawie weryfikacji jego działania, analizując ogólne wzorce ruchu, a nie tylko nietypowe zapytania. Kluczowe jest monitorowanie odpowiedzi serwera i sprawdzanie wzorców błędów. Rzeczywisty ruch Googlebota charakteryzuje się spójną częstotliwością, harmonogramem i zachowaniem.
Istnieje kilka sposobów na weryfikację crawlerów. Jeśli podejrzewamy, że wydajność strony ograniczają fałszywe Googleboty, możemy wykorzystać wybrane narzędzia Google:
- Narzędzie do sprawdzania adresów URL (Google Search Console):
- wyszukiwanie określonych treści w renderowanym HTML potwierdza, że Googlebot ma dostęp do strony,
- GSC oferuje możliwość testowania na żywo, aby zweryfikować bieżący status dostępu.
- Test wyników rozszerzonych:
- alternatywna metoda weryfikacji dostępu Googlebota,
- pozwala sprawdzić, w jaki sposób crawler dokonuje renderowania strony,
- metodę można wykorzystać także bez bieżącego dostępu do Search Console.
- Raport statystyk indeksowania:
- pokazuje szczegółowe dane odpowiedzi serwera wyłącznie z potwierdzonych zapytań Googlebota,
- pomaga zidentyfikować wzorce w zachowaniu prawdziwego Googlebota.
- Porównanie logów serwera:
- możemy ręcznie porównać logi serwera z oficjalnymi zakresami adresów IP podawanych przez Google.
Powyższe metody dotyczą oczywiście sprawdzenia tego, co robią faktyczne Googleboty. Nie weryfikują zaś działania podejrzanych crawlerów. Celem w tym przypadku powinno być porównanie tych wzorców działania prawdziwych crawlerów ze sposobem działania botów, które podejrzewamy o niejasne działania.
Warto dodatkowo się zabezpieczyć przed działaniem fałszywych crawlerów. Ze względu na to, że nie wywołują one bardzo poważnych konsekwencji, często są one ignorowane przez webmasterów, co może być poważnym błędem. Prędzej czy później widocznie będą straty w wydajności strony. Sposobem zabezpieczenia może być wyposażenie się w dedykowaną wtyczkę odpowiadającą za bezpieczeństwo, jeżeli prowadzimy stronę np. na WordPressie. Dedykowane wtyczki z zaporą często wyposażone są w listy niebezpiecznych crawlerów, które wówczas blokowane są automatycznie. Kolejnym sposobem jest wdrożenie odwrotnego wyszukiwania DNS oraz bieżące monitorowanie i ręczne usuwanie dostępu do strony wybranym crawlerom.
Główne rodzaje Googlebotów
Zastanawiając się, czy dany crawler rzeczywiście należy do Google, czy nie, warto zdać sobie spraw, jak wiele rodzajów Googlebotów przeczesuje codziennie strony. Google dysponuje mnóstwem wariantów crawlerów, które odpowiadają za różne funkcje. Niektóre monitorują zmiany na stronie, inne odpowiadają za indeksację, jeszcze inne weryfikują pliki graficzne, a kolejne pobierają ze strony tokeny uwierzytelniające.
Crawlery Google możemy podzielić na 3 kategorie:
- powszechne crawlery – dotyczą najpopularniejszych zadań, np. indeksowania stron, wyszukiwania obrazów,
- crawlery specjalistycznego zastosowania – odpowiadają za specyficzne działania, np. sprawdzanie sposobu wyświetlania reklam Google na stronie,
- crawlery wywołane za użytkownika – odpowiadają za funkcje aktywowane w usługach Google bezpośrednio przez użytkownika, np. usługi tłumaczeniowe, przetwarzanie RSS czy pobieranie tokenów weryfikacyjnych.
Nazwa Crawlera | Zastosowanie |
---|---|
Powszechne Crawlery | |
Googlebot Smartphone | Używany do indeksowania wyszukiwań mobilnych |
Googlebot Desktop | Używany do indeksowania wyszukiwań na komputerach stacjonarnych |
Googlebot Image | Przeszukuje obrazy dla Google Images i produktów zależnych od obrazów |
Googlebot News | Przeszukuje artykuły informacyjne |
Googlebot Video | Przeszukuje pliki wideo dla Google Video i produktów zależnych od wideo |
Google Favicon | Pobiera favicony; może ignorować robots.txt w przypadku żądań inicjowanych przez użytkownika |
Google StoreBot | Przeszukuje strony takie jak szczegóły produktów, strony koszyka itp. |
Google-InspectionTool | Używany przez narzędzia testowe wyszukiwania, takie jak Test wyników rozszerzonych i inspekcja URL w Search Console |
GoogleOther | Jednorazowe przeszukiwania na potrzeby wewnętrznych badań i rozwoju; ogólny crawler |
Crawlery specjalistycznego zastosowania | |
APIs-Google | Dostarczanie powiadomień push dla Google API |
AdsBot Mobile Web Android | Sprawdza jakość reklam na stronach internetowych na Androidzie |
AdsBot Mobile Web | Sprawdza jakość reklam na stronach internetowych na iPhonie |
AdsBot Desktop | Sprawdza jakość reklam na stronach internetowych na komputerach stacjonarnych |
AdSense | Określa zawartość witryny w celu dopasowania odpowiednich reklam |
Mobile AdSense | Określa zawartość mobilnej witryny w celu dopasowania odpowiednich reklam |
Crawlery wywoływane przez użytkownika | |
Feedfetcher | Przeszukuje kanały RSS lub Atom dla Google Podcasts, Google News i PubSubHubbub |
Google Publisher Center | Przetwarza kanały z Google Publisher Center dla stron docelowych Google News |
Google Read Aloud | Pobiera i odczytuje strony internetowe za pomocą syntezatora mowy (TTS) |
Google Site Verifier | Pobiera tokeny weryfikacyjne Search Console na żądanie użytkownika |
Monitorowanie odpowiedzi serwera
To, że crawlery powodują określone problemy, często jest wnioskiem końcowym. Zazwyczaj na początku obserwujemy problemy z prawidłową indeksacją podstron i problemy o charakterze wydajnościowym. Jeśli spotykamy się z takim zjawiskiem, warto od razu zacząć od monitoringu odpowiedzi serwera. Wspomniany już Martin Splitt z Google podkreśla, jak istotne jest monitorowania odpowiedzi serwera na zapytania indeksujące, a zwłaszcza:
- błędy serii 500,
- błędów pobierania,
- timeouty,
- problemy z DNS.
Powyższe problemy wpływają na indeksowanie, wydajność i widoczność strony w wyszukiwarkach, szczególnie w przypadku większych witryn hostujących miliony podstron. Splitt zauważa, że choć niektóre błędy są przejściowe, w przypadku uporczywych problemów „warto je zbadać głębiej”. Zaleca też analizę logów serwera jako bardziej zaawansowaną metodę diagnozy, choć przyznaje, że „to nie jest coś łatwego”.
Najpopularniejsze boty odwiedzające strony internetowe
Najwięcej crawlerów odwiedzających nasze strony internetowe pochodzi od wyszukiwarek i przeglądarek internetowych oraz wydawców usług internetowych. Do ścisłej czołówki należą Googleboty, czyli crawlery Google (nie tylko Google Search) oraz Bingboty, czyli crawlery Microsoftu. Na nich jednak lista się nie zamyka. Najpopularniejsze crawlery “przeczesujące” strony internetowe to:
- Googlebot – główny crawler wyszukiwarki Google, który regularnie skanuje internet w celu odkrycia nowej i zaktualizowanej treści, pomagając Google w utrzymaniu indeksu wyszukiwania,
- Bingbot – web crawler firmy Microsoft dla wyszukiwarki Bing, wykonujący podobne funkcje jak Googlebot, indeksując strony internetowe w celu ulepszenia wyników wyszukiwania Binga,
- YandexBot – crawler wyszukiwarki Yandex, popularnej w Rosji i krajach rosyjskojęzycznych, który indeksuje treści w celu zapewnienia odpowiednich wyników wyszukiwania,
- Applebot – web crawler Apple używany w Siri i Spotlight do poprawy możliwości wyszukiwania w ekosystemie urządzeń i usług Apple,
- LinkedIn Bot – crawler LinkedIn, który przeszukuje udostępniane linki w celu tworzenia podglądów na platformie sieci zawodowej,
- Twitterbot – bot X (wcześniej Twitter), który przeszukuje udostępniane linki w celu generowania podglądów i wyświetlania kart multimedialnych,
- Pinterestbot – bot Pinteresta, który przeszukuje internet w poszukiwaniu obrazów i treści, aby ulepszać pinezki i doświadczenia użytkownika,
- Facebook External Hit – crawler Facebooka indeksujący linki w celu zbierania metadanych i generowania podglądów podczas udostępniania treści,
- GPTBot – crawler OpenAI, który zbiera dane z internetu, aby trenować i ulepszać modele sztucznej inteligencji, w tym serię GPT,
- DuckDuckBot – crawler wyszukiwarki DuckDuckGo, który indeksuje strony internetowe zgodnie z zasadami prywatności tej wyszukiwarki,
- Baiduspider – główny web crawler wyszukiwarki Baidu, największej w Chinach, który indeksuje treści głównie w języku chińskim, ale także strony międzynarodowe,
- Sogou Spider – crawler wyszukiwarki Sogou, który indeksuje treści internetowe, skupiając się głównie na chińskojęzycznych stronach,
- Slurp – crawler Yahoo, który przeszukuje internet w celu zbierania informacji dla wyszukiwarki Yahoo i powiązanych usług,
- CCBot – crawler organizacji Common Crawl, który buduje otwarte repozytorium danych internetowych, używane przez badaczy i deweloperów do rozwijania technologii,
- Yeti – crawler wyszukiwarki Naver, największej w Korei Południowej, który indeksuje strony w celu aktualizacji wyników wyszukiwania.
Crawlery SEO jednymi z najpopularniejszych
Wbrew pozorom narzędzia SEO również mogą wpływać na… ograniczenie wydajności stron internetowych. Chodzi tu zwłaszcza o narzędzia analityczne, które również posiadają szereg własnych crawlerów, takich jak:
- AhrefsBot – crawler wykorzystywany przez Ahrefs do analizy SEO i sprawdzania profili linków zwrotnych, pomagając użytkownikom Ahrefs w optymalizacji wydajności ich witryn,
- SemrushBot – crawler Semrush, zbierający dane dotyczące rankingów, ruchu i słów kluczowych w celu dostarczania użytkownikom narzędzia cennych informacji do analizy konkurencji i badań słów kluczowych,
- Rogerbot – crawler używany przez Moz do zbierania danych o wydajności witryny, profilach linków zwrotnych i rankingach słów kluczowych, pomagając w optymalizacji i zwiększeniu widoczności online,
- Screaming Frog SEO – crawler narzędzia Screaming Frog do analizy struktury witryny i treści, pomagający wykrywać krytyczne problemy, takie jak uszkodzone linki czy duplikaty treści,
- Lumar – dawniej DeepCrawl, narzędzie SEO do analizy zdrowia i wydajności witryny, dostarczające szczegółowe informacje na temat struktury strony i problemów technicznych,
- MJ12bot – crawler narzędzia Majestic SEO do analizy linków zwrotnych i innych wskaźników SEO, wspierający specjalistów ds. marketingu cyfrowego,
- CognitiveSEO – crawler CognitiveSEO Site Explorer, analizujący profile linków zwrotnych, architekturę witryny i czynniki SEO w celu identyfikacji mocnych i słabych stron,
- OnCrawl – techniczny crawler SEO dostarczający raporty o architekturze, treści i wydajności witryn, umożliwiający identyfikację problemów wpływających na SEO,
- Google-InspectionTool – crawler Google używany do analizy i inspekcji stron internetowych pod kątem indeksacji i problemów SEO, wspierający webmasterów w poprawie widoczności stron,
- BLEXBot – crawler projektu WebMeUp wykorzystywany do analizy linków zwrotnych i indeksacji witryn w ramach zadań związanych z SEO,
- MegaIndex (.ru) – bot rosyjskiej platformy analitycznej MegaIndex, zbierający dane do analizy i dostarczania informacji konkurencyjnych,
- Sitebulb Crawler – desktopowy crawler narzędzia Sitebulb, wykonujący szczegółowe audyty SEO i pomagający naprawiać problemy techniczne witryn,
- Botify – crawler narzędzia Botify, analizujący wydajność witryn i dostarczający praktyczne wskazówki dotyczące optymalizacji SEO,
- JetOctopus – szybki, chmurowy crawler SEO, zapewniający szczegółowe analizy struktury witryn i szybkie identyfikowanie problemów technicznych SEO,
- Netpeak Spider – desktopowe narzędzie do audytów witryn, identyfikujące problemy SEO, takie jak uszkodzone linki czy wolne ładowanie stron,
- ContentKing – crawler do ciągłego monitorowania SEO w czasie rzeczywistym, natychmiast wykrywający i raportujący problemy na stronach.
Jak rozpoznać fałszywe crawlery? Podsumowanie
Jeżeli widzimy podejrzane zachowanie jakichś crawlerów, warto od razu je zweryfikować. Bardzo możliwe, że wcale nie są to Googleboty, ani Bingboty, tylko crawlery, które się pod nie podszywają. Ich zadanie może polegać zarówno na badaniu strony, pobieraniu informacji, treści i materiałów graficznych, jak i działania spamerskiego prowadzące do utraty wydajności. Nie brakuje również szeregu crawlerów, które pobierają dane analityczne. Do tej grupy zaliczamy też mnóstwo botów narzędzi SEO, np. Ahrefsboty i Semrushboty.
Weryfikację crawlerów można przeprowadzić na szereg różnych sposobów. Brakuje w tym katalogu jednego, uniwersalnego i prostego działania – czasem z ich identyfikacją trzeba się trochę “pomęczyć”. Najbardziej sprawdzonym sposobem jest zweryfikowanie crawlerów przy użyciu Google Search Console (jeśli podejrzewamy fałszywy crawler Google) lub Bing Webmaster Tools (jeśli podejrzewamy fałszywy crawler Bing). Jeśli jest to niemożliwe, warto sięgnąć po analizę logów i zweryfikować odpowiedzi po stronie serwera. Jeśli aktywność fałszywych botów stanie się problemem lub będzie zużywać zbyt dużo zasobów serwera, można podjąć działania, takie jak ograniczenie liczby zapytań i blokowanie określonych adresów IP.