Adresy URL bez parametrów? Illyes ostrzega przed dodawaniem dodatkowych parametrów

Do adresów URL można dodawać parametry, które nie odnoszą się do innych materiałów zewnętrznych. Pomimo tego nowe parametry na ścieżce URL tworzą kolejne z perspektywy crawlerów wyszukiwarek nawet wtedy, gdy nie odwołują się do osobnych treści. W ostatnim odcinku Google Podcast poświęcono więcej uwagi tej problematyce, do której bardziej szczegółowo odniósł się później sam Gary Illyes z Google. Dlaczego parametry URL mogą stanowić problem dla wyszukiwarek? Jakich błędów należy uniknąć, jeśli optymalizuje się adresy na stronie? Sprawdzamy!

Niebezpieczne parametry adresów URL

Dodatkowe parametry URL mogą sprawiać trudności wyszukiwarkom podczas indeksowania stron internetowych. Problem ten jest szczególnie poważny w przypadku dużych witryn i sklepów internetowych, które posiadają wiele podstron i setki czy tysiące odnośników. W momencie, kiedy dodajemy do danego adresu URL różne dodatkowe parametry, zwiększamy de facto bazę unikalnych adresów – nawet wtedy, kiedy wszystkie odnośniki i tak prowadzą do tej samej treści i nie odwołują się do zewnętrznych materiałów.

Parametry URL mogą utrudniać szybkie indeksowanie stron i sprawiać, że crawlery zaczną kluczyć wokół różnych adresów URL. Ze względu na to, że każdy crawling i indeksacja są procesami ograniczonymi w czasie ze względu na zużycie zasobów, dodatkowe parametry adresów URL mogą tym samym ograniczać możliwość weryfikacji wszystkich treści na stronach.

Problem ten nie jest może wszechobecny, ale czasem trudno go rozpoznać. Webmasterzy, którzy widzą, że roboty wyszukiwarek indeksują strony, ale cały proces przebiega zbyt wolno, nieefektywnie, a nowe treści są pomijane, z pewnością zwrócą uwagę na konfigurację robots.txt, ustawienia stron w CMS i pozostałe aspekty techniczne. Problemem mogą być właśnie niewłaściwie skonfigurowane odnośniki, które będą zużywały zbyt dużo zasobów w procesie indeksacji.

W jaki sposób parametry adresów URL ograniczają skuteczność crawlingu strony?

Zarówno w podcaście, jak i wpisie na LinkedIn, Gary Illyes z Google wyjaśnia, że do adresów URL można dodawać nieskończoną liczbę parametrów, z których każdy tworzy odrębny adres URL. Dzieje się tak również w sytuacji, kiedy wszystkie parametry prowadzą do tej samej treści. Illyes wyjaśnia, że “ciekawą właściwością adresów URL jest to, że można dodać do ścieżki URL nieskończoną (mówię tu na wyrost) liczbę parametrów URL, tworząc w ten sposób nowe zasoby. Nowe adresy URL wcale nie muszą odwoływać się do innej zawartości na serwerze, każdy nowy adres URL może po prostu dostarczać tę samą zawartość co adres URL bez parametrów, a jednak wszystkie one są odrębnymi adresami URL. Dobrym przykładem może być parametr URL odpowiadający za buforowanie pamięci podręcznej w odniesieniu do plików JavaScript. Taki parametr w ogóle nie zmienia zawartości, ale skutecznie wymusza odświeżenie pamięci podręcznej”.

Przykładem może być prosty dopisek do adresu URL „/path/file” w postaci “path/file?param1=a” lub „/path/file?param1=a&param2=b”. Wszystkie informacje zwrotne dotyczą identycznej treści. Każdy z takich adresów jest inny, ale łączy je ta sama zawartość. Właśnie w takich przypadkach roboty Google – i potencjalnie crawlery innych wyszukiwarek – mogą mieć trudności z szybkim przeprocesowaniem linków. Przedłużający się proces skutkuje większym zużyciem zasobów, co ogranicza czas indeksowania pozostałych części strony.

Przypadkowe rozszerzenia adresów URL

Rozszerzenia adresów URL nie muszą powstawać tylko na skutek celowych działań osób zajmujących się stroną. Omawiany problem ma też, niestety, wymiar losowy. Wyszukiwarki mogą czasami znajdować i próbować indeksować nieistniejące podstrony witryny, czyli tzw. fałszywe adresy URL. Pojawiają się one między innymi na skutek niewłaściwie zakodowanych odnośników względnych. To, co zaczyna się jako normalna witryna o objętości np. 1000 podstron, może rozrosnąć się do miliona rzekomych podstron.

Gary Illyes stwierdza jasno, że “czasami nowe, fałszywe adresy URL tworzone są przypadkowo. W skrajnych przypadkach mogą rozszerzać łączną liczbę adresów URL do niebotycznych poziomów, np. z 1000 unikalnych adresów URL domeny do 1 miliona. Roboty wyszukiwarek mają wtedy problem, a ich wzmożona praca będzie z kolei mocno obciążać serwery, na których postawiona jest strona. Jedną z dość powszechnych przyczyn są złe odnośniki względne”.

pasek adresu
Rozszerzenia adresów URL mogą powstawać przypadkowo.

Tak duży przyrost fałszywych odnośników, które bazują na identycznym materiale, ale stanowią osobne linki, może stanowić poważny problem. Największe konsekwencje odczuwają roboty wyszukiwarek internetowych, które analizując wszystkie rozszerzenia adresów URL zużywają znacznie więcej zasobów. W efekcie strony mogą nie zostać odpowiednio indeksowane, co może przełożyć się na pozycjonowanie.

Próby indeksowania wszystkich nieistniejących stron przekładają się również na konsekwencje dla właścicieli stron. Proces może mocno obciążać serwery. W skrajnych przypadkach roboty wzmożona aktywność crawlerów będzie ograniczać stabilność strony internetowej i jej dostępność dla prawdziwych użytkowników. W przypadku, gdy korzysta się z hostingu opartego na elastycznym skalowaniu zasobów względem zużycia, ponoszone koszty będą zwiększone.

Sklepy e-commerce najbardziej dotknięte problemem fałszywych linków

Dodatkowe parametry w odnośnikach najbardziej zagrażają stabilności dużych sklepów internetowych. Ze względu na skalę, liczbę podstron, treści, niewłaściwie umieszczone linki najtrudniej będzie usuwać. Ze względu na charakter sklep e-commerce są jednocześnie tymi stronami, które zazwyczaj używają najwięcej parametrów URL. Wykorzystywane są one między innymi do obsługi śledzenia produktów, filtrowania i sortowania.

W rezultacie można zobaczyć kilka różnych adresów URL prowadzących do tej samej strony produktu, przy czym każda odmiana adresu URL reprezentuje wybór koloru, opcje rozmiaru lub miejsce, z którego przyszedł klient. Nieodpowiednia optymalizacja może sprawić, że liczba fałszywych adresów URL może w krótkim czasie zwiększyć się kilkunastokrotnie, co może paraliżować stabilność sklepu ze względu na wyższe obciążenie serwera.

Jak naprawić błędy z nadmiarowymi parametrami URL?

Rozwiązanie problemów z parametrami adresów URL jest dwutorowe. Z jednej strony najlepsza jest prewencja. Zwłaszcza w przypadku prowadzenia sklepu internetowego należy roztropnie korzystać z parametrów i ich nie nadużywać. Oprócz tego możemy jednak zdecydować się na wdrożenie kilku osobnych działań, takich jak:

  • tworzenie systemów do wykrywania duplikatów adresów URL,
  • lepsze sposoby informowania wyszukiwarek o strukturze adresów URL witryny,
  • używanie robots.txt w bardziej inteligentny sposób, aby kierować robotami wyszukiwarek.

Illyes konsekwentnie poleca używanie robots.txt do rozwiązania problemu nadmiarowych odnośników. Blokowanie parametrów za pomocą robots.txt może pomóc ograniczyć indeksowanie dziesiątek tysięcy adresów URL, gdy Google automatycznie próbuje zaindeksować wszystkie adresy różniące się poszczególnymi parametrami.

Illyes wspomniał także o wcześniejszych próbach Google rozwiązania tego problemu, w tym o wycofanym narzędziu Parametry URL w Google Search Console. Narzędzie pozwalało witrynom wskazać, które parametry są ważne, a które można zignorować. W kontekście omawianych problemów mogło stanowić duże wsparciu w codziennej optymalizacji strony. Illyes jest jednak sceptyczny co do jego praktycznej skuteczności wskazując, że narzędzie miało te same problemy, co konfiguracja robots.txt – wszystko zależało od poziomu wiedzy użytkownika, a częste zmiany w narzędziu powodowały więcej problemów dla większości użytkowników, niż pożytku.

Strona błędu 404 - page not found
Najpoważniejszą konsekwencją problemów z parametrami URL jest niedostępność serwera na skutek przeciążenia wywołanego pracą crawlerów wyszukiwarek.

Adresy URL bez parametrów? Podsumowanie

Podjęcie działań zmierzających do lepszego zarządzania i eliminacji niepotrzebnych parametrów adresów URL może być opłacalne. Najważniejsze korzyści to:

  • efektywność indeksowania – zarządzanie parametrami URL w przypadku rozbudowanych stron internetowych składających się z setek podstron może pomóc oszczędzić budżet na indeksowanie, zapewniając, że najważniejsze strony zostaną indeksowane,
  • lepsza architektura witryny – optymalizacja parametrów URL sprzyja ustrukturyzowaniu wszystkich linków i zachowaniu odpowiedniej hierarchii, co jest szczególnie istotne w przypadku dużych sklepów e-commerce z wieloma wariantami produktów,
  • skuteczna optymalizacja strony – praca z parametrami URL wymusza często przeprowadzenie dodatkowych działań, które będą miały pozytywne przełożenie na pozycjonowanie. To między innymi optymalizacja tagów kanonicznych, wtyczek CMS wpływających na kształt odnośników, a także bezpośrednie zmiany w pliku robots.txt.

Najważniejszą rzeczą jest to, aby parametrów adresów URL po prostu nie ignorować. W przeciwnym razie wraz z rozwojem strony internetowej mogą one zacząć dać o sobie znać w negatywny sposób, zwiększając zużycie serwera i ograniczając szybkość przeprowadzania indeksacji przez roboty wyszukiwarek.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *