Jak Google wybiera strony kanoniczne? Duplikaty, klastry i inne rewolucyjne zmiany

Oznaczanie stron kanonicznych to jeden z podstawowych obowiązków każdego webmastera. W przeciwnym razie, jeśli portal nie ogranicza się do kilku podstron, zazwyczaj szybko mogą pojawić się problemy z duplikatami, hierarchią strony i nie tylko. Chociaż często zawodzą, Google posiada własne mechanizmy identyfikowania, która strona jest stroną kanoniczną. Na dniach szerszej wypowiedzi na ten temat udzielił Gary Illyes z Google w materiale Google Search Central na Youtube. Sprawdzamy, jak Google wybiera obecnie strony kanoniczne i jak można pomóc w całym tym procesie!

Klasyfikacja stron kanonicznych przez Google

W ostatnim odcinku Google Search Central na Youtube pojawił się Gary Illyes, analityk Google. Illyes opisuje sygnały, których Google używa do wyboru stron kanonicznych i wyjaśnia, dlaczego zduplikowane strony mogą być istotne pod względem SEO.

W wideo Google Search Central Gary Illyes wyjaśnia część indeksowania stron internetowych, która obejmuje sposób wyboru stron kanonicznych. Kanoniczność dla Google nie musi być tym samym, czym jest dla większości użytkowników. Illyes wyjaśnia, jakie sygnały strony internetowej decydują o tym, że zostanie ona uznana za stronę kanoniczną lub nie, co zrobić z komunikatami pojawiającymi się w Google Search Control i ze stronami oznaczonymi jako duplikaty treści.

artystyczna reprezentacja wielu stron, prawdopodobnie z książek lub dokumentów, które eksplodują na zewnątrz w dynamicznym wybuchu na zielonym tle
Zduplikowany content to coraz powszechniejszy problem, który został wsparty rozwojem A.I. Tym ważniejsze staje się odpowiednie działanie w zakresie ustalania stron kanonicznych!

Co oznacza: strona kanoniczna?

Na początku warto przypomnieć, czym jest strona kanoniczna? Wbrew pozorom określenie to ma różne znaczenie, a wszystko zależy od tego, czyją perspektywy obierzemy: wydawcy, specjalisty SEO, czy Google’a.

Wydawcy – właściciele stron internetowych – najczęściej rozumieją stronę kanoniczną tę stronę, która ich zdaniem jest „oryginalna”, czyli zazwyczaj została utworzona jako pierwsza. Jeżeli mamy dwie podstrony poruszające bardzo podobną tematykę, używające podobnych słów kluczowych i nagłówków, dla wydawcy status oryginalność będzie mieć raczej ta podstrona, która została opublikowana jako pierwsza.

W przypadku SEO koncepcja kanoniczności najczęściej ma charakter decyzji. Ta strona zostaje uznana za kanoniczną, która jest „najmocniejsza” w kontekście czynników rankingowych, np. generują największą liczbę wejść z wyszukiwania organicznego. W takim kluczu możemy też uznać za najsilniejszą podstronę tę, która po prostu naszym zdaniem ma największy potencjał pod względem SEO.

Zupełnie czym innym są strony kanoniczne w uznaniu wyszukiwarek internetowych. To jeden z najczęstszych błędów interpretacyjnych, których polega na utożsamieniu takich czynników, jak oryginalność czy pierwszeństwo publikacji z istotnością danej podstrony i jej znaczeniem.  Oficjalna dokumentacja Google na temat kanonizacji używa słowa „deduplikacja”, aby odnieść się do procesu wyboru kanonicznej wersji i wymienia pięć typowych powodów, dla których strona może mieć zduplikowane wersje.

5 przyczyn duplikacji według dokumentacji Google

Jak widać, kanoniczność można interpretować na trzy różne sposoby (z perspektywy właściciela strony, SEO i Google). Co więcej, istnieje przynajmniej pięć powodów przekładających się na wystąpienie statusu o duplikacji. W oficjalnej dokumentacji Google podaje 5 powodów, dla których strony klasyfikowane są jako zduplikowane:

  1. Zróżnicowanie regionalne – treść jest taka sama, zasadniczo w tym samym języku, ale dotyczy np. regionów USA i UK. Podstrony występują pod różnymi adresami URL.
  2. Warianty urządzeń – identyczne strony, ale osobne: jedna dla wersji mobilnej, druga dla wersji desktopowej.
  3. Warianty protokołów – również dotyczy to takich samych stron, ale w sytuacji, kiedy jedna podstrona korzysta z protokołu SSL (HTTPS), a druga nie (HTTP).
  4. Funkcje witryny – elementami rozróżniającymi podstrony są dodatkowe opcje i funkcje, np. funkcja sortowania czy filtrowania strony kategorii.
  5. Warianty przypadkowe – zestawienie duplikatów powstałych z innych przyczyn, np. pozostawienia wersji demonstracyjnej strony w indeksie.
różowe karteczki samoprzylepne ułożone w hierarchiczną strukturę na czarnym tle
Google podaje pięć przyczyn duplikacji, ale nie oznacza to, że zawsze należy reagować.

Duplikacja treści – specyfika i jej rodzaje

Najczęstszym powodem duplikacji treści są problemy związane z jakością contentu. Duplikacja treści (duplicate content) to zjawisko, kiedy ta sama treść pojawia się pod różnymi adresami URL. Może to mieć miejsce zarówno w obrębie jednej witryny (duplikacja wewnętrzna), jak i na różnych stronach internetowych (duplikacja zewnętrzna). Podział ten pozwala lepiej zrozumieć naturę problemu duplikacji.

Zewnętrzna duplikacja treści

Pierwszy wariant, czyli zewnętrzna duplikacja, występuje wtedy, gdy treści z innych stron są kopiowane na naszą domenę. Może to być wynikiem nielegalnego korzystania z cudzych treści, braku świadomości praw autorskich lub nadmiernego inspirowania się przez nieudolnych copywriterów. Chyba szczególnie w Polsce popularne jest wciąż kopiowanie treści, a na forach branżowych nie ma miesiąca, by nie pojawiło się zgłoszenie tego typu praktyki.

Z technicznego punktu widzenia nawet “zwykłe” kopiowanie opisów produktów ze strony producenta na własną stronę e-commerce (kiedy właściciel ma do tego pełne prawa) i tak może być formą zewnętrznej duplikacji. Roboty wyszukiwarek nie sprawdzają przecież tego, jaki jest status legalny – to kwestie, które nie istnieją w omawianym temacie. Liczy się za to rodzaj treści i ich unikalność. Rozwiązaniem jest więc tworzenie oryginalnych treści, co może być wyzwaniem, szczególnie przy ograniczonych zasobach, kiedy mamy do czynienia z branżami wymagającymi wiele opisów (np. śrubek, które są identyczne, ale występują w kilkuset wariantach wymiarowych).

Według Tony’ego Wrighta, znanego specjalisty SEO w branży, treści nie muszą być absolutnie unikalne. Ważne jest, aby różniły się przynajmniej o 30% względem pierwowzoru. Twierdzenie to jednak nie jest poparte żadną analizą statystyczną i nie wiemy wiemy, na ile jest słuszne.

Wewnętrzna duplikacja treści

Drugie zjawisko, czyli wewnętrzna duplikacja contentu, ma miejsce wtedy, gdy ta sama treść pojawia się na różnych stronach, ale w obrębie jednej domeny (ale już nie subdomeny!).  Jest to często wynik błędów technicznych, takich jak generowanie różnych adresów URL dla tego samego produktu lub umieszczenie produktu w kilku kategoriach. Uniknięcie tego problemu wymaga przede wszystkich gruntownego przemyślenia hierarchii witryny – najlepiej już na etapie jej projektowania od podstaw. W przeciwnym razie optymalizacja techniczna polegająca na zmianie hierarchii stron może być na początkowym etapie wprowadzania modyfikacji dość bolesna dla poszczególnych podstron, jeśli chodzi o pozycje w wynikach wyszukiwania.

Zarówno duplikacja wewnętrzna, jak i zewnętrzna, to zjawiska z jednej strony negatywne, z drugiej zaś – takie, które do pewnego stopnia trzeba zaakceptować. Nie istnieje żaden duży portal internetowy, który w Google Search Console nie miałby w ogóle zaznaczonej żadnej podstrony jako duplikat. To, co jest najważniejsze, to rozsądne podejście do zarządzania treścią oraz regularna kontrola i optymalizacja strony w celu uniknięcia negatywnych skutków duplikacji dla pozycji w wynikach wyszukiwania.

osoba siedząca pośród chaotycznego układu unoszących się, otwartych białych pudełek na tle czystego nieba
Wewnętrzna duplikacja treści nie musi oznaczać sklonowanej, identycznej treści. Z problemem najczęściej borykają się właściciele sklepów e-commerce.

Sygnały wyboru stron kanonicznych

W jaki sposób Google uznaje, że dana strona jest kanoniczna? W omawianym materiale Illyes dzieli się inną definicją stron kanonicznych z perspektywy indeksowania i omawia sygnały, jakie są używane przez Google do identyfikacji takich stron.

Google określa, czy strona jest duplikatem innej już znanej strony, i która wersja powinna być zachowana w indeksie, czyli kanoniczna wersja. W tym kontekście strona kanoniczna to strona spośród grupy duplikatów, która najlepiej reprezentuje całą grupę według określonych sygnałów Google.

W procesie analizy strony przez crawlery badana jest treść i inne elementy nawigacyjne, funkcjonalne i hierarchiczne. Analizowane są też tagi schema. Elementy te określane są jako sygnały. Sygnały to informacje, które wyszukiwarka zbiera na temat stron i witryn, które są używane do dalszego przetwarzania. Według Illyesa Google ma zestawiać dane różnych podstron i zgodnie z wewnętrznym modelem weryfikować, w jakim stopniu poszczególne strony w obrębie jednej domeny są do siebie podobne. Niektóre sygnały są bardzo proste, takie jak adnotacje właściciela witryny w HTML, np. rel=”canonical”, podczas gdy inne, jak znaczenie poszczególnej strony w sieci, mają być trudniejsze do analizy i opierać się o bardziej zaawansowane modele, których nie znamy.

Klastrowanie duplikatów i wybór wariantów

Proces wyboru strony kanonicznej przez Google opiera się na podstawie klastrowania duplikatów. Gdy wiele stron jest podobnych, Google musi wybrać sobie jeden adres kanoniczny. Na początku jednak dokonywany jest w tym celu podział na klastry. To, inaczej mówiąc, grupy stron zaklasyfikowane przez algorytmy wyszukiwarki jako podobne względem siebie. Illyes wyjaśnia, że jeden URL jest wybierany, aby reprezentować kanoniczny dla każdego klastra zduplikowanych stron w wynikach wyszukiwania.

Każdy klaster duplikatów zawsze ma jeden adres kanoniczny. W rezultacie cała grupa podstron może być – w oczach algorytmów Google – reprezentowana przez jeden wiodący model treści. Ta wersja będzie reprezentować treść w wynikach wyszukiwania dla wszystkich innych wersji. Reszta podstron nie ma jednak zerowego znaczenia, jak zwykło sądzić wielu specjalistów SEO. Nawet pomimo statusu duplikatu w Google Search Console strony te mogą przekładać się w mniejszym stopniu na SEO. Pozostałe wersje w klastrze stają się alternatywnymi wersjami, które mogą być obsługiwane w różnych kontekstach, na przykład gdy użytkownik szuka bardzo konkretnej strony z klastra.

Powyższe twierdzenie rzuca więcej światła na sposób podejścia do stron, które nie zostały uznane za kanoniczne, co szczególnie staje się istotne dla właścicieli stron e-commerce dysponujących wieloma produktami. Użytkownik bądź system może tworzyć duplikaty podstron, np. strony produktowe, które różnią się parametrami produktu, ale główne aspekty pozostają bez zmian. Te warianty mogą zostać wybrane przez Google do rankingowania w wynikach wyszukiwania, gdy strona z wariantem najlepiej odpowiada zapytaniu wyszukiwania.

grafika, schemat
Google tworzy klastry duplikatów, czyli grupy stron uznanych za podobne, spośród których wybiera sobie tę stronę, która najlepiej reprezentuje dany temat.

Warto o tym pamiętać, ponieważ przekierowanie stron wariantowych i wprowadzanie no index w celu uniknięcia problemu z kanibalizacją słów kluczowych może być błędnym podejściem. Dodanie noindex do stron, które są wariantami nadrzędnej strony, może odnieść nawet odwrotny skutek negatywny. To Google wybiera, która strona jest najlepsza (w tym momencie wracamy właśnie do kwestii optyki i podziału znaczenia strony kanonicznej z perspektywy właściciela strony, specjalisty SEO i algorytmów Google). Google może uznać, że to właśnie jakaś strona wariantowa jest najlepsza do rankowania i uzna ją za kanoniczną, pomimo tego, że nie jest ona nadrzędna. Manualne wykluczenie jej w celu uznania głównej strony za kanoniczną może przysporzyć dodatkowych problemów związanych z pozycjonowaniem danej grupy produktów.

Strony kanoniczne – nowe informacje od Illyesa

Z dyskusji prowadzonej przez Garry’ego na temat stron kanonicznych możemy wyciągnąć kilka naprawdę interesujących wniosków. Przede wszystkim Illyes zdradza, że Google traktuje główną treść kanoniczną jako Centrum (Centre). Ta strona, która najbardziej odpowiada Centrum, zostaje uznana za kanoniczną. Wybór przeprowadzany jest przez algorytmy na podstawie analizy klastrów duplikatów, a nie pojedynczych duplikatów, jak dotychczas sądzono. Selekcjonowanie i segregowanie podstron w klastry odbywa się poprzez analizę treści i innych funkcyjnych oraz informacyjnych znaczników na stronie, w tym tagów schema, nagłówków, miejsca w hierarchii strony, ścieżek URL itd.

Z każdej odkrytej strony Google zbiera szereg sygnałów. Sygnały to po prostu określone przez Google dane, które są wykorzystywane do dalszego przetwarzania po odnalezieniu stron internetowych. Niektóre sygnały są kontrolowane przez wydawcę, takie jak wskazówki i – prawdopodobnie – dyrektywy. Przykładem wskazówki, o której wspominał Illyes, jest atrybut linka rel=canonical.

Niektóre zduplikowane strony mogą służyć jako wersje alternatywne. Czasem strona uznana za duplikat tak naprawdę i tak może pozytywnie przełożyć się na pozycjonowanie witryny, więc nie warto nadmiernie przejmować się tymi statusami. Zdaniem Illyes wersje alternatywne stron internetowych mogą nadal osiągać wysokie pozycje i są użyteczne dla Google.

otwarta książka pośrodku zielonego krajobrazu, otoczona różnymi ikonami reprezentującymi różne rodzaje mediów i treści
Google wybiera strony kanoniczne w zupełnie inny sposób, niż dotąd sądziliśmy w branży.

Jak Google wybiera strony kanoniczne? Podsumowanie

Zgodnie z oficjalną dokumentacją Google istnieje pięć głównych powodów, dla których strony są klasyfikowane jako zduplikowane. Przyczynami tymi są zróżnicowanie regionalne, warianty urządzeń i protokołów, funkcje witryny oraz przypadkowe duplikaty (np. w e-commerce). Zróżnicowanie regionalne odnosi się do treści dotyczącej różnych regionów, która może występować pod różnymi URL-ami, podczas gdy warianty urządzeń i protokołów odnoszą się do identycznych stron dostosowanych do różnych platform.

Duplikacja treści stanowi poważny problem, który często wynika z kwestii jakościowych. Przyczyną statusu o duplikacji w Google Search Console może być powielanie treści z innej strony (duplikacja zewnętrzna), albo z innej podstrony w obrębie tego samego adresu URL (duplikacja wewnętrzna). W przypadku duplikacji zewnętrznej, czyli kopiowane z innych domen, wbrew pozorom Google ma mało narzędzi do identyfikacji takich procederów, a sprawy te są bardzo rzadko odnotowywane, mimo że są powszechne.

Jeżeli chcielibyśmy spróbować maksymalnie skondensować nowe informacje, to powiedzielibyśmy, że Illyes daje nam 4 zupełnie nowe informacje:

  1. Proces wyboru strony kanonicznej przez Google opiera się na analizie klastrów duplikatów. Proces identyfikacji duplikatów jest w rzeczywistości bardziej zaawansowany, niż sądzono: polega na selekcji stron w klastry na podstawie sygnałów.
  2. Jeśli zobaczymy komunikat o duplikacji, w większości przypadków lepiej nic nie robić. Działania manualne częściej pogarszają sprawę.
  3. Duplikat dla Google to zupełnie co innego, niż duplikat z perspektywy właściciela stron czy specjalisty SEO. Oryginalność nie ma bądź ma tu drugoplanowe znaczenie.
  4. Duplikaty również mogą korzystnie oddziaływać na wyniki SEO całej witryny!

Jak widać, jest tu trochę rewolucji! Większość osób z branży zapytana o któryś z powyższych aspektów raczej odpowie przecząco. Nowe informacje warto nanieść na swoje strategie radzenia sobie z duplikatami (zarówno na stronach własnych, jak i obsługiwanych klientów), a ostateczne wnioski przetestować empirycznie.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *