Google Core Topicality System: Jak działa system zgodności treści do zapytania w Google Search?

Silniki wyszukiwarek zbudowane są z szeregu hierarchicznych systemów odpowiadających za różne funkcje. Jednym z nich jest Core Topicality System – wewnętrzna warstwa silnika wyszukiwarki, której zadanie polega na analizie podobieństwa między treścią onsite a zapytaniami użytkowników. To właśnie ten system w dużym stopniu może odpowiadać za to, że jedna nasza podstrona może zdobywać świetny ruch organiczny, a inna być rzadko wyświetlana w SERP. Aby polepszyć swoje wyniki, warto dokładniej przyjrzeć się, czym jest i jak działa Google Core Topicality System!

Na czym polega Google Core Topicality System?

Google Core Topicality System to jeden z systemów wchodzących w skład silnika wyszukiwarki Google. Odpowiada za weryfikację, czy dane treści odpowiadają zapytaniu użytkownika. Ma więc istotne przełożenie na to, czy strona wyświetlana jest w wynikach wyszukiwania na konkretne prompty.

Aby jednak zrozumieć, czym jest Google Core Topicality System, warto zacząć od wyjaśnienia samego terminu. Angielski termin topicality tłumaczymy jako aktualność, ale najczęściej w odniesieniu właśnie do jakiegoś tematu bądź zjawiska. Z kolei topicality w odniesieniu do silników wyszukiwarek internetowych odnosi się do stopnia, w jakim treść strony internetowej jest zgodna z tematyką zapytania użytkownika. Jest to jeden z czynników, które wyszukiwarki biorą pod uwagę przy ocenianiu i rangowaniu stron w wynikach wyszukiwania.

Definicja topicality. Co mówi dokumentacja Google?

Zainteresowanie systemem analizy aktualności treści względem promptu mocno ostatnio wzrosło. Zawdzięczamy to jednemu z ostatnich odcinków podcastu Google Search Off The Record, w którym wprost pada informacja o istnieniu mechanizmu “Core Topicality System”.

Chociaż niewiele wiadomo na temat tego, co wchodzi w skład mechanizmu tematyczności, można pokusić się o pewne interpretacje. Dokumentacja Google dotycząca komercyjnej usługi wyszukiwania w chmurze przedstawia definicję topicality, która – mimo że nie odnosi się bezpośrednio do wyszukiwarki Google – dostarcza kilku ciekawych informacji. W dokumentacji Google termin topicality zdefiniowany jest następująco: Topicality odnosi się do zgodności wyniku wyszukiwania z oryginalnymi terminami zapytania”. Potwierdza się więc, że mamy do czynienia z systemem, który analizuje relacje pomiędzy stronami internetowymi a zapytaniami wyszukiwania w kontekście wyników wyszukiwania.

Klastry kontekstowe Google

System Topicality wyszukiwarki Google odpowiada za sprawdzanie, czy treści na stronie będą odpowiednie dla danych zapytań. Mechanizm skoncentrowany jest na analizie treści pod kątem merytoryki i tego, czy dana treść dobrze wpisuje się w klastry kontekstowe i grupy pojęć przynależnych do promptu. Jeżeli bowiem użytkownik wpisuje w wyszukiwarkę hasło “dobre łóżko dla dziecka”, to oddzielne mechanizmy Google Search klasyfikują takie prompty do wielu różnych grup pojęciowych i kontekstowych. Niektóre będą dotyczyły treści DIY, inne poradników, inne marek, a jeszcze inne dziecka; jego wieku, płci, upodobań. Czynników jest wiele. “Rozrastanie się” tego typu kontekstów z jednej frazy do wielu innych dobrze obrazuje narzędzie Answer the Public , chociaż w porównaniu do klastrów Google Search jest to niezwykle uproszczone.

Answer the Public pozwala zobaczyć różne propozycje powiązanych grup słów kluczowych.
Answer the Public pozwala zobaczyć różne propozycje powiązanych grup słów kluczowych.

4 główne obszary oceny tematyczności

Kluczowym zadaniem Google Core Topicality system jest ocena tego, w jakim stopniu treść na stronach odpowiada danym zapytaniom. Pytanie tylko, w jaki sposób Google może to rozsądzać? Główne aspekty, które Topicality System ma brać pod uwagę, to:

  1. Adekwatność i ważność treści – crawlery analizuję, czy strona zawiera treści, które bezpośrednio odnoszą się do zapytania. Oznacza to, że zawartość strony powinna odpowiadać na pytania użytkownika lub dostarczać informacji na temat poszukiwany przez użytkownika.
  2. Słowa kluczowe – obecność odpowiednich słów kluczowych i fraz, które użytkownik wpisał w zapytaniu, w treści strony, tytułach, nagłówkach, meta tagach i innych elementach SEO, pomaga określić topicality.
  3. Struktura i optymalizacja treści – tematyczność treści analizowana jest także za pomocą twardych czynników dotyczących struktury. Brane pod uwagę są nagłówki, akapity, sekcje, logiczność i przejrzystość prezentowania informacji, a także hierarchia stron.
  4. Aktualność treści – aktualność informacji na stronie silnie wpływa na parametr topicality. Google analizuje, kiedy dana treść została opublikowana, kiedy powstała, czy została zastąpiona, zmodyfikowana, czy stworzona od zera, czy jest oryginalna, a także jakie jest jej autorstwo i przypisana data.

Relewancja powiązań = zrozumienie zapytań + reprezentacja tematów

To, jak funkcjonuje mechanizm Core Topicality System, bazuje na relewancji powiązań. Relewancję możemy traktować jako synonim ważności, istotności. Chodzi o to, na ile ważne, aktualne i zasadne jest powiązanie pomiędzy daną treścią na stronie X i promptem Y wpisanym przez użytkownika. Im wyższe jest to podobieństwo, tym większa szansa, że mechanizm Topicality System będzie wysyłał pozytywne sygnały do nadrzędnych warstw silnika Google Search, decydujące o umieszczeniu danej strony wyżej w konkretnych wynikach wyszukiwania.

Intensywność tego powiązania kształtowana jest przez dwa czynniki równolegle: zrozumienie zapytań i reprezentację tematów. Pierwsza kategoria, zrozumienie zapytań wyszukiwania, polega na konieczności poprawnej interpretacji intencji i kontekstu zapytań wpisywanych przez użytkowników. Algorytmy wyszukiwarek muszą skutecznie interpretować terminologię i frazy używane w zapytaniach, aby dostarczać wyniki, które najlepiej odpowiadają na pytania użytkowników.

Druga kategoria, czyli reprezentacja tematów na stronach internetowych, określa to, w jakim stopniu dane zagadnienie z promptów (i powiązane z nim klastry pojęciowe oraz kontekstowe) jest odzwierciedlane przez treści onsite. Tu jednak znaczenie ma już nie tylko treść, jak w przypadku pierwszej kategorii, ale także forma. Nie chodzi jednak formę estetyczną, a strukturę i zawartość strony, które powinny być odpowiednio zoptymalizowane pod kątem klarowności i precyzyjnego odwzorowania tematyki. Elementy takie jak nagłówki, teksty, meta tagi i słowa kluczowe powinny być tak rozmieszczone, by algorytmy wyszukiwarek mogły je łatwo zidentyfikować pod kątem relewantności właśnie w kontekście poszczególnych promptów.

Abstrakcyjna wizualizacja sztucznej inteligencji analizująca trendy rynkowe w celu stworzenia odpowiednich treści
Google modyfikuje sposób analizy podobieństwa treści do promptów, wykorzystując duże modele językowe.

Relewancja mierzona przy pomocy dużych modeli językowych

Rozwój technologii maszynowego i głębokiego uczenia sprawił, że silniki wyszukiwarek przestały bazować na statystycznym modelowaniu tematyczności. Wcześniej Google Search korzystał z mechanizmu Topic Modeling, który służył do analizy, o czym jest dana strona internetowa i dopasowywania do niej zapytań, które mogą pojawić się w wyszukiwarce. Rozwój tej technologii (m.in. Latent Dirichlet Allocation; LDA) miał przełomowe znaczenie i mocno wpłynął na to, że to właśnie Google Search u na początku XXI w. stało się najwygodniejszą wyszukiwarką internetową.

Wiadomo jednak, że po każdej przełomowej technologii w końcu nadejdzie kolejna, która zastąpi starszą. W 2015 r. powstała rewolucyjna praca wdrożeniowa nt. modelu Neural Variational Document Model (NVDM). Określał on nowy sposób reprezentacji i aglomeracji tematów oraz klastrów tematycznych. Ostatnie lata to z kolei integracja rozwiązań wynikających z rozwoju technologii uczenia maszynowego i modeli językowych. W artykule “Beyond Yes and No: Improving Zero-Shot LLM Rankers via Scoring Fine-Grained Relevance Labels” z końca 2023 r. czytamy:

„Proponujemy wprowadzenie szczegółowych etykiet relewantności do podpowiedzi dla rankerów LLM, co umożliwia im lepsze rozróżnianie dokumentów o różnym stopniu relewantności względem zapytania, a tym samym uzyskanie bardziej precyzyjnego rankingu”.

Artykuł dotyczy wykorzystania dużych modeli językowych (LLM) do rankingowania stron internetowych poprzez ocenę relewantności. W ujęciu proponowanych przez autorów proces ten wykracza poza binarną ocenę „tak” / „nie”. Zamiast tego obejmuje trzy stopnie oceny: „bardzo relewantne”, „częściowo relewantne” i „nierelewantne”. Autorzy konkludują, że wprowadzenie oceny relewantności i dodanie szczegółowych etykiet istotności “znacznie poprawia wydajność rankingów LLM”. Cały artykuł dostępny jest online na portalu Arxiv Cornell University.

Google Core Topicality System – podsumowanie

O tym, że odpowiadanie na pytania użytkowników będzie główną funkcją wyszukiwarek internetowych, przewidywano już w 2001 roku, m.in. w artykule „Rethinking Search: Making Domain Experts out of Dilettantes”. Wyszukiwarki wykraczają poza zwykłe wyszukiwanie informacji, a odpowiadanie na pytania użytkowników stało się główną funkcją już od wielu lat. Umiejętność dostosowania listy wyników wyszukiwania do zapytania bezpośrednio przekłada się na intuicyjność i wygodę korzystania z wyszukiwarki.

Silnik Google Search składa się z wielu warstw, a każda z nich zawiera szereg mechanizmów i parametrów, które wzajemnie na siebie oddziałują. Google Core Topicality System jest tylko jednym z wielu innych systemów używanych przez wyszukiwarkę, dlatego warto o nim myśleć w szerszym kontekście. Google próbuje udoskonalać sposoby interpretacji promptów, a nie trzeba przyznać, że nie jest to łatwe zadanie za sprawą wysypu stron z treściami generowanymi przez A.I. Będziemy dalej obserwować, jak rozwijać będzie się ten system i kategoria relewancji.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *