Duże modele językowe przetwarzają miliardy danych, aby udzielić kompleksowej odpowiedzi. Na wiarygodność ich odpowiedzi wpływa jednak znacznie więcej czynników niż zasoby, z których korzystają – czy to w wyszukiwaniu sieciowym, czy korzystaniu z materiałów szkoleniowych. Dobrze nam znany zespół Google DeepMind opublikował właśnie badanie dotyczące sposobu oceny wiarygodności modeli językowych. Nowe narzędzie powstałe w tym celu, FACTS Grounding, ma oceniać zdolności modułów AI w zupełni inny sposób, niż dotychczas. Wzięliśmy więc w Funkymedia na warsztat najnowszy pomysł Google i sprawdzamy, czy faktycznie może on oceniać wiarygodność AI?
Dlaczego coraz bardziej zaawansowane moduły AI wciąż popełniają kardynalne błędy
Wraz z rosnącą popularnością modeli językowych i pomimo wyraźnego postępu w ich opracowywaniu widzimy coraz więcej wad. Główne dotyczą przede wszystkim dokładności faktograficznej albo – mówiąc wprost – przekręcania faktów i popełniania prostych błędów. Okazuje się, że modele przeszkolone na miliardach danych wejściowych są w stanie robić “gafy” nawet przy najprostszych zapytaniach. Co więcej, często nie są tego w ogóle świadome i reagują tak, jakby otrzymały zupełnie odmienny prompt, co określamy mianem halucynacji. Jak to się dzieje, że tak zaawansowana technologia tak często może być po prostu zupełnie niewiarygodna?
Problem wiarygodności modeli językowych jest kluczowy zarówno dla ich przyszłego opracowywania i ulepszania, jak i zadbania o bezpieczeństwo użytkowników tu i teraz. Wcześniej w Funkymedia pisaliśmy już zresztą o różnych ciekawych przypadkach, w których to model językowy niebezpiecznie mija się z prawdą. AI Overviews, moduł SGE / AI od Google, zasłynął tuż po premierze m.in. tym, że polecał użytkownikom regularne spożywanie kamieni. Takich błędów, na pierwszy rzut oka śmiesznych, ale w kontekście najmłodszych użytkowników – także niebezpiecznych, niestety wcale nie brakuje.
Nad problemem tym w ostatniej publikacji naukowej pochyla się zespół badaczy z Google DeepMind. W artykule pt. “The FACTS Grounding Leaderboard: Benchmarking LLMs’ Ability to Ground Responses to Long-Form Input” testują nowe narzędzie do analizy wiarygodności odpowiedzi modeli językowych. FACTS Grounding ma odpowiadać za sprawdzanie dokładności faktograficznej i mógłby być wyznacznikiem jakości dla różnych modeli językowych.
FACTS Grounding – narzędzie do pomiaru jakości odpowiedzi AI, a nie wydajności
FACTS Grounding to narzędzie benchmarkowe, które zostało stworzone w celu kompleksowej oceny zdolności modeli językowych do generowania odpowiedzi. Narzędzie weryfikuje nie tylko to, czy odpowiedzi modeli są faktograficznie poprawne, ale również to, czy są one odpowiednio uszczegółowione i satysfakcjonujące z perspektywy użytkownika oraz celu jego zapytania. Benchmark ten został opracowany jako odpowiedź na rosnące zapotrzebowanie na wiarygodne metody oceny jakości odpowiedzi generowanych przez modele AI.
Projekt zespołu DeepMind de facto wykracza poza wykracza poza tradycyjne metody ewaluacji modeli językowych. Koncentruje się na dwóch głównych płaszczyznach analizy:
- dokładności faktograficznej modelu językowego,
- jego zdolności do właściwego wykorzystania kontekstu promptu użytkownika.
Pomijane są natomiast kwestie dotyczące prędkości działania modelu. Dzięki temu FACTS Grounding ma być obiektywnym benchmarkiem wskazującym nie wydajność, lecz jakość udzielanych odpowiedzi.
Metodologia benchmarku FACTS Grounding
W jaki sposób FACTS Grounding ma weryfikować jakość odpowiedzi modeli językowych? Podobnie, jak inne narzędzia benchmarkowe, mamy do czynienia z pewnego rodzaju testem, składającym się zawsze z tych samych, stałych komponentów. W przypadku FACTS wykorzystywane materiały są jednak gigantyczne i nie ograniczają się do kilku sekwencji.
Zbiory danych stanowiące “szkielet” FACTS Grounding obejmują 1719 wyselekcjonowanych aglomeratów wiedzy. Mniej więcej połowa z nich to zbiory publiczne, druga część zaś stanowi zbiory prywatne. Każdy z aglomeratów zawiera dokumenty źródłowe, instrukcje systemowe i zapytania użytkowników, które wymagają od modelu językowego wygenerowania odpowiedzi w oparciu o dostarczony kontekst.
Dokumenty źródłowe składają się nawet z 32000 tokenów (około 20000 słów) i zostały sklasyfikowany w obrębie kilku głównych dziedzin, takich jak m.in. finanse, technologie, handel detaliczny, medycynę oraz prawo. Zapytania użytkowników również są zróżnicowane i wymagają sprawdzenia takich umiejętności, jak analizowanie informacji, tworzenie i przeformułowywanie treści, sumaryzacja danych, generowanie pytań i odpowiedzi.
Jednym z najbardziej innowacyjnych aspektów FACTS Grounding jest wykorzystanie zbiorowej oceny przez wiodące modele językowe. Do ewaluacji odpowiedzi wykorzystywane są trzy zaawansowane modele: Gemini 1.5 Pro, GPT-4o oraz Claude 3.5 Sonnet. Wybór różnych modeli jako sędziów ma na celu zminimalizowanie potencjalnej “stronniczości”, która mógłby wystąpić, gdyby odpowiedzi były oceniane przez model z tej samej rodziny. Tu warto też zrobić zastrzeżenie, że badanie opublikowane przez członków zespołu DeepMind datowane jest na 17 grudnia 2024 r. Mniej więcej w tym samym czasie światło dzienne ujrzał model Gemini 2.0 Flash. Prawdopodobnie to właśnie on będzie uwzględniony w kolejnych testach FACTS Grounding.
Proces oceny odpowiedzi udzielanych przez sztuczną inteligencję przebiega dwuetapowo. W pierwszej fazie sprawdzana jest kwalifikowalność odpowiedzi. Chodzi o zweryfikowanie tego, czy odpowiedź w wystarczającym stopniu odnosi się do zapytania użytkownika. Drugi etap koncentruje się na ocenie dokładności faktograficznej i weryfikacji, czy odpowiedź jest w pełni ugruntowana w informacjach zawartych w dokumencie źródłowym. Na obydwu płaszczyznach odpowiedzi poszczególnych modeli otrzymują stosowną punktację.
Wady i zalety nowego narzędzia do testowania AI
FACTS Grounding ma potencjał, aby wpłynąć na rozwój bardziej wiarygodnych systemów AI. Sposób weryfikacji wiarygodności odpowiedzi na ten moment nie odzwierciedla jednak wszystkich słabości modułów sztucznej inteligencji. Pierwsza wersja systemu ograniczona jest bowiem do kilku konkretnych dziedzin tematycznych. Faktycznie jednak większość użytkowników ChatGPT, Gemini, Perplexity czy ClaudeAI nie wyszukuje najwięcej zapytań z dziedziny medycyny czy finansów, ale te, które są na tematy codzienne, ogólne. I tu pojawia się problem, bo takiej dziedziny, jak tematy ogólne, FACTS Grounding nie weryfikuje.
Co istotne, autorski benchmark Google DeepMind może pomóc w tworzeniu kolejnych systemów AI, szczególnie takich, których przewagą nie jest sama szybkość generowania odpowiedzi, ale przede wszystkim ich wiarygodność i jakość. Może to prowadzić do powstania nowej generacji narzędzi AI, które będą w stanie skuteczniej wspierać pracę specjalistów w różnych dziedzinach. Tajemnicą Poliszynela jest to, że Google wycofuje się niejako z bezpośredniej konfrontacji z OpenAI, stawiając bardziej na narzędzia specjalistyczne i moduły AI dostosowane do konkretnych, a nie ogólnych zadań. Widzimy tę tendencję także w ostatnio opublikowanej, nowej wersji Gemini – Flash 2.0. FACTS Grounding.
Twórcy FACTS Grounding zdają sobie sprawę, że benchmarki mogą się szybko dezaktualizować. Proces ten zachodzi szczególnie szybko w przypadku narzędzi do pomiaru parametrów modeli AI. Prezentowany projekt ma charakter propozycji wyjściowej, a Google DeepMind ma zamiar kontynuować go i rozbudowywać o pozostałe elementy.
FACTS Grounding krokiem w kierunku etycznego AI? Podsumowanie
Projekt FACTS Grounding to jedyny jak dotąd benchmark, który całkowicie pomija wydajność rozumianą jako szybkość wykonywania operacji i zużycie zasobu. Zamiast tego bada jakość, a konkretniej – dokładność faktograficzną modeli. FACTS ma też weryfikować jak często modele językowe popadają w halucynacje, co może rzucić dodatkowe światło na to wciąż niezbyt zbadane zjawisko.
Praca zespołu Google DeepMind może mieć duże znaczenie dla przyszłych systemów weryfikacji treści. Dotyczy to zarówno kwestii identyfikacji autorstwa treści, co nieodzownie przydałoby się Google w kontekście wyszukiwarki, ale także problematyki etyki i dezinformacji. Systemy AI, które potrafią generować wiarygodne i faktograficznie poprawne odpowiedzi, mogą stać się ważnym narzędziem w walce z tymi zjawiskami.