Wyszukiwanie ChatGPT nie radzi sobie z cytatami i źródłami. Miażdżące wyniki analizy Tow Center

Wyszukiwanie w sieci, ChatGPT Search, nie podaje prawidłowych źródeł cytatów i gubi się w identyfikowaniu, skąd pochodzą informacje. Ma również olbrzymie problemy z rozpoznaniem oryginalnych prac, które myli z plagiatami. Najnowsze badanie przeprowadzone przez Tow Center (Uniwersytet Columbia) nie pozostawia złudzeń. Chociaż główny chatbot OpenAI, bazujący na architekturze Transformer i module atencji, staje się coraz lepszy, w niektórych obszarach popełnia te same błędy, co dwa lata temu. Badanie stanowi fundamentalny dowód na to, że korzystanie z modeli językowych do poważniejszych zadań, np. pisaniu publikacji naukowych, może być bardzo niebezpieczne. Przyglądamy się wynikom badania Tow Center i sprawdzamy, czy z ChatGPT faktycznie jest tak źle, jak sądzą autorzy!

Wyszukiwanie ChatGPT i problemy licencyjne

Funkcja Search w ChatGPT, która upodabnia moduł AI do wyszukiwarek internetowych, zadebiutowała wraz z komunikatem prasowym OpenAI, w którym firma podkreślała intensywną współpracę z branżą medialną. Fundacja OpenAI zadeklarowała nawiązanie współpracy z głównymi gigantami mediowymi i chociaż szczegóły tych umów nie zną znane, tajemnicą Poliszynela jest to, że dotyczą one udostępniania zasobów mediów do trenowania modeli sztucznej inteligencji. Mowa jest o niebagatelnych zasobach, bo bazy np. ”The Washington Post” czy “Financial Times” obejmują miliardy wydań elektronicznych popularnych i mniej znanych prasówek.

Dlaczego o tym przypominamy? Powód jest prosty: umowy licencyjne. W momencie, gdy ChatGPT ujrzał światło dzienne, pod koniec 2022 r., sytuacja z wykorzystaniem zasobów danych przez modele AI była zupełnie niejasna. W praktyce OpenAI (i inne firmy, np. Perplexity) wykorzystywało nagminnie zasoby sieciowe pomimo obowiązujących licencji i praw autorskich. Teraz jest lepiej, bo wraz z ostatnimi zmianami OpenAI zastrzega respektowanie informacji, jakie znajdują się w pliku robots.txt, gdzie właściciele stron mogą zaznaczyć, że nie udostępniają strony dla crawlerów modeli sztucznej inteligencji. Okazuje się jednak, że i to jest jedynie zabezpieczeniem iluzorycznym.

Najnowsza analiza Tow Center (Uniwersytet Columbia) wskazuje, że pomimo nowej polityki licencyjnej w praktyce ChatGPT nierzadko prezentuje treści wydawców bez ich zgody. Co gorsze, wielokrotnie popełnia błędy atrybucji, przypisując lub przedstawiając dane treści do nieprawidłowego źródła. Dzieje się to niezależnie od tego, czy strony internetowe konkretnych mediów i ogólnodostępne bazy danych online zezwalają na dostęp do robotów, czy nie.

Miażdżąca analiza Tow Center – ChatGPT podaje w większości błędne odpowiedzi

Okazuje się, że wyszukiwarka ChatGPT nie podaje prawidłowo źródeł wiadomości niezależnie od tego, czy wydawcy zezwalają na jej indeksowanie, czy je blokują. Często odsyła do treści niepoprawnych i do plagiatów, zamiast do oryginalnych źródeł. Wielokrotnie podaje także niespójne wyniki dla identycznych wyszukiwań.

Badanie ma ogromne znaczenie, bo całkowicie podważa twierdzenia OpenAI dotyczące współpracy z wydawcami. Pomimo oficjalnych zapewnień funkcja Search w ChatGPT ma problemy z dokładnym cytowaniem wiadomości. Raport wykazuje częste błędy cytowania, atrybucji i rozumienia przywoływanych treści.

Oceniając umiejętności wyszukiwarki ChatGPT do identyfikowania źródeł cytatów, Tow Center wykorzystało 20 różnych publikacji z renomowanych czasopism naukowych oraz tytułów prasowych. Badanie obejmowało 200 promptów odnoszących się bezpośrednio do treści czasopism. Wnioski z badania są niezwykle pesymistyczne. Najważniejsze ustalenia to:

  • spośród 200 zapytań aż 153 odpowiedzi generowanych przez ChatGPT było niepoprawnych merytorycznie,
  • ChatGPT rzadko przyznawał się do popełnienia błędu / nie widział, że popełnia błąd,
  • Jedynie w 7 przypadkach ChatGPT użył sformułowania “prawdopodobnie” w podawanej odpowiedzi.

Nadrzędny wniosek z badania dotyczy sposobu działania ChatGPT. Model AI częściej stawiał zadowolenie użytkownika na pierwszym miejscu kosztem dokładności i merytoryczności. Skutkowało to częstym wprowadzaniem w błąd użytkownika. Ponadto badacze odkryli, że wyszukiwarka ChatGPT jest niespójna, gdy zadaje się to samo pytanie wielokrotnie, prawdopodobnie z powodu losowości wbudowanej w model językowy oraz liczne problemy z tzw. halucynacjami.

ChatGPT popełnia poważne błędy w cytowaniach i atrybucji
ChatGPT popełnia poważne błędy w cytowaniach i atrybucji. Źródło: Columbia Journalism Review.

Identyfikacja źródeł do poprawy

Aby sprawdzić, jak OpenAI podchodzi do przestrzegania licencji i praw autorskich wydawców, zespół z Tow Center sprawdził losowo wybrane media internetowe dwudziestu wydawców. W analizowanej grupie znajdowały się różne podmioty – zarówno te, które posiadają umowy licencyjne zawarte z OpenAI, te które które ich nie posiadają, a także media, które toczą obecnie prawne działania przeciwko firmie w związku z naruszeniem praw.

Zadanie polegało na zleceniu chatbotowi identyfikacji źródeł cytatów z dziesięciu różnych artykułów od każdego z wydawców. Wybrano takie fragmenty artykułów dziennikarskich, wpisów i prac naukowych, które po wklejeniu do Google lub Bing zwracają artykuł źródłowy wśród trzech pierwszych wyników. Oznacza to, że źródła te są nie tylko ogólnodostępne, ale również niezwykle popularne i nie ma żadnych problemów ze znalezieniem ich oryginalnych wersji. Test taki umożliwiał ocenić zdolność ChatGPT do weryfikacji oryginalnych plików i wyszukiwania w sieci w czasie rzeczywistym.

Wyniki nie napawają optymizmem. Wydawcy i autorzy mogą być zaniepokojeni, bo chociaż OpenAI podkreśla zdolności ChatGPT do dostarczania użytkownikom „aktualnych odpowiedzi z linkami do odpowiednich źródeł w sieci”, wciąż nie zapewnia dokładności cytowań. Eksperyment unaocznił poważne problemy polegające na tym, że treści od wydawców były błędnie cytowane. Problemy widać zarówno na płaszczyźnie samego cytatu (przekręconego słowa, błędny szyk zdań, dodane wymyślone zdania przez ChatGPT), jak i atrybucji źródła.

ChatGPT robi błędy, ale przynajmniej jest pewny swego

W raporcie końcowym badacze przyznają, że spodziewali się, że ChatGPT może mieć trudności z udzieleniem dokładnych odpowiedzi na niektóre zapytania, biorąc pod uwagę, że ok. 40 z 200 źródeł cytatów pochodziło od wydawców, którzy zablokowali dostęp robotów wyszukiwarki. Zastanawiające jest jednak to, że pomimo niezdolności do udzielenia poprawnej odpowiedzi ChatGPT prezentował treści z widocznym przekonaniem, jakoby były one w pełni prawidłowe.

Z testów wynika, że ChatGPT jest bardzo pewny swoich odpowiedzi, choć przeważnie są one błędne
Z testów wynika, że ChatGPT jest bardzo pewny swoich odpowiedzi, choć przeważnie są one błędne. Źródło: materiały Tow Center na Github, za: Columbia Journalism Review.

Widać, że dbanie o komfort użytkownika jest dla ChatGPT istotniejsze, niż dbanie o dostarczenie prawidłowych informacji. Chatbot częściej „wymyślał” odpowiedź, niż przyznawał, że nie może jej znaleźć. W sumie ChatGPT udzielił częściowo lub całkowicie błędnych odpowiedzi w 153 przypadkach, przy czym tylko 7 razy przyznał się do braku możliwości dokładnego udzielenia odpowiedzi. W tych siedmiu przypadkach ChatGPT użył słów i wyrażeń kwalifikujących do grupy odpowiedzi niepewnych, np. „wydaje się”, „to możliwe” lub „mogło być”, albo stwierdzeń jednoznacznie odmownych, np. „nie udało mi się zlokalizować dokładnego artykułu”.

Oznacza to, że sumarycznie ChatGPT przyznaje się do braku możliwości znalezienia informacji tylko w 3,5% odpowiedzi. Z kolei ponad 75% odpowiedzi zostało wygenerowanych z błędami. ChatGPT rzadko odmawia udzielenia odpowiedzi i zamiast tego tworzy fałszywe twierdzenia, gdy nie potrafi zidentyfikować poprawnego źródła. W kontekście tych statystyk problemem jest jednak nadmierna “pewność siebie” modelu OpenAI. Brak przejrzystości co do pewności udzielanej odpowiedzi może utrudniać użytkownikom ocenę, czy dana odpowiedź jest wiarygodna, czy nie, a ChatGPT po prostu stara się nas przekonać do tego, że odpowiedź jest odpowiednia.

Nadmierna “pewność siebie” ChatGPT może zaszkodzić reputacji wydawców. Twórcy badania podają przykład błędnego przypisania listu do redakcji czasopisma „Orlando Sentinel” do artykułu z „Time”. W przypadku delikatnych i kontrowersyjnych tematów błędy atrybucji mogą oznaczać dla niektórych mediów utratę wiarygodności. Użytkownik, który wierzy we wiarygodność prezentowanych wyników, może stracić zaufanie do niektórych cytowanych błędnie źródeł, a nie do ChatGPT.

Błędy atrybucji, cytowanie plagiatów – media bezbronne

OpenAI szczyci się tym, że „łączy użytkowników z oryginalnymi, wysokiej jakości treściami z sieci”. W praktyce jednak brak dostępu do wielu treści blokowanych przez strony internetowe powoduje, że ChatGPT podaje nieprawdziwe informacje. Przykładem jest analiza artykułów “The New York Times”, gazety, która toczy obecnie spór sądowy z OpenAI i która zablokowała dostęp do wszystkich swoich stron dla crawlerów AI. Teoretycznie więc ChatGPT nie powinien mieć możliwości cytowania publikowanych tam artykułów. Okazuje się jednak, że nie ma problemu z omijaniem tych wytycznych.

Autorzy badania poprosili o wskazanie źródła cytatu z obszernego artykułu “Timesa”. Zamiast odmówić odpowiedzi ChatGPT przypisuje pochodzenie artykułu do innej witryny. Strony internetowe, które nie blokują crawlerów, również są często błędnie cytowane. ChatGPT ma olbrzymie problemy z identyfikacją źródeł cytatów, a w sytuacji, gdy prawdopodobnie po prostu nie ma informacji wymaganych do udzielenia prawidłowej informacji, wymyśla swoją odpowiedź.

Kolejnym mankamentem jest brak zabezpieczeń w wykrywaniu plagiatów. Proszony o podanie źródeł cytatów, ChatGPT wielokrotnie wskazywał na strony internetowe o niskiej wiarygodności, które nielegalnie przekopiowuje treści z mediów subskrypcyjnych. Strony te w sposób oczywisty łamią prawo autorskie, aby pozyskać ruch. ChatGPT nie identyfikuje takich witryn jako ani niebezpieczne, ani nielegalne. Wprost przeciwnie: potrafi uznać je za wiarygodne źródła informacji. W trakcie testów ChatGPT wskazał m.in. zduplikowaną wersję artykułu „MIT Tech Review” zamiast oryginalnej.

Media są obecnie całkowicie bezbronne i nie mają żadnych narzędzi, aby przeciwdziałać takim praktykom. Może to oznaczać jeszcze większy przyrost ruchu stronom niekanonicznym, replikującym wybrane informacje w nielegalny sposób, kosztem utraty ruchu na stronach macierzystych oryginalnych wydawców.

ChatGPT za źródło informacji często podaje serwisy, które nielegalnie przekopiowują treści z mediów subskrypcyjnych
ChatGPT za źródło informacji często podaje serwisy, które nielegalnie przekopiowują treści z mediów subskrypcyjnych. Źródło: Columbia Journalism Review.

Wysoka temperatura modelu nie sprawdza się w wyszukiwaniu

ChatGPT ma talent, jeśli chodzi o wielokrotne wprowadzanie w błąd. Kiedy wielokrotnie wpisano prompty pytające, w różnych oddzielnych sesjach, większość wyników zwracanych przez ChatGPT była zupełnie inna. Ta niespójność prawdopodobnie wynika z domyślnego ustawienia „temperatury” modelu językowego GPT-4. Parametr temperatury modelu odpowiada za kontrolowanie poziomu losowości odpowiedzi. Wyższe wartości prowadzą do bardziej zróżnicowanych, losowych wyników, podczas gdy niższe wartości skutkują bardziej przewidywanymi, konkretnymi i powtarzającymi się odpowiedziami.

W przypadku zadań polegających na atrybucji źródeł wysoki wskaźnik temperatury sprawia, że model jest praktycznie bezużyteczny. Przy ustawieniu tego parametru na wysokim poziomie ChatGPT poświęca całkowicie merytorykę, spójność i procesy weryfikacji źródeł na rzecz oryginalności, kreatywności i różnorodności odpowiedzi. Autorzy badania wskazują, że chociaż różnorodność źródeł może być w niektórych zadaniach cenna, jej priorytetyzowanie nad poprawnością lub trafnością prowadzi do poważnych błędów w wynikach. To kolejny czynnik, który cały czas osłabia cytowania i wyniki stron internetowych wydawców mediów.

Ograniczona skuteczność ChatGPT

Wiarygodność odpowiedzi udzielanych przez ChatGPT jest wyłącznie iluzoryczna. W przeprowadzonym badaniu żaden wydawca z analizowanej puli nie uniknął błędów atrybucji źródeł.

Fragment wyników przeprowadzonych testów pokazujący skalę błędów atrybucji OpenAI
Fragment wyników przeprowadzonych testów pokazujący skalę błędów atrybucji OpenAI. Źródło: materiały Tow Center na Github, za: Columbia Journalism Review.

Powyższa tabela pokazuje stopień powiązania każdego z wydawców z OpenAI, to, czy ich treści były dostępne dla robotów OpenAI za pośrednictwem pliku „robots.txt” i jaka była dokładność ChatGPT w procesie odwoływania się do ich treści. Ten ostatni parametr mierzono na podstawie tego, czy chatbot poprawnie wskazał nazwę wydawcy, adres URL i datę artykułu. Odpowiedzi klasyfikowano do trzech grup: poprawnych, częściowo poprawnych i błędnych cytowań dla każdego wydawcy. Skuteczność modelu w tym przypadku oscyluje wokół poziomu ok. 50%. Oznacza to, że prosząc ChatGPT o wykonanie takiego zadania, możemy równie dobrze rzucić kostką, aby oszacować, czy zostanie ono zrobione poprawnie, czy nie…

Poważne problemy wyszukiwania ChatGPT – podsumowanie

Przedstawione wyniki badania Tow Center nie pozostawiają suchej nitki na efektywności ChatGTP w pracach z materiałami prasowymi i naukowymi. Model nie tylko znacznie częściej wprowadza użytkowników w błąd, niż podaje prawdziwe, wiarygodne informacje, ale wykazuje przy tym niezwykłą “pewność siebie”. To właśnie ta cecha jest bodaj najbardziej niebezpieczna, bo skłania część użytkowników do ufania generowanym odpowiedziom, które jednak mijają się z prawdą.

OpenAI zareagowało na publikację Tow Center, stwierdzając, że wspiera wydawców poprzez jasną atrybucję i pomaga użytkownikom odkrywać treści za pomocą podsumowań, cytatów oraz linków. Rzecznik OpenAI oświadczył: „wspieramy wydawców i twórców, pomagając 250 milionom tygodniowych użytkowników ChatGPT odkrywać wysokiej jakości treści za pomocą podsumowań, cytatów, jasnych linków i atrybucji. Współpracowaliśmy z partnerami, aby poprawić dokładność cytowania w tekście i uszanować preferencje wydawców, w tym umożliwić sposób, w jaki są oni wyświetlani w wyszukiwarce, zarządzając OAI-SearchBot w ich pliku robots.txt. Będziemy nadal ulepszać wyniki wyszukiwania”.

Taka odpowiedź giganta świadczy jednak jedynie o tym, że nie ma żadnych technicznych przesłanek, które mogłyby podważyć wyniki badania pokazującego słabości ChatGPT. W innym przypadku zostałyby one z pewnością wymienione. Jeśli OpenAI chce współpracować z branżą medialną, dostrajać swoje modele do wykorzystywania artykułów prasowych i naukowych, powinno zapewnić, że treści wydawców będę dokładnie odzwierciedlane w ChatGPT. Masowe błędy atrybucji i dokładność cytowania na poziomie zaledwie ok. 25% z pewnością w tym nie pomogą.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *