Identyfikacja treści pisanych przez AI

Treści generowane przez sztuczną inteligencję zalewają nie tylko internet, ale także są wykorzystywane do manipulacji przekazem medialnym, robienia plagiatów naukowych czy podszywaniem się pod inne osoby. Z miesiąca na miesiąc widzimy coraz większą potrzebę wprowadzenia narzędzi, które skutecznie identyfikowałyby treści pod kątem ich autorstwa. Chociaż w praktyce opcji takich jeszcze nie ma, najnowsze badania wykazały, że można zidentyfikować treści AI na podstawie specyficznych wzorców, które zostawiają. Wzorce te umożliwiają identyfikację oraz modyfikację treści wygenerowanych przez sztuczną inteligencję. Czy to przełom w rozpoznawaniu treści AI? Zobacz, po czym odróżnisz teksty pisane przez człowieka od tych generowanych przez różne modele językowe!

Treści tworzone przez AI mają wspólne wzorce

Modele językowe pozostawiają unikalne wzorce stylistyczne, które mogą być obecne nawet po powierzchownej edycji tekstu przez człowieka. Ślady te są czymś w rodzaju lingwistycznych “odcisków palców”. Nowe badania potwierdzają, że systemy takie jak ChatGPT, Claude i inne pozostawiają swój styl w generowanych wypowiedziach. Dotyczy to zarówno tekstów tworzonych na strony internetowe, treści do książek, rozpraw naukowych czy nawet pism prawnych.

Analiza lingwistyczna pozwala na wyodrębnienie charakterystycznych cech, którymi różnią się między sobą poszczególne modele językowe. Badacze ustalili, że różne systemy AI generują teksty posiadające unikalne, identyfikowalne wzorce. Analiza tych cech pozwoliła osiągnąć 97,1% skuteczności w określaniu, który system wygenerował dany fragment tekstu. To ogromny postęp. Oznacza to, że nie tylko zaczynamy skutecznie uczyć się odróżniania, czy dany tekst został wygenerowany przez AI, czy napisany przez człowieka, ale także rozróżniać, jakie modele językowe były zaangażowane w pracę nad nim. Paradoksalnie nie byłoby możliwości identyfikowania autorstwa tekstu gdyby nie rozwój sztucznej inteligencji. Weryfikacja treści opiera się bowiem na klasyfikatorach opartych na indywidualnie dostrojonych modelach LLM.

Jak rozpoznać treści generowane przez AI?

Identyfikacja treści generowanych przez sztuczną inteligencję jest kluczowa nie tylko w kontekście SEO i rozwoju stron internetowych. Popularyzacja chatbotów AI stworzyła szereg zagrożeń, z którymi borykają się m.in. nauczyciele, lekarze, prawnicy i nie tylko. W miarę jak zasoby internetowe stają się coraz bardziej nasycone treściami generowanymi przez AI, umiejętność ich identyfikacji staje się jeszcze bardziej potrzebna.

Okazuje się, że każdy model językowy ma nieco inną składnię i stylistykę. Można oczywiście z poziomu promptu nakazać modelowi korzystanie z określonej gamy słów lub podać negatywne frazy kluczowe. NIe zmienia to jednak pewnych utartych wzorców językowych, którymi posługuje się model. Co istotne – wzorce te występują także w języku polskim i wszystkich innych językach. Model bowiem wstępnie tłumaczy prompty na język angielski, później zaś dekoduje język naturalny do poziomu języka programistycznego (stąd też tak ogromna skłonność AI do tworzenia kalek językowych). Badacze odkryli, że charakterystyczne wzorce pozostają zachowane nawet po przekształceniu tekstu, np. przez przepisywanie, tłumaczenie lub streszczanie. Oznacza to więc, że te utarte wzorce językowe są zakodowane znacznie głębiej, na poziomie semantycznym, a więc będą powtarzalne. Ich zidentyfikowanie umożliwia weryfikowanie autorstwa treści z bardzo dużą skutecznością.

Identyfikacja treści tworzonych przez ChatGPT

ChatGPT formułuje odpowiedzi w utartej konwencji charakteryzującej się powtarzalnością pewnych fraz. Ma tendencję do korzystania ze słów przejściowych, takich jak „oczywiście”, „na przykład” czy „ogólnie”. Czasami rozpoczyna wypowiedzi zwrotami typu „Poniżej znajduje się…” lub „Oczywiście!”. Okresowo stosuje również kwalifikatory, np. „typowo”, „różne” czy „szczegółowo”.

Jak większość modeli językowych, ChatGPT lubi również korzystać z najpopularniejszych odpowiedzi, która pada w branży SEO, czyli: “to zależy”. Stosowane zwroty charakteryzują się standaryzacją, co ułatwia ich identyfikację. Analiza wykazuje, że powtarzalność wyrażeń wpływa na charakterystyczny profil językowy. Jeżeli chodzi o formatowanie odpowiedzi i stylistykę, to generowane przez ChatGPT teksty często wykorzystują pogrubienie, kursywę, punkty wypunktowane oraz nagłówki. Nagłówki stosuje w typowo amerykańskim stylu, czyli pod nagłówkiem (jeśli nie sprecyzujemy inaczej w prompcie) możemy mieć tylko dwa, góra trzy zdania Często występują listy krok po kroku lub numerowanie, a także inne segmentatory, które mają na celu uporządkowanie informacji.

Identyfikacja treści tworzonych przez Claude

Claude stworzony przez Anthropic jest co prawda mniej wydajny w zadaniach matematycznych, ale może znacznie lepiej radzić sobie z generowaniem kreatywnych form. Najnowszy model, Claude 3.7 Sonnet, jest idealnym pomocnikiem dla osób, które szukają modelu do tworzenia nietuzinkowych form, np. pisania fragmentów książek czy wierszy.

Według najnowszego badania modele Claude wykorzystują pewne utarte wyrażenia, takie jak „zgodnie z tekstem”, „na podstawie” czy „oto streszczenie”. Często stosują przy tym krótsze łączniki, np. „podczas gdy”, „obie” lub „tekst”. Formatowanie jest mniej rozległe, niż w przypadku modeli od OpenAI. Opiera się zazwyczaj na prostych punktach wypunktowanych lub minimalnych listach, bez rozbudowanego formatowania markdown. Często zawiera bezpośrednie odniesienia do pierwotnego promptu lub fragmentu tekstu. Ponadto Claude charakteryzuje się raczej zwięzłym, ale bogatym językowo stylem. Tajemnicą Poliszynela jest to, że Claude jest często wykorzystywany do pisania prac naukowych.

Strony internetowe Google Gemini, Anthropic Claude i OpenAI ChatGPT widoczne na laptopie
Modele językowe mają unikalne wzorce językowe, które pomagają w identyfikacji autorstwa treści.

Identyfikacja treści tworzonych przez Grok

Grok – związany z Elonem Muskiem i X – jest jednym z najszybciej rozwijających się modeli językowych. O ile jego pierwsze wersje pozostawiały dużo do życzenia, o tyle teraz może nie dorównują, ale mogą być umieszczane w zestawieniach porównawczych obok ChatGPT czy Google Gemini czy Claude. Charakterystyczne zwroty dla tego modelu obejmują takie słowa, jak „pamiętać”, „może”, „ale także” lub „pomaga w”. Czasami zdania rozpoczynane są od słów typu „który” lub „gdzie”, co tworzy bezpośrednie stwierdzenia i jest niepoprawną kalką językową z języka angielskiego.

Jeżeli chcemy sprawdzić, czy tekst został napisany przez sztuczną inteligencję Grok, warto przyjrzeć się strukturze tekstu. Model używa nagłówków lub list numerowanych, ale znacznie bardziej sporadycznie niż ChatGPT. Częściej za to korzysta z rozbudowanych elementów markdown. Formatowanie jest prostsze, tekst bardziej minimalistyczny, mniej rozbudowany i mniej “kwiecisty”. Stylistyka jest zdecydowanie bardziej funkcjonalna.

Identyfikacja treści tworzonych przez Google Gemini

Zastanawiając się, czy dany tekst powstał przy użyciu Google Gemini, warto zwrócić uwagę na to, czy znajdują się w nim takie słowa kluczowe, jak „poniżej”, „przykład”, „na przykład” i „podsumowując”. Dobór tych zwrotów ma na celu ułatwienie odbioru treści oraz podkreślenie kluczowych informacji. Google Gemini stosuje je jednak często w sposób przesadny.

To, co wyróżnia modele Gemini od innych, to sposób integracji krótkich struktur tekstowych, przypominający markdown. Gemini korzysta z nagłówków i list wypunktowanych podobnie, jak ChatGPT, ale według analizy robi to nieco rzadziej. Gemini łączy zwięzłe podsumowania ze szczegółowymi wyjaśnieniami, przyjmując klarowny, instruktażowy ton. Bezpośrednie sformułowania, takie jak „oto jak…”, są powszechne, ale ich stylistyka zależy od promptu. Model chętnie korzysta z emotikonów w przypadku konwersacji na luźniejsze, lifestylowe tematy.

Identyfikacja treści tworzonych przez DeepSeek

Chiński model, który rzucił rękawicę OpenAI, ma jeden z najbardziej wyróżniających się sposobów tworzenia dłuższych tekstów. Treści wygenerowane przez DeepSeek poznamy przede wszystkim po korzystaniu z bardziej formalnego tonu. DeepSeek bardzo często stosuje takie słowa, jak „kluczowy”, „najważniejsze ulepszenia”, „oto podział”, „zasadniczo” oraz „itd.”. Często pojawiają się również zwroty przejściowe typu „jednocześnie” lub „także”.

DeepSeek często korzysta z list numerowanych, tworzy wypunktowania, lubi podkreślać najważniejsze frazy. Podkreślenie to jedna z głównych różnic między innymi modelami, które preferują pogrubienie zdań. Stylistyka ta nie jest jednak regularna. Styl pozostaje informatywny, eksplanatoryjny, choć zazwyczaj bardziej zwięzły niż w przypadku ChatGPT. Struktura tekstu tworzona jest w taki sposób, aby umożliwiała czytelne przedstawienie najważniejszych informacji. DeepSeek stylistycznie jest nieco bardziej “sztywnym” modelem. Można powiedzieć, że znajduje się po przeciwnej stronie względem Claude.

Identyfikacja treści tworzonych przez Llama

LLama to duży model językowy stworzony przez zespół Mety Marka Zuckerberga.Trenowana na ogromnych ilościach danych Llama zaprojektowana została nie tylko jako moduł konwersatoryjny AI, ale także agent wielu zastosowań. Charakterystyczne zwroty wykorzystywane nagminnie przez Llama obejmują takie wyrażenia, jak: „w tym”, „na przykład”, „wyjaśnienie” oraz „następujące”, które sygnalizują przedstawienie przykładów lub rozszerzenie tematu. Często odnosi się do przewodników krok po kroku lub instrukcji typu „how-to”.

Llama, choć posiada pewnego nawyki formatowania, wyróżnia się dużą zmiennością i oryginalnością. Istotne punkty często prezentowane są jako listy numerowane lub punkty wypunktowane, a prostymi nagłówkami dzielone są poszczególne sekcje.

Teksty generowane przez Llamę utrzymane są w formalnym, akademickim tonie, który może przechodzić w bardziej konwersacyjny styl przy udzielaniu instrukcji. Często zawierają głębszą analizę lub dodatkowy kontekst, włączając definicje oraz informacje tła. Jednocześnie nie są tak kompleksowe, jak odpowiedzi Claude czy ChatGPT. Stylistycznie Llamę najłatwiej pomylić z też stosunkowo formalnym DeepSeekiem.

Bot ChatGPT piszący odpowiedzi długopisem na papierze
Sztuczna inteligencja coraz lepiej radzi sobie z generowaniem zaawansowanych treści.

Humanizing AI – jak uczynić treści AI bardziej ludzkimi?

Identyfikacja treści pisanych przez AI możliwa jest tylko na podstawie wzorców składni i używanych słów. We wnioskach z badania czytamy m.in., że: „po losowym przetasowaniu słów w odpowiedziach wygenerowanych przez LLM zaobserwowano minimalny spadek dokładności klasyfikacji. Sugeruje to, że istotna część charakterystycznych cech jest zakodowana na poziomie dystrybucji słów”. Sztuczna inteligencja ma więc pewne utarte wzorce, które są trudne do usunięcia z poziomu poleceń. Jeżeli chcemy tekstowi nadać bardziej ludzkiego charakteru (ang. humanize), na ten moment konieczne są działania manualne. W innym przypadku AI zastąpi jedne przypadki wzorców innymi, które też będą osłabiać wiarygodność treści.

W celu zmniejszenia wzorców AI i sprawienia, że tekst będzie wyglądać na bardziej ludzki, możemy wykonać następujące kroki:

  • zmiany początków zdań – badania wykazały, że pierwsze słowa w treściach generowanych przez AI są najbardziej powtarzalne. AI ma tendencję do zaczynania zdań w utarty sposób. Edycja tych fragmentów pozwala uniknąć typowych, utartych wzorców.
  • zastąpienie charakterystycznych zwrotów – każdy model językowy ma pewne charakterystyczne zwroty, których nadużywa. Należy monitorować występowanie tych słów i zastępować je synonimami.
  • dostosowanie wzorce formatowania – jak pokazała analiza, każdy system AI posiada unikalne preferencje formatowania. Niektóre modele częściej robią listy wypunktowania, inne notorycznie stosują nagłówki dalszych rzędów (np. H3). Aby zmniejszyć rozpoznawalność tekstu, warto edytować formatowanie.
  • przekształcenie struktury treści – sztuczna inteligencja ma tendencję do stosowania powtarzalnej struktury treści, dlatego warto pokusić się o wprowadzenie jakichś zmian w kolejności sekcji.
  • dodanie indywidualnych elementów osobistych – do każdego wygenerowanego przez AI tekstu warto dodać własne, unikalne fragmenty. Nie muszą one być długie. Wplecenie kilku zdań w różnych miejscach bardzo mocno wpłynie na oryginalność całości.

Jeżeli wdrożymy powyższe działania, otrzymamy znacznie naturalniej brzmiący, autentyczny tekst. Warto patrzeć na oryginalność treści nie tylko pod względem samych słów, ale takżę całej struktury. Na pewno adaptacja treści do indywidualnych potrzeb zwiększa jej wartość merytoryczną i wiarygodność.

Rozpoznawanie treści generowanych przez AI – podsumowanie

Badania pokazują, że teksty generowane przez AI mocno różnią się od treści napisanych przez człowieka. Pomimo tego, że mniej więcej co kwartał mamy premierę kolejnego, nowszego modelu językowego, różnice te wciąż są zauważalne. Występują one nie tylko na płaszczyźnie słownictwa, w obrębie którego każdy model ma pewne preferencje leksykalne, ale także struktury i wyglądu treści.

Analizując, czym różnią się poszczególne modele i jakie mają utarte wzorce językowe, można łatwiej modyfikować teksty po to, aby nadać im oryginalności i wiarygodności. Rozpoznawanie autorstwa treści nie jest jeszcze w pełni możliwe za pomocą zautomatyzowanych narzędzi – i pytanie jest, czy będzie kiedykolwiek możliwe. Tym bardziej istotne jest to, aby zrozumieć metody identyfikacji charakterystycznych wzorców i samodzielnie tworzyć teksty wykraczające stylistycznie poza standardowy output chatbotów.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *