OpenAI aktualizuje interfejs moderacji API

Pod koniec września OpenAI poinformowało o sporej aktualizacji specjalnego interfejsu Moderation API. Platforma, która korzysta z modeli sztucznej inteligencji OpenAI, dedykowana jest do wykrywania szkodliwych informacji i zarządzania publikowanymi treściami w środowisku API. Od teraz interfejs działa w oparciu o szybki moduł GPT-4o, który umożliwia programistom tworzenie jeszcze dokładniejszych systemów moderacji. Zobacz, czym jest interfejs moderacji API od OpenAI i na czym polegają główne zmiany!

Aktualizacja Moderation API OpenAI

OpenAI aktualizuje interfejs moderacji API z nowym modelem multimodalnym. Najnowszy model moderacji, omni-moderation-latest, dostępny jest już w sekcji API OpenAI. Bazuje on na GPT-4o, który jest bardziej precyzyjny w wykrywaniu szkodliwych treści tekstowych i obrazów, umożliwiając programistom budowanie bardziej solidnych systemów moderacji.

Wykorzystanie nowego modelu to naturalny krok w tworzeniu specjalistycznych interfejsów API, które OpenAI rozwija równolegle. Nowy model, oparty na GPT-4o, obsługuje zarówno tekst, jak i obrazy. Jest bardziej precyzyjny od poprzedniego zwłaszcza w modowaniu treści w innych językach, niż angielski. Podobnie jak poprzednia wersja omni-moderation-latest wykorzystuje klasyfikatory oparte na GPT do oceny, czy treści powinny być oznaczone w kategoriach niebezpiecznych, takich jak np. nienawiść, przemoc czy samookaleczenie.

Model ma mieć też nową możliwość polegającą na wykrywaniu niezidentyfikowanych wcześniej i nieklasyfikowanych do poszczególnych grup zagrożeń treści szkodliwych lub niebezpiecznych. Ocena bazuje na skalibrowanych wynikach prawdopodobieństwa uzależnionego od szeregu odgórnych czynników. Nowy model moderacji jest dostępny za darmo dla wszystkich programistów poprzez API Moderacji.

Jak działa interfejs moderacji API?

Automatyzacja systemów moderacji to jedna z nisz, którą OpenAI nieustannie rozwija od samego początku modeli GPT. Moderation API był jednym z pierwszych modułów API i został zaprezentowany już pod koniec 2022 roku. Od tamtego czasu interfejs wielokrotnie się zmieniał. Coraz więcej aplikacji wykorzystuje interfejsy API do sterowania i kontrolowania treści, w związku z czym moduły muszą radzić sobie z bardziej zniuansowanymi dziedzinami i nowymi wyzwaniami.

Moderation API działa na w poziomie input -> output. W momencie, gdy pojawia się treść (input) przechodzi ona przez szereg procesów detekcyjnych, który zadaniem jest zweryfikowanie jej charakteru i znaczenia. Moduły moderacji od OpenAI oceniają między innymi to, czy dana treść ma charakter seksualny, czy wykazuje cechy mowy nienawiści, czy jest przemocowa bądź promuje niepożądane zachowania (np. autodestruktywne).

Punkt końcowy Moderation API został wyszkolony tak, by pomagać programistom korzystać z gotowych klasyfikatory oceny treści. Dzięki temu zakres weryfikacji może być zmieniany w zależności od potrzeb użytkownika. Interfejs moderacji może działać z różną czułością, pozostając wrażliwym w kontekstach tego wymagających, jak i ścisłym w zakresie wyznaczonych tematów. OpenAI udostępnia interfejs moderacji API za darmo dla wszystkich użytkowników, którzy korzystają z dowolnej, płatnej wersji API.

Schemat Moderation API
Moderation API od OpenAI pozwala na inteligentne analizowanie treści i obrazów pod kątem naruszeń polityki bezpieczeństwa.

Najważniejsze zmiany w nowym interfejsie API

Interfejsy API wykorzystywane są nie tylko do obsługi forów i modułów komunikacyjnych. Grammarly używa Moderation API od OpenAI jako części zabezpieczeń w swoich narzędziach wspomagających komunikację A.I. ElevenLabs wykorzystuje moduł wraz z wewnętrznymi rozwiązaniami do skanowania treści generowanych przez swoje produkty audio, zapobiegając i oznaczając treści, które naruszają ich politykę. Zastosowania interfejsów moderacji API z czasem stają się coraz rozleglejsze, co ma być zresztą jedną z przyczyn odpowiadających na pytanie, dlaczego OpenAI aktualizuje teraz interfejs.

Najnowsza aktualizacja wprowadza następujące zmiany do interfejsu moderacji API:

  • multimodalna klasyfikacja szkodliwych treści – nowy model może oceniać w aż 6 kategoriach prawdopodobieństwo, czy dany obraz, tekst lub obraz w połączeniu z tekstem zawiera szkodliwe treści.
  • nowe kategorie szkodliwych treści dla materiałów tekstowych – zaktualizowany model moderacji może wykrywać szkodliwe treści w nowych kategoriach: illicit, obejmującej instrukcje lub porady dotyczące popełniania przestępstw (np. frazy pt. „jak kraść w sklepie”) i illicit/violent, która obejmuje te same treści, ale bardziej związane z przemocą.
  • dokładniejsza weryfikacja treści w innych językach, niż angielski – najnowszy model lepiej radzi sobie z wykrywaniem treści szkodliwych i niebezpiecznych, które pisane są w innych językach, niż angielski. Wynika to z zastosowania modelu GPT-4o. W teście, który obejmował wykorzystanie 40 najpopularniejszych języków świata, nowy model poprawił swoją dokładność identyfikowania zagrożeń o 42% w porównaniu do poprzedniego modelu. W przypadku mniej popularnych języków, np. khmerski czy swati, OpenAI deklaruje poprawę dokładności rzędu 70%. W przypadku grupy języków najpopularniejszych na świecie (do tego grona OpenAI zalicza także język polski) model omni-moderation-latest wykazuje wyższą dokładność, niż dokładność starszego modelu w przypadku języka angielskiego.
  • kalibracja wyników – model został wielokrotnie kalibrowany, a jego rezultaty dokładniej odzwierciedlają prawdopodobieństwo, że dana treść narusza odpowiednie polityki. Ponadto wprowadzono rozszerzenie dla opcji samodzielnego kalibrowania zagrożeń.
text-moderation-007 vs omni-moderation-latest multi-lingual performance
Skuteczność zaktualizowanego systemu moderacji znacznie przewyższa poprzedni.

OpenAI aktualizuje interfejs moderacji – podsumowanie

Systemy moderacji treści oparte na AI są znacznie skuteczniejsze w identyfikowaniu różnych zagrożeń i naruszeń polityki bezpieczeństwa. Najnowsze rozwiązania nie mają już nic wspólnego z dawnymi systemami służącymi do “wyłapywania” określonych słów kluczowych wpisanych na czarną listę. Moduły moderacji API nie muszą całkowicie zastępować moderatorów, ale znacznie odciążają ich pracę, identyfikując oczywiste naruszenia bezpieczeństwa w trybie 24/7.

Najnowsza aktualizacja jest szczególnie istotna dla programistów z Polski i innych państw, które wcześniej nie miały takiego wsparcia językowego. Wersja bazująca na GPT-4o, omni-moderation-latest, wykazuje wysoką skuteczność w przetwarzaniu i identyfikowaniu zagrożeń w 40 językach świata, w tym polskim. Skuteczność ta jest nawet wyższa od efektywności pracy w języku angielskim poprzedniego modelu.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *