Premiera serii OpenAI o1 – nowe modele ChatGPT wydajniejsze od człowieka

OpenAI zaprezentowało najnowszą serię swoich modeli multimodalnych: OpenAI o1. Chociaż kolejne wersje GPT ukazują się nie rzadziej, niż co pół roku, tym razem istnieje spora szansa na to, że faktycznie mamy do czynienia z rewolucją. Okazuje się bowiem, że modele te przewyższają potencjał naukowców i w testach zapewniają wyższą wydajność od wszystkich innych dostępnych propozycji. Sukces OpenAI o1 wynika ze zmiany sposobu skalowania narzędzia, które teraz bazuje na interferencji. Co to wszystko oznacza i jak sprawdzają się modele o1 w praktyce? Zobacz wszystko, co wiemy o OpenAI o1 poniżej!

Modele OpenAI o1 – rewolucja, która zastąpi człowieka

OpenAI lubi nas zaskakiwać. Zrobiło to i tym razem, bo seria OpenAI o1 potrafi analizować błędy, wykonywać obliczenia i planować procesy na poziomie przewyższającym najlepszych ekspertów. Zanim jednak przejdziemy do analizy testów, warto słów parę powiedzieć o tym, czym faktycznie jest nowa seria modeli o1, a czym zdecydowanie nie jest.

Premiera OpenAI o1 to nowy rozdział w historii pracy nad A.I. oraz rozwojem modeli fundacji OpenAI. Najnowsze modele nie należą gatunkowo do serii GPT, która składa się m.in. z GPT-3.5, GPT-4o, GPT-4o mini czy GPT-4 Turbo. Chociaż wszystkie te modele, określane jako generatywna sztuczna inteligencja, bazują na architekturze Transformer, seria GPT skalowana zależnie poprzez wzrost liczby zasobów.

Modele OpenAI o1, na etapie prototypowania zwane jako Projekt Truskawka (Strawberry Project), opracowane zostały z myślą o wykonywaniu najbardziej zaawansowanych zadań obliczeniowych. Zauważalnie więcej czasu poświęcają na analizę danych, ale prezentują wyniki wielokrotnie przewyższające dokładnością umiejętności poprzedników. Wprost mówi się o tym, że to właśnie seria o1 jest pierwszą, która faktycznie może zastąpić pracę człowieka. Bo nie mówimy tu już o wykonywaniu prostych zadań związanych z generowanie treści czy podstawowego kodu programistycznego, ale samodzielnym wykonywaniu prac analitycznych na poziomie doktoratu z fizyki i matematyki. W odróżnieniu od wcześniejszych modeli seria OpenAI o1 jest w stanie kompleksowo analizować złożone problemy teoretyczne i samodzielnie znajdować ich rozwiązania, na które większość specjalistów by nie wpadła. O tym, z czego wynika najnowszy sukces Fundacji OpenAI, piszemy poniżej!

OpenAI o1 – przełom skalowania inferencyjnego

Aby zrozumieć, z czego wynika ogromny przyrost wydajności w modelach OpenAI o1, należy przeanalizować sposób skalowania modeli A.I. Skoki wydajnościowe, jakie obserwowaliśmy przykładowo między wersją GPT-3.5 a GPT-4o, wynikają przede wszystkim z dostępu do danych i infrastruktury. W pierwszym przypadku mówimy o bazie szkoleniowej, ilości przetwarzanych informacji itd. Za drugi aspekt odpowiadają wydzielone do obsługi procesów zasoby sieciowe i infrastrukturalne, takie jak ultra szybkie procesory OpenAI. Wszystko to składa się na paradygmat, który określany jest jako skalowanie zasobami. Na czym polega?

Skalowanie zasobami polega na tym, że wraz ze wzrostem infrastruktury i danych proces przetwarzania jest dokładniejszy i szybszy. Większy model, z większą liczbą danych wejściowych i bogatszym zapleczem infrastruktury wyjściowej sprawia, że moc obliczeniowa jest wyższa, a czas operacji – krótszy. Innymi słowy, dodając kolejne zaplecze danych i procesorów (mocy obliczeniowej), można skracać czas reakcji i rozszerzać zakres wykonywanej analizy. Podejście to jest jednak niezwykle kosztowne. Podczas gdy koszt każdej operacji (generowania odpowiedzi) cały czas się zwiększa, zdolność do rozwiązywania zaawansowanych problemów może pozostawać na podobnym poziomie.

Wykresy - dokładność modeli w trybie inferencyjnym jest wyższa niż w trybie treningowym.
Dokładność modeli w trybie inferencyjnym jest wyższa niż w trybie treningowym.

Najnowsze modele OpenAI o1 działają jednak inaczej, wykorzystując tzw. skalowanie inferencyjne. Jest to zupełnie inny paradygmat skalowania zdolności modeli. Dotąd, aby model był bardziej inteligentny, konieczne było skalowanie wszystkiego. Seria o1 to początek rozszerzania bazowych zdolności, np. zwiększania dostępnej mocy obliczeniowej na potrzeby wykonania danego zadania. W rezultacie model zyskuje znacznie większą wydajność bez konieczności zwiększania samych zasobów.

Dotychczas za główne przeszkody w tworzeniu lepszych modeli językowych uznawano dostępność energetyczną, koszty infrastruktury i ilość wysokiej jakości danych szkoleniowych. Skalowanie inferencyjne omija dwa główne problemy, czyli dostępność energetyczną i koszty infrastruktury. Na potrzeby działania modeli z serii OpenAI o1 firma wykorzystuje również nowy rodzaj procesorów, które charakteryzują się wysoką wydajnością, ale niższym kosztem i nieco wolniejszym czasem reakcji. Tym samym premiera OpenAI o1 to de facto nie tylko kwestia samej recenzji nowych modeli, ale przede wszystkim skoku rozwojowego w tworzeniu nowych, dokładniejszych narzędzi niższym kosztem.

Który model wybrać? OpenAI o1, o1-mini i o1-preview

Samo OpenAI określa modele o1 jako “zaawansowane modele wyciągania wniosków”. To właśnie przetwarzanie skomplikowanych danych o wysokim poziomie abstrakcyjności, bez względu na to, czy z dziedziny fizyki kwantowej, czy filozofii, jest główną umiejętnością tych modeli. Obecnie modele są już dostępne dla wszystkich subskrybentów, czyli użytkowników płatnych. Dostępu do OpenAI o1 nie mają osoby posiadające zarejestrowane konto, ale korzystające z dobrodziejstw OpenAI za darmo.

Prace nad nową serią cały czas trwają. Docelowo seria OpenAI o1 będzie składać się z 3 modeli:

  • OpenAI o1-mini – najmniejszy z modułów, które wydajność i czas reakcji (9 s) plasuje pomiędzy GPT-4o a OpenAI o1-preview; model jest mniej dokładny od innych wersji o1 i posiada wszystkie ograniczenia związane z tą serią,
  • OpenAI o1-preview – obecnie najbardziej zaawansowany z udostępnionych modeli OpenAI, którego czas reakcji wynosi średnio 31 s, a umiejętności rozwiązywania najbardziej skomplikowanych zadań są najwyższe,
  • OpenAI o1 – docelowa wersja serii o1, która ma być jeszcze w fazie testów.
OpenAI o1-mini
Docelowo model OpenAI 01-mini będzie dostępny również za darmo dla wszystkich użytkowników.

Ograniczenia nowej serii OpenAI o1

Ze względu na niespotykaną dotąd wydajność dostępne dla subskrybentów modele OpenAI o1-mini i o1-preview obwarowane są ogromnymi ograniczeniami. Użytkownicy ChatGPT Plus oraz Team mają limity tygodniowe – do 30 wiadomości w modelu o1-preview i 50 wiadomości przy użyciu o1-mini. OpenAI podkreśla, że powyższe limity mają jedynie charakter temporalny i w przyszłości zostaną zniesione. Co więcej, najprostszy z modułów OpenAI o1, wersja o1-mini, ma być docelowo dostępna za darmo dla wszystkich użytkowników. Widać tutaj podobieństwo w działaniu OpenAI do wcześniejszego udostępnienia wersji GPT-4o mini.

Znacznie mniejsze ograniczenia wprowadzono dla deweloperów korzystających z zaawansowanych wersji OpenAI z API. Grupa ta może cieszyć się limitem 20 żądań na minutę – zarówno w pracy z o1-mini, jak i lepszą wersją preview. W przypadku wersji API ograniczenia dotyczą jednak wywoływania funkcji, streamingu i wiadomości systemowych.

Wszystkie wersje OpenAI o1 mają też ograniczenia wewnętrzne. Modele nie są kompatybilne z wieloma ciekawymi funkcjami, które znamy z modeli GPT. Przykłady? Na chwilę obecną żaden z wariantów nie umożliwia załączania plików do analizy, nie jest też możliwe korzystanie z zasobów sieciowych w czasie rzeczywistym. OpenAI zaznacza jednak, że te ograniczenia również są jedynie czasowe, a w przyszłości modele te będą w pełni funkcjonalne.

Modele OpenAI o1 vs GPT-4o – porównanie

Największe różnice między modelami serii GPT i o1 polegają na wspomnianym już, odrębnym paradygmacie skalowania. Przekłada się on bezpośrednio także na wrażenia z użytkowania. Czas reakcji modeli o1 jest wielokrotnie dłuższy, w przypadku o1-preview wynosi ponad 30 s. GPT-4o generują odpowiedź na prompt błyskawicznie, ale nie są one w stanie przetwarzać zaawansowanych zadań i rozwiązywać problemów abstrakcyjnych. Porównanie funkcji i możliwości obydwu grup prezentuje poniższa tabela.

FunkcjaGPT-4oModele o1
Data wydania13 maja 202412 września 2024
Warianty modeliPojedynczy modelDwa warianty: o1-preview i o1-mini
Zdolności rozumowaniaDobra wydajnośćUlepszone rozumowanie, szczególnie w dziedzinach STEM
Benchmarki wydajności13% na Olimpiadzie Matematycznej83% na Olimpiadzie Matematycznej, dokładność na poziomie doktoranckim w STEM
Zdolności multimodalneObsługuje tekst, obrazy, audio i wideoGłównie skoncentrowany na tekście, rozwijane zdolności w zakresie obrazów
Okno kontekstowe128K tokenów128K tokenów
PrędkośćDwa razy szybszy niż poprzednie modeleWolniejszy z powodu bardziej zaawansowanego rozumowania
Koszt (za milion tokenów)Wprowadzenie: 5$; Wyjście: 15$o1-preview: 15$ za wprowadzenie, 60$ za wyjście; o1-mini: 3$ za wprowadzenie, 12$ za wyjście
DostępnośćPowszechnie dostępny w produktach OpenAIOgraniczony dostęp dla wybranych użytkowników
FunkcjeObejmuje przeglądanie internetu, przesyłanie plikówBrak niektórych funkcji GPT-4o, takich jak przeglądanie internetu
Bezpieczeństwo i zgodnośćSkoncentrowany na środkach bezpieczeństwaUlepszone środki bezpieczeństwa, większa odporność na próby obejścia systemu

Do największych podobieństw między modelami OpenAI o1 a GPT-4o zaliczymy przede wszystkim tę samą architekturę Transformer. Dzięki niej modele o1, chociaż stworzone z myślą o rozwiązywaniu działań analitycznych, również zapewniają doskonałe możliwości konwersatoryjne.

Tu jednak pojawia się inny problem: temperatura modeli. Obydwie grupy modeli mają bazowo ustawioną tę samą temperaturę generowania odpowiedzi na 1  (skala 0-1, gdzie 0 – odpowiedzi powtarzalne, wyłącznie na źródłach; 1 – odpowiedzi kreatywne, częste halucynacje). Oznacza to, że modele o1 są tak samo skłonne popełniać halucynacje i prezentować kreatywne, a więc często błędne wyniki. Pomimo tego, że OpenAI niezwykle zwiększyło wydajność bazową w nowych modelach, pozostawienie temperatury na poziomie 1 sprzyja fałszowaniu wyników. Nie jest jasne, czy w przyszłości OpenAI umożliwi użytkownikom samodzielnie dostrajać temperaturę modeli, ale z pewnością jest to bardzo pożądana opcja.

Recenzja OpenAI o1 – wyniki testów o1 wyższe od rezultatów naukowców

OpenAI o1 wykazuje najwyższe rezultaty w testach ze wszystkich modeli ze stajni OpenAI. W benchmarkach związanych z rozwiązywaniem problemów abstrakcyjnych na polu matematyki, fizyki, ale także chemii, modele o1 wykazują poziom przewyższający doktorat.

Według OpenAI o1 osiąga znakomite wyniki w testach związanych z matematyką. Model był testowany m.in.  egzaminie kwalifikacyjnym do Międzynarodowej Olimpiady Matematycznej (IMO), w której uzyskał 83% poprawnych odpowiedzi. Dla porównania – w takim samym teście GPT-4o uzyskał jedynie 13% prawidłowych odpowiedzi. Zdolności do rozwiązywania problemów matematycznych modelu były też weryfikowane w testach AIME (American Invitational Mathematics Examination), w których o1 deklasuje poprzednie modele. Wynik egzaminu AIME na poziomie 13,9 plasuje model o1 wśród 500 najlepszych uczniów w Stanach Zjednoczonych, powyżej progu kwalifikacji do Amerykańskiej Olimpiady Matematycznej.

Wyniki porównawcze testów modeli OpenAI (GPT-4o, o1-preview, o1) w trzech głównych kategoriach.
Wyniki porównawcze testów modeli OpenAI (GPT-4o, o1-preview, o1) w trzech głównych kategoriach.

W wielu wymagających benchmarkach sprawdzających zdolności myślenia analitycznego OpenAI o1 dorównuje wydajnością najlepszym specjalistom z danej dziedziny. Wzrost wydajności jest gigantyczny. Najnowsze modele osiągają tak dobre wyniki w testach MATH i GSM8K, że benchmarki te po prostu zaczynają być bezużyteczne dla dalszego różnicowania modeli. W kilku innych benchmarkach ML o1 poprawił się w stosunku do najlepszych dostępnych modeli. W porównaniu do GPT-4o model o1 uzyskuje lepsze rezultaty w 54 na 57 kategorii.

OpenAI zweryfikowało również zdolności nowych modeli w trudnym teście weryfikującym zdolność do rozwiązywania zadań z chemii, fizyki i biologii (GPQA Diamond). Aby porównać wyniki modeli z odpowiedziami udzielanymi przez ludzi, w teście brali udział naukowcy ze stopniami naukowymi doktora (PhD). Okazało się, że OpenAI o1 wypadł w teście lepiej od naukowców, stając się tym samym pierwszym historycznie modelem, który tego dokonał. Jak podkreśla OpenAI, wyniki te nie sugerują, że o1 jest w każdym aspekcie bardziej zdolny niż specjalista. Benchmarki pokazują jednak, że model jest bardziej biegły w rozwiązywaniu niektórych problemów, z którymi naukowiec może mieć problem.

Wyniki porównawcze testów modeli OpenAI (GPT-4o, o1-preview, o1) w zakresie różnych zdolności programowania.

Sztuczna inteligencja, która potrafi myśleć. Na czym polega łańcuch myśli w OpenAI o1?

We wpisie pt. Introducing OpenAI o1-preview OpenAI podkreśla, że nowe modele były szkolone i dostrajane tak, aby poświęcały więcej czasu na przemyślenie problemów przed udzieleniem odpowiedzi. Ma to przypominać proces myślowy, który zachodzi również u człowieka. Poprzez trening modele uczą się doskonalić swój proces myślenia, próbować różnych strategii i rozpoznawać swoje błędy.

Jedną z najbardziej innowacyjnych cech modeli o1 jest tzw. łańcuch myśli (Chain of Thought). To nowa, eksperymentalna funkcja modeli, które zanim wygenerują odpowiedź na prompt, dłużej przeanalizują wszystkie konteksty odpowiedzi i możliwe rozwiązania. Model uczy się rozpoznawać i korygować swoje błędy. Uczy się rozkładać skomplikowane kroki na prostsze, a także próbuje różnych sposobów podejścia jednocześnie. Inaczej mówiąc, OpenAI o1 przeprowadza skuteczne procesy myślowe od A do Z – podobnie, jak robi to człowiek

Niestety, sekcja łańcucha myśli nie jest obecnie widoczna dla użytkownika, więc nie wiemy, przez jakie procesy, krok po kroku, model przechodził od momentu zadania promptu do wygenerowania odpowiedzi. Na stronie OpenAI dzieli się ośmioma przykładami pokazującymi proces działania o1. Dotyczą one takich dziedzin, jak szyfrowanie, programowanie, matematyka, krzyżówki językowe, język angielski, nauki ścisłe, bezpieczeństwo i nauki medyczne.

Innowacyjną cechą nowych modeli OpenAI o1 jest tzw. łańcuch myśli. Źródło: OpenAI.
Innowacyjną cechą nowych modeli OpenAI o1 jest tzw. łańcuch myśli. Źródło: OpenAI.

Co więcej, OpenAI podkreśla, że zdolność łańcucha myśli ma ulegać niezależnej poprawie dzięki wzmocnieniu uczenia maszynowego modeli o1. Jeśli to prawda, czeka nas prawdziwa rewolucja. Już teraz, niedługo po ogłoszeniu premiery OpenAI o1, nie brakuje na Youtube materiałów naukowców, którzy sprawdzili, czy model jest w stanie zrobić to samo, co oni zrobili. Przykłady są miażdżące. OpenAI o1 był w stanie samodzielnie znaleźć nowe rozwiązania w immunologicznych badaniach leczenia nowotworów, a także rozwiązać zaawansowane problemy z astrofizyki, a to wszystko, w przeciągu kilkudziesięciu minut. Zespołom badawczym prace te zajęły kilka lat.

Premiera OpenAI o1 – wielki krok dla nauki? Podsumowanie

Uruchomienie modeli OpenAI o1-preview i o1-mini to nie tylko ważny krok dla rozwoju generatywnej sztucznej inteligencji, ale przede wszystkim krok w kierunku tworzenia nowych rodzajów A.I. W przeciwieństwie do modeli GPT, pomimo tej samej architektury i temperatury, modele serii o1 charakteryzują się miażdżąco wyższą wydajnością i skutecznością. Doskonale rozwiązują zaawansowane problemy o wysokim poziomie abstrakcyjności oraz wymagające specjalistycznej wiedzy i znajomości kontekstów. Benchmarki mówią same za siebie – sztuczna inteligencja staje się efektywniejsza od naukowców z wieloletnim doświadczeniem. Właśnie dlatego modele te, choć jeszcze dostępne w wersjach ze ścisłymi ograniczeniami, doskonale sprawdzą się w pracy badawczej. Skorzystają z nich nie tylko naukowcy, ale również szeroko rozumiany przemysł zaawansowanych technologii.

OpenAI o1 to seria, która otwiera nas na przyszłość w dziedzinie programowania A.I. Wprowadzenie funkcji łańcucha myśli sprawia, że choć czas generowanej odpowiedzi znacznie się wydłuża, mamy w końcu modele, które prowadzą konsekwentne, logiczne ciągi rozumowania. A.I. zaczyna umieć dostrzegać różne sposoby podejścia do rozwiązania danego problemu, a także naprawiać swoje błędy.

Premiera serii o1 to również kluczowy moment, jeśli chodzi o wzrost efektywności, dostępności i opłacalności prac nad kolejnymi modelami. Przejście z paradygmatu skalowania zasobami na skalowanie inferencyjne oznacza potężne oszczędności związane z energią i infrastrukturą potrzebną do generowania mocy obliczeniowej. To dopiero początek, bo dostępne modele nie mają funkcji znanych chociażby z GPT-4o mini i GPT-4o, polegające na przeglądaniu sieci i korzystaniu z materiałów dostępnych online. Te i wiele innych funkcjonalności ma jednak znaleźć się w końcowych wersjach wszystkich modeli serii o1. Tymczasem z niecierpliwością czekamy na udostępnienie szerszej grupie użytkowników najbardziej rozbudowanego wariantu, czyli właściwego OpenAI o1.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *