Open AI kończy ostatnie prace nad najnowszym systemem, który umożliwi swobodne generowanie materiałów wideo. Mowa o Open AI Sora, które ma być co najmniej tak rewolucyjne w zakresie tworzenia filmów, jak ChatGPT w zakresie generowania treści. Wykorzystuje tę samą architekturę Transformer, która umożliwia dokładne przetwarzanie promptu w celu interpretacji intencji użytkownika. W tym artykule przyglądamy się bliżej temu, jak działa Sora – bliźniak ChatGPT ds. wideo, który ujrzy światło dzienne jeszcze w tym roku!

Open AI Sora – co wiemy o projekcie?

Generowanie treści całkowicie zmieniło oblicze branży IT i branż kreatywnych, a to dopiero początek. Open AI właśnie wchodzi w kolejny etap prac nad Sorą– nowoczesnym generatorem materiałów wideo tworzonych na podstawie promptu użytkownika. OpenAI nie podało dokładnej daty, kiedy rozpoczęło prace nad Sora, ale szacuje się, że prace trwały równolegle wraz z tworzeniem ChatGPT.

Technologia opracowywana przez Open AI ma olbrzymi potencjał zarówno w zakresie kształtowania rynku, jak i komercjalizacji. Według niezależnych analiz ekonomicznych rynek narzędzi i usług umożliwiających konwersję tekst – wideo na stan 2022 roku wyceniany był na 122,5 milionów dolarów. Zgodnie z najnowszymi predykcjami w 2032 roku wartość tego rynku szacowana jest na kwotę 2 miliardów dolarów.

Sora nie jest jeszcze publicznie dostępnym narzędziem, ale w lutym Open AI rozszerzył listę podmiotów, które będą mogły z niego korzystać. Oprócz wewnętrznych zespołów testerskich Open AI Sora dostępna jest dla artystów wizualnych, projektantów, branży filmowej i kreatywnej. Open AI podchodzi bardzo ostrożnie do wdrażania Sory, umożliwiając rygorystyczne testowanie w kontrolowanych środowiskach.

Sora – pełny dostęp jeszcze w 2024 roku

Od lutego baza dostępu została rozszerzona. Według przecieku z 16 lutego Sora ma być w pełni dostępna jeszcze w tym roku. Jak widzieliśmy w przypadku ChatGPT, im bliżej do oficjalnego startu projektu, tym więcej dostępnych na rynku alternatyw. Nie inaczej jest i tym razem.

Pomimo tego, że programy umożliwiające generowanie wideo na podstawie treści są już na rynku, żaden z nich nie jest technologicznie związany z architekturą AI typu Transformer, ani żadną inną, która gwarantuje tak wysoki poziom interpretacji intencji użytkowników. Sora może być narzędziem, które nadal będzie napędzać innowacje i konkurencję w dziedzinie generatywnej sztucznej inteligencji. Czy to poprzez wykorzystanie modeli dostosowanych do konkretnego zastosowania, czy też przez opatentowane technologie konkurujące bezpośrednio, wielu dużych graczy w branży prawdopodobnie będzie chciało mieć udział w działaniach związanych z konwersją tekstu na wideo.

Innowacyjność Sora

OpenAI Sora to pionierski model przekształcający tekst na wideo opracowany z myślą o jak najlepszej jakości generowanych materiałów i zrozumieniu potrzeb użytkowników. Oferuje unikalne podejście do przekształcania prostych podpowiedzi tekstowych w angażujące filmy. Deklarowana długość filmów na ten moment wynosi 60 sekund i można spodziewać się tego, że w powszechnym dostępie pozostanie tworzenie bardzo krótkich materiałów. Generowanie dłuższych filmów będzie dostępne dla użytkowników premium.

To, co wyróżnia Sora spośród de facto wszystkich innych programów to wykorzystanie architektury Transformer (stąd GPT – Generative Pre-Trained Transformer) zaimplementowanej w ChatGPT. Wspomniana architektura Sory ma odpowiadać za proces przetwarzania promptu, a więc dekodowania, tokenizacji, kodowania i analizowania na wielu poziomach i wektorach. Zaawansowany model sieci neuronowej zdolny jest do przetwarzania i rozumienia danych tekstowych oraz przekształcania ich na zespół niezależnych wytycznych służących do opracowywania obrazu. Dzięki wykorzystaniu architektury Transformer Sora dekoduje wejścia tekstowe, rozumie zamierzoną treść i przekłada ją na spójne sekwencje wideo.

Open AI Sora korzysta z zaawansowanej architektury Transformer, która znana jest m.in. z ChatGPT.

Główne cechy i możliwości Sora

Na oficjalnej stronie projektu można zapoznać się z materiałami wygenerowanymi przez program. Obecny stan już teraz budzi zachwyt. O ile bez pełnego dostępu nie jest możliwa weryfikacja, na ile Sora faktycznie wiernie odczytuje prompt i przekształca go w wideo, o tyle z pewnością dostrzegalna jest najwyższa jakość tekstur. Wszystkie wygenerowane obrazy wyglądają bardzo realistycznie i cieszą wzrok bez względu na obrany rodzaj stylistyki.

Najważniejsze cechy Sora od Open AI:

Generowanie wideo z tekstu – Sora doskonale sprawdza się w przekształcaniu opisów tekstowych w wizualnie atrakcyjne treści wideo, umożliwiając użytkownikom wyrażanie swoich pomysłów za pomocą dynamicznych obrazów. Według zapewnień studia Open AI Sora ma być w stanie interpretować zapytania nie gorzej, niż ChatGPT.
Realistyczne renderowanie scen i wysoka rozdzielczość – Sora wyposażona jest w szereg silników renderowania odpowiadających za tworzenie skomplikowanych scen z wieloma postaciami, precyzyjnymi ruchami i szczegółowymi tłami, dodając warstwę realizmu do generowanych filmów.
Fizyka animacji i obiektów – osobne silniki odpowiadają za aspekty kinetyczne, optyczne i fizyczne. Całość, przynajmniej “na papierze”, przypomina uniwersum silników typu Unreal Engine.
Zaawansowana interpretacja promptu – dzięki wykorzystaniu architektury Transformer Sora jest w stanie interpretować zapytania na wielu poziomach. Jeśli ufać materiałom prezentowanym przez Open AI, już teraz widać różnicę jakościową między ich najnowszym dziełem a produktami konkurencji. Sora ma być w stanie interpretować długie, wielozdaniowe prompty i przetwarzać je na wideo.
Ogromne bazy danych – Open AI nie udostępnia dokładnych danych, ale z analiz wynika jednoznacznie, że bazy treningowe Sora są znacznie większe od baz ChatGPT. W celu zapewnienia nieograniczonych możliwości generowania różnych obiektów potrzebne było wyposażenie modelu w gigantyczne wolumeny informacji na ich temat.
Nieskończone możliwości tworzenia – Sora nie ma ograniczać się tylko do tego, co wydaje się być zdroworozsądkowe. Daje możliwość tworzenia zupełnie nowych światów. Nie ma znaczenia, czy chcemy wideo przedstawiające ruch uliczny u progu XX wieku w Nowym Orleanie, czy realistyczny pokaz maratonu zwierząt morskich jeżdżących na kolarzówkach – Sora ma być w stanie to wszystko wykonać w najwyższej jakości rozdzielczości.

Sora zmieni rynek jeszcze bardziej, niż ChatGPT?

Możliwość przekształcania nawet najbardziej wymyślnych promptów na obraz wideo stwarza zupełnie nowe możliwości. Open AI na oficjalnej stronie projektu dzieli się materiałami, które miały zostać wygenerowane przez Sora. Widać, że narzędzie ma umieć przetwarzać nawet bardzo wymagający prompt, może dostosowywać sposób ujęcia, kadrowania, scenerię i detale obiektów. Jeden z filmów zawiera długie zbliżenia na uszy wygenerowanej postaci. To również celowy zabieg. Dotychczas najtrudniejszymi elementami do odwzorowania przez A.I. były palce dłoni i właśnie uszy, z którymi Sora radzi sobie perfekcyjnie.

Użytkownik ma być w stanie determinować szereg szczegółowych parametrów, takich jak rodzaj technologii montażu i filmowania (np. taśma 35 nm). Nie trzeba też od razu wprowadzać wszystkich informacji do promptu wyjściowego, bo Sora – podobnie jak ChatGPT – może umiejętnie modyfikować już wygenerowany obraz.

Nieskończone możliwości modyfikowania wideo i doskonała jakość renderowania sprawiają, że zaczynają padać kluczowe pytania dla przyszłości branży rozrywkowej. ChatGPT spowodował exodus pracowników IT (zwłaszcza juniorów) i przedstawicieli branży kreatywnej. Sora może powtórzyć ten efekt, doprowadzając do nowych, bezprecedensowych zmian. Potencjalnie zagrożeni mogą być animatorzy, graficy komputerowi, ale także… aktorzy.

OpenAI Sora – generative artificial intelligence text-to-video model – 16.02.2024 Warsaw, Poland

Nowe możliwości, nowe zagrożenia

Już teraz można powiedzieć, że Sora zrewolucjonizuje nie tylko media społecznościowe, media internetowe, ale prawdopodobnie media w ogóle. W ślad za tymi zmianami podążają ogromne potencjalne zagrożenia. Wskazuje się przede wszystkim na nieograniczone zdolności do generowania fałszywych narracji, na co pozwala niesamowity realizm wideo tworzonych przez Sora.

Przełomowe oprogramowanie Open AI może też wyprzeć technologię deep fake. Dotychczas zmanipulowane obrazy rzekomo przedstawiające znane osobistości, np. ze świata polityki czy show biznesu, były współtworzone przy udziale autentycznych materiałów wideo. Stąd też mowa o manipulowaniu obrazem. Tymczasem Sora od Open AI jest w stanie generować praktycznie każdy pożądany obraz. I nie potrzebuje do tego przykładowych materiałów.

Oczywiście można domyślać się, że podobnie, jak ChatGPT posiada cenzurę i nie odpowie na wszystkie pytania, tak Sora nie wygeneruje wideo na każde zapytanie. Z pewnością jednak wkraczamy w epokę, w której powstanie podobne rozwiązanie, ale bez rygorystycznych zasad bezpieczeństwa.

Open AI Sora – podsumowanie

Nowe dziecko zespołu Open AI, Sora, ma być w pełni dostępne jeszcze w 2024 roku. Już teraz liczba użytkowników posiadających dostęp dynamicznie się rozszerza. Zdolności narzędzia do generowania tekstów o wysokiej jakości, zrozumienia kontekstu oraz dostarczania kompleksowych odpowiedzi na pytania doskonale sprawdzają się w generowaniu wideo. Zawdzięczamy to zastosowaniu architektury Transformer – tej samej, która znajduje się w ChatGPT i odpowiada za procesu przetwarzania języka naturalnego (NLP).

Open AI stoi jednak przed wieloma wyzwaniami. Od strony technicznej najwięcej poprawek wymagają silniki odpowiedzialne za fizykę obiektów. Widoczne są problemy np. z przenikaniem się obiektów. Jednym z kluczowych wyzwań jest to, aby rozwój Sory odbywał się w sposób odpowiedzialny i bezpieczny. Technologia wyprzedza o epokę takie rozwiązania, jak np. technologia deep fake. Konieczne jest zrozumienie potencjalnych zagrożeń oraz opracowanie strategii minimalizujących ich wystąpienie. Popularyzacja i upowszechnienie Sory może się też wiązać z zagrożeniami związanymi z kolejnym niedoborem przestrzeni wirtualnej – z roku na rok multimedia w sieci zajmują coraz więcej miejsca, a przyrost ma charakter logarytmiczny. Ostatecznie Sora może też nieźle namieszać w całej branży rozrywkowej, zarówno w mediach internetowych, jak i np. produkcji filmowej.

Open AI Sora – (kolejna) rewolucja od twórców ChatGPT?

Open AI Sora – co wiemy o projekcie?

Sora – pełny dostęp jeszcze w 2024 roku

Innowacyjność Sora

Główne cechy i możliwości Sora

Sora zmieni rynek jeszcze bardziej, niż ChatGPT?

Nowe możliwości, nowe zagrożenia

Open AI Sora – podsumowanie

Napisz komentarz Anuluj pisanie odpowiedzi

Open AI Sora – (kolejna) rewolucja od twórców ChatGPT?

Open AI Sora – co wiemy o projekcie?

Sora – pełny dostęp jeszcze w 2024 roku

Innowacyjność Sora

Główne cechy i możliwości Sora

Sora zmieni rynek jeszcze bardziej, niż ChatGPT?

Nowe możliwości, nowe zagrożenia

Open AI Sora – podsumowanie

Napisz komentarz Anuluj pisanie odpowiedzi

Sztuczna inteligencja dodana do Google Maps. Wraz z nią spersonalizowane rekomendacje

AMIE – innowacyjny system diagnostyki medycznej A.I. Co wiemy o najnowszym dziele Google Research?