Jetstream, MaxDiffusion, MaxText – Google udostępnia nowe narzędzia open source dla modeli A.I.

Google udostępnia nowe narzędzia open source dla generatywnej sztucznej inteligencji. Działania Google mają jednak określony cel – mogą służyć do budowy społeczności skupionej wokół Google oraz kanalizowania rynkowego udziału pozostałych narzędzie open source. Najważniejsze udostępnione usługi, o których dowiedzieliśmy się już w trakcie Google Cloud Next 2024, to Jetstream i MaxDiffusion. Sprawdzamy, czy Google wywiązało się z obietnicy, jak można korzystać z proponowanych usług i do czego są przeznaczone!

Google udostępnia narzędzia open source do sztucznej inteligencji

Jednym z największych zagrożeń dla gigantów technologicznych zajmujących się opracowywaniem nowych modeli generatywnej sztucznej inteligencji wcale nie jest konkurencja i aspekty prawne. Wbrew pozorom bowiem największe obawy takich firm, jak Google, Microsoft czy OpenAI, dotyczą środowiska open source. Wynika to z faktu, że obecnie modele językowe mogą być tworzone de facto przez każdego. Wsparcie dotychczasowych narzędzi, w tym m.in. ChatGPT, które posiada dostęp do baz Github wykupionych przez Microsoft, stwarza okazję do tworzenia specjalistycznych narzędzi nawet przez osoby, które nie są programistami z wieloletnim doświadczeniem.

Już w trakcie niedawnej konferencji branżowej, Google Cloud Next 2024, zaprezentowano szereg nowych narzędzi, które mają na celu nie tylko usprawnienie pracy z modelami A.I., ale także rozszerzenie dostępu do zaawansowanych technologii. Google zapowiedział otwarcie drzwi dla szerszego grona programistów i badawczy, zapraszając społeczność do wdrażania własnych narzędzi i pracy we wspólnym środowisku. To istotny element zaciekłej walki o najlepsze talenty w branży IT. Po 2022 r., czyli udostępnienia ChatGPT do użytku publicznego, rywalizacja ta znacznie przyspieszyła, a Google robi, co może, aby nie stracić tempa w tym wyścigu.

MaxDiffusion – modele dyfuzyjne Google przyspieszające trenowanie modeli A.I.

Narzędzia open source wspierające moduły generatywnej A.I. mogą znacznie rozszerzać bazowe możliwości modeli językowej. Obecnie liczba potencjalnych zastosowań stale rośnie. Dla Google ma to kluczowe znaczenie, ponieważ po co najmniej średniej premierze Google Bard i równie nieciekawym starcie Google Gemini dalsze wzbogacanie wachlarza usług A.I. może pomóc w przyciągnięciu większej liczby użytkowników.

Jednym z najbardziej ekscytujących narzędzi zaprezentowanych przez Google jest MaxDiffusion. To zbiór implementacji referencyjnych modeli dyfuzyjnych, które są zoptymalizowane do działania na urządzeniach XLA, w tym na TPU Google i najnowszych chipsetach GPU Nvidii. Warto zwrócić uwagę na to, że to właśnie modele dyfuzyjne stanowią obecnie jedną z najbardziej obiecujących gałęzi w generatywnej A.I., szczególnie w kontekście generowania obrazów i innych form mediów.

MaxDiffusion jako narzędzie open source współpracujące z modelem językowym umożliwia szersze eksperymentowanie z zaawansowanymi modelami dyfuzyjnymi bez konieczności posiadania ogromnych zasobów obliczeniowych. Optymalizacja kompatybilności pod kątem różnych architektur sprzętowych sprawia, że proces trenowania i wdrażania modeli dyfuzyjnych ze wsparciem MaxDiffusion może odbywać się znacznie szybciej. Skrócenie czasu poszczególnych procesów ma fundamentalne znaczenie w obecnej fazie rozwoju sztucznej inteligencji, kiedy firmy prześcigają się nie tylko na tworzenie nowych funkcjonalności, ale także zgłaszanie nowych patentów technologicznych.

Cechy i zastosowania MaxDiffusion od Google

MaxDiffusion jako zbiór implementacji referencyjnych modeli dyfuzyjnych przeznaczony jest głównie do generowania i manipulowania obrazami oraz innymi formami mediów. W związku z tym zakres szczegółowych zastosowań oprogramowania może być niezwykle szeroki. MaxDiffusion może być używane do tworzenia realistycznych obrazów na podstawie opisów tekstowych, przez zaawansowane techniki edycji zdjęć, aż po generowanie unikalnych dzieł sztuki. Jest to możliwe dzięki architekturze opartej na sieciach neuronowych, która jest dostosowania do przetwarzania promptu w pożądane rezultaty graficzne.

Efektywność pracy zawdzięczamy m.in. implementacji różnych wariantów algorytmów dyfuzyjnych, w tym np. DDPM (Denoising Diffusion Probabilistic Models). Dzięki konstrukcji open source programiści mogą samodzielnie rozwijać i udoskonalać modele dyfuzyjne. Zaletą jest też to, że wspiera różne formaty danych wejściowych i wyjściowych, umożliwiając wszechstronne zastosowania w generowaniu różnego rodzaju mediów.

Fragment opisu MaxDiffusion z oficjalnej strony projektu w serwisie Github
Fragment opisu MaxDiffusion z oficjalnej strony projektu w serwisie Github. Źródło: Github.

Jetstream – szybsze generowanie treści

Kolejnym przełomowym narzędziem zaprezentowanym przez Google jest Jetstream – nowy silnik do uruchamiania modeli generatywnej A.I. Według oficjalnych zapewnień Google Jetstream ma oferować do 3 razy wyższą wydajność w porównaniu do takich modeli jak Gemma 7B Google i Llama 2 Meta. Porównanie do średnio wydajnych architektur pokazuje, że nie jest to wcale narzędzie o potencjale zrewolucjonizowania rynku. Głównym celem Google jest jednak wsparcie firm, startupów i organizacji w procesie tworzenia i wdrażania własnych rozwiązań z zakresu NLP. I do tego właśnie ma przyczynić się Jetstream.

Jetstream ma umożliwiać bardziej ekonomiczne skalowanie rozwiązań A.I. i oferować wyższą wydajność rozumianą jako ilość przetwarzanych danych w czasie. Nowy silnik do uruchamiania modeli generatywnej A.I., szczególnie modeli generujących tekst, działa jaka open source i jest zoptymalizowany pod kątem efektywnego przetwarzania informacji z dużych modeli językowych. Wykorzystuje takie techniki optymalizacji, jak przetwarzanie tensorowe i paralelizacja. Oprogramowanie może wykorzystywać techniki kompresji modeli dla zwiększenia wydajności i moduły do zarządzania pamięcią. Z czasem Jetstream ma oferować także więcej interfejsów programistycznych typu API, być lepiej skalowalny i kompatybilny z różnymi platformami zewnętrznymi.

MaxText – Google wprowadza nowe modele

Google nie poprzestało na udostępnieniu nowych narzędzi. W trakcie konferencji zaprezentowano także nową kolekcję rozszerzeń MaxText. Dziś, po czasie, widzimy już, że nie cieszą się one dużą popularnością, jednak Google dotrzymało słowa i można z nich korzystać. Rozszerzenia dotyczą takich modeli, jak Gemma 7B od Google, GPT-3 od OpenAI, Llama 2 od Meta, a także modeli od obiecującego startupu Mistral.

Większa różnorodność modeli pracujących w obrębie MaxText oznacza większą elastyczność i więcej możliwości dla użytkowników. Google wprowadził też łatwą możliwość przełączania pomiędzy różnymi modelami, co sprzyja wszechstronnemu zastosowaniu, a także bieżącej weryfikacji jakości wyświetlanych odpowiedzi. Rozwiązanie to ma także najnowsza wersja ChatGPT, w obrębie której – nawet w wersji darmowej – możemy przełączać między modułem GPT-3.5 a GPT-4o.

Skomplikowany render 3D chipsetu AI na płytce drukowanej ze świecącymi niebieskimi połączeniami, futurystyczne obliczenia
Platforma Hugging Face – Optimum TPU – to zaawansowana biblioteka programistyczna open source, która teraz zostanie wykorzystana przez Google.

OptimumTPU – współpraca Google z Hugging Face

Jedną z bardziej interesujących inicjatyw Google ostatnich tygodni z zakresu A.I. (poza wprowadzeniem modułu AI Overview) jest współpraca z Hugging Face. Hugging Face jest twórcą platformy do udostępniania i współpracy w zakresie rozwoju modeli uczenia maszynowego. Podpisanie porozumienia dla Google ma wiązać się z ułatwieniem powiązywania określonych zadań wykonywanych przez sztuczną inteligencję ze sprzętem TPU. 

Kluczowym obszarem współpracy jest OptimumTPU – biblioteka programistyczna służąca do optymalizacji obliczeń na jednostkach TPU (Tensor Processing Unit) zaprojektowana przez Hugging Face. Na mocy porozumienia Google zyskuje dostęp do pracy w obrębie biblioteki, co umożliwia łatwiejsze i efektywniejsze uruchamianie modeli używających deep learning na TPU. Dostęp do biblioteki może też przyspieszać procesy szkoleniowe. Biblioteka OptimumTPU  zawiera narzędzia do automatycznego podziału danych, synchronizacji i optymalizacji wydajności obliczeń na TPU.

OptimumTPU bezproblemowo współpracuje z innymi bibliotekami Hugging Face, a także z architekturą Transformers, na której opiera się m.in. ChatGPT OpenAI. Kod biblioteki został napisany w Pythonie przy wykorzystaniu popularnych frameworków deep learning, m.in. PyTorch i TensorFlow. Rozwiązanie Hugging Face zapewnia też mechanizmy synchronizacyjne, biblioteka jest dobrze udokumentowana i aktywnie wspierana przez społeczność. OptimumTPU jest zatem narzędziem, które upraszcza i przyspiesza korzystanie z jednostek TPU w projektach z zakresu deep learning. Pomimo nawiązania współpracy z Google biblioteka wciąż będzie miała charakter open source. głębokiego uczenia, integrując się z ekosystemem Hugging Face i oferując intuicyjne API dla programistów.

Implikacje dla rozwoju sztucznej inteligencji

Udostępnienie przez Google tych nowych narzędzi open source dla generatywnej AI nie ma żadnego potencjału rewolucyjnego, ale pozwala to dostrzec obecnie panujące tendencje. Widać, że Google bardziej zaczyna angażować się we współpracę z projektami open source. Nie polega to już tylko na próbie ich przejmowania, ale właśnie nawiązywania współpracy, co jest korzystne z perspektywy społeczności IT związanej z danym projektem.

Google zdaje sobie sprawę z tego, że potencjał aplikacji open source w dziedzinie sztucznej inteligencji jest nie do przecenienia. Wszystkie największe firmy technologiczne obecnie obawiają się najbardziej właśnie nie działań konkurencji, lecz wpływu rozwoju aplikacji open source, które mogą ograniczyć możliwości monetyzowania rynku.

Sieci technologiczne i komunikacja cyfrowa w biznesie z koncepcją przetwarzania w chmurze
Współpraca z wydawcami oprogramowania open source może być korzystna dla Google w związku z problemami finansowymi firmy.

Google rozwija projekty open source – podsumowanie

Narzędzia takie jak MaxDiffusion, Jetstream, rozszerzone kolekcje MaxText czy OptimumTPU, będą dodatnio wpływać na możliwości nadrzędnych usług Google. Współpraca z nowymi podmiotami sprzyja rozwojowi technologicznemu i pracy nad bieżącymi projektami Google’a. Pod tym względem szczególnie istotna jest współpraca z Hugging Face w zakresie OptimumTPU oraz Jetstream, które jest wyposażone w przetwarzanie tensorowe i paralelizacji. Oprócz tego jednak ścieżka ta może wiązać się z pozytywną budową wizerunku, bo współpraca z danym projektem open source i jego społecznością na równych zasadach to zupełnie co innego, niż przejmowanie całego projektu pod własny szyld.

Nie zmienia to faktu, że wyzwań technologicznych w obrębie rozwoju sztucznej inteligencji Google ma przed sobą bez liku. Google Gemini cierpi na problemy związane ze skalowalnością i efektywnością, a modele językowe bazujące na Lama wydają się być niewystarczające. AI Overview zaliczyło pierwszorzędną wpadkę tuż po uruchomieniu, choć jeszcze istotniejsze jest to, że koszty wprowadzenia modułu znacznie zmniejszają jego wycenę rynkową. Już teraz Google ratowało wyniki za 1 kwartał 2024 r. kolejnymi, dość spontanicznymi zwolnieniami grupowymi.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *