Nowe Gemini Flash 2.0 – niespodzianka od Google na Święta

Podobnie, jak rok temu, przed Bożym Narodzeniem Google wprowadza kolejną generację swoich bazowych modeli sztucznej inteligencji. Gemini 2.0 Flash, bo tak nazywa się najszybsza z nowych iteracji, wprowadza nowe standardy, które ukierunkowują Gemini bardziej na prace specjalistycznego agenta AI, niż zwykłego chatbota. Tu nawet nie ma miejsca na konkurowanie z ChatGPT czy Perplexity, bo Gemini ma stawać się narzędziem profesjonalnym, częściej wykorzystywanym m.in. w sektorze IT, w nauce i badaniach oraz w branży gamingowej. Przyglądamy się uważnie, jak działa Gemini Flash 2.0, jakie ma parametry i jakimi funkcjami potrafi zaskoczyć!

Poznaj Gemini 2.0 – nową wersję AI od Google!

Opublikowana w połowie grudnia Gemini 2.0 zapowiadana była jako nowy rozdział w rozwoju sztucznej inteligencji. Kolejna iteracja głównych modeli AI od Google ma być przełomowa pod wieloma względami. Tą premierą Google robi nam nieco niespodziankę przed Świętami, choć prawda jest taka, że jest tu żelazna konsekwencja. Ostatnia wersja Gemini była bowiem opublikowana równo rok temu. Czy tym razem również jest głośno, ale tak naprawdę bez powodu?

Google wprowadza kolejną generację swojego modelu sztucznej inteligencji, który tym razem ukierunkowany jest na pracę agentową (agents). Wyrażenie to nie ma dobrego odpowiednika języku polskim. Współpraca agentowa modelu językowego oznacza, że taki system jest zaprojektowany do działania jako inteligentny, wirtualny asystent, który może podejmować działania w naszym imieniu. Inaczej mówiąc, praca agentowa oznacza ukierunkowanie m.in. w zakresie:

  • rozumienia poleceń użytkownika (np. “przedstaw przepis na pierogi”),
  • wykonywania niezależnych działań (np. “na podstawie wyszukanych informacji napisz mail do X”,
  • reakcyjności i powtarzalności działań – model reaguje w sposób przemyślany, zapamiętuje wcześniejsze informacje, cały czas szkoląc się na podstawie aktualnych działań.

Gemini 2.0 właśnie takie jest. Ma nie tylko odpowiadać za generowanie tekstu, obrazu czy kodu programistycznego, ale przede wszystkim aktywnie pomagać użytkowników w osiągnięciu konkretnego celu – tak, jak prawdziwy, wirtualny asystent. Czy to wyzwanie się jednak Google powiodło?

Gemini 2.0 równo rok po Gemini 1.0

Oficjalny wpis Google prezentujący możliwości nowego modelu Gemini 2.0 można znaleźć na blogu Google. Artykuł zaczyna się wprowadzeniem napisanym przez Sundara Pichai, CEO Google. Zaczyna się ona od zdań: “Informacje są podstawą ludzkiego postępu. Dlatego od ponad 26 lat skupiamy się na naszej misji organizowania informacji na świecie i udostępniania ich oraz ich użyteczności. Dlatego też nieustannie poszerzamy granice AI, aby organizować te informacje w każdym wejściu i udostępniać je za pośrednictwem każdego wyjścia, aby mogły być dla Ciebie naprawdę przydatne”. Widać więc, że mamy tu do czynienia raczej ze zwykłym marketingiem, a nie konkretami.

Przydługi wstęp, w którym Pichai, jako szef Google, podsumowuje wysiłki ostatniego roku, niejako koreluje ze znaczeniem daty premiery. Gemini 2.0 pojawi się bowiem równo rok po prezentacji Gemini 1 i data ta nie jest przypadkowa, ale ma odzwierciedlać konsekwentność procesu technologicznego Google.

Przetestowanie nowej wersji Gemini 2.0 pozwala na wyciągnięcie kilku ciekawych wrażeń. Zanim jednak do nich przejdziemy, warto wspomnieć o tym, z czym w ogóle mamy do czynienia z technicznego punktu widzenia.

Gemini 2.0 Flash – parametry techniczne modelu

Gemini 2.0 to model zbudowany na bazie zaawansowanej infrastruktury sprzętowej Google, wykorzystującej procesory TPU szóstej generacji (Trillium). Jest to pierwszy przypadek, gdy cały proces treningu i inferencji modelu został przeprowadzony wyłącznie na procesorach TPU, które są teraz ogólnie dostępne dla klientów zewnętrznych. Przypomnijmy, że wcześniejsze iteracje, a także główne modele OpenAI, Perplexity czy Anthropic były szkolone z wykorzystaniem dedykowanych procesorów GPU i NPU (dostarczanych głównie przez Nvidię). Widać tu próbę wejścia na nowe obszary i jednocześnie uniknięcia konkurowania w obszarze, w którym zwłaszcza OpenAI ma ogromną przewagę technologiczną i sprzętową.

Google AI Studio
Interfejs Gemini 2.0 z Google AI Studio – poprawiono estetykę, ale dodano też szereg funkcji do manualnego ustawienia.

Według informacji ze strony Google architektura Gemini 2.0 została zaprojektowana z myślą o natywnej obsłudze danych multimodalnych. Obejmują one zarówno przetwarzanie różnych typów danych wejściowych, jak i generowanie multimodalnych danych wyjściowych. Gemini 2 ma być jeszcze lepsze w zakresie rozumienia długiego kontekstu zapytań oraz możliwości planowania i wykonywania złożonych instrukcjiw różnych odstępach czasowych. Model ma nie działać wyłącznie linearnie, ale być przygotowany do operacji powtarzalnych z jednoczesnym uwzględnieniem kontekstu i zmieniających się okoliczności. Przekładając to na konkrety, Gemini 2.0 ma znacznie pomóc w programowaniu i procesach zarządzania danymi, wykonując nie tylko różne polecenia, co samodzielnie kontrolując procesy i ich obecny stan.

Główne funkcje i wydajność Gemini 2.0

We wszystkich testach porównawczych Gemini 2.0 Flash znacznie przewyższa 1.5 Pro. Prędkość działania została zwiększona ponad dwukrotnie. Największe zmiany widoczne są jednak na płaszczyźnie multimodalności. Gemini 2.0 wykonuje m.in. takie działania, jak:

  • przetwarzanie danych wejściowych w postaci obrazów, wideo i audio,
  • generowanie własnych treści multimodalnych,
  • tworzenie obrazów zintegrowanych z tekstem,
  • zamienianie tekstu na mowę i mowy na tekst w różnych językach,
  • programowanie z wykorzystaniem zewnętrznych narzędzi (rozbudowana, natywna integracja, wykrywanie kodu),
  • współpraca z funkcjami zdefiniowanymi przez użytkowników zewnętrznych.
Testy wydajnościowe Gemini 2.0 Flash i Gemini 1.5 Pro. Źródło: Blog Google.

Jak zyskać dostęp do nowej wersji Gemini?

Obecnie Gemini 2.0 Flash jest dostępne jako model eksperymentalny. Wersja ta jest głównie przeznaczona dla deweloperów, ale skorzystać z niej może każdy. Wystarczy wybrać Gemini API w Google AI Studio / Vertex AI. Można też skorzystać z bezpośredniego odnośnika: Gemini Flash 2.0.

Jeżeli jednak interesują nas jedynie podstawowe funkcje Gemini, ograniczone przede wszystkim do trybu konwersatoryjnego, możemy śmiało skorzystać z aplikacji Gemini. Możemy ją pobrać na urządzenie mobilne lub odpalić z adresu URL na dowolnym urządzeniu: gemini.google.com. W lewym górnym rogu należy upewnić się, że wybrana została właśnie wersja 2.0, a nie poprzednia, 1.5 Pro.

Różne modele AI Gemini przedstawione na stronie internetowej
Najnowsza wersja, Gemini 2.0 Flash, została uzupełniona o modyfikacje starszych iteracji: 1.5 Flash i 1.5 Flash 8B.

Gemini jako platforma i jej główne projekty specjalistyczne

Gemini 2.0 zapewnia płynniejszą i bardziej efektywną interakcję. Wszystko to wspierają natywne możliwości interfejsu użytkownika oraz zmniejszone opóźnienia, które razem redefiniują sposób, w jaki AI może wspierać użytkowników. W praktyce nowe Gemini jest nie tylko chatbotem i asystentem, ale platformą AI, której funkcjonalność wzbogacana jest kolejnymi projektami. W chwili obecnej Google przedstawia 3 kluczowe projekty, które wykorzystują Gemini, a których praca będzie wykorzystana do udoskonalenia kolejnych iteracji:

  • Projekt Astra – prototyp uniwersalnych asystentów AI przyszłości. Projekt koncentruje się wokół funkcji wspierania użytkowników w szerokim zakresie czynności, od organizacji zadań po podejmowanie bardziej złożonych decyzji,
  • Projekt Mariner – eksperyment z interakcjami na linii człowiek-AI, który rozpoczyna się od badania nowych sposobów pracy z przeglądarką internetową,
  • Projekt Jules – zaawansowany asystent AI dla programistów, który w inteligentny sposób może wspierać deweloperów w pisaniu, debugowaniu i optymalizacji kodu.

Szczegółowe informacje o każdym z projektów znajdziesz poniżej.

Projekt Astra

Projekt Astra to prototyp uniwersalnego asystenta AI, który podlega ciągłym aktualizacjom Google. Dzięki wykorzystaniu zwiększonej wydajności Gemini 2.0 Flash Astra – według deklaracji Google – ma znacznie większe możliwości wsparcia użytkowników od pozostałych tego typu rozwiązań dostępnych na rynku.

Główne funkcjonalności Astra obejmują:

  • udoskonalone dialogi wielojęzyczne z lepszym zrozumieniem akcentów i nietypowych słów,
  • integrację z wyszukiwarką Google, usługą Lens i Mapami,
  • rozszerzoną pamięć kontekstową (10 minut w ramach sesji),
  • zmniejszone opóźnienia dzięki nowym możliwościom przesyłania strumieniowego,
  • natywne rozumienie dźwięku z opóźnieniem zbliżonym do ludzkiej rozmowy.

Mamy też szereg mechanizmów zabezpieczeń, które obejmują m.in. ochronę przed nieumyślnym udostępnianiem poufnych informacji i mechanizmy usuwania sesji w razie wykrycia nieautoryzowanych prób dostępu. Samo Gemini w swojej najnowszej odsłonie ma być wyposażone we wbudowane kontrole prywatności i systemy weryfikacji wiarygodności informacji.

Projekt Mariner

Project Mariner to prototyp badawczy wykorzystujący Gemini 2.0 Flash do interakcji człowiek-agent w środowisku przeglądarki. Z informacji z bloga Google wynika, że jako prototyp badawczy jest w stanie zrozumieć i wnioskować na podstawie informacji na ekranie przeglądarki, w tym pikseli i elementów internetowych, takich jak tekst, kod, obrazy i formularze. Informacje te system wykorzystuje za pośrednictwem eksperymentalnego rozszerzenia Chrome.

Mariner potrafi wykonywać takie czynności,  jak:

  • analizowanie i wnioskowanie na podstawie informacji znalezionych na ekranie,
  • przetwarzanie pikseli i elementów internetowych (treści,  kod, obrazy, formularze),
  • wykonywanie zadań przy użyciu eksperymentalnych rozszerzenie do Google Chrome.

W testach wydajności WebVoyager Mariner zasilany Gemini 2.0 Flash osiągnął wynik 83,5%. Projekt jest również wyposażony w niezależne zabezpieczenia, takie jak ochronę przed szybkim wstrzykiwaniem złośliwego kodu, identyfikację potencjalnie złośliwych instrukcji i zabezpieczenia antyphishingowe.

Więcej informacji o projekcie Mariner, który wydaje się być chyba najciekawszy ze wszystkich trzech i ma największe przełożenie na SEO / web developing, można znaleźć na stronie zespołu Google DeepMind.

Projekt Jules

Trzeci i – na ten moment – ostatni z głównych projektów Google związanych z Gemini 2.0 Flash to Projekt Jules. Jest to równolegle rozwijany projekt eksperymentalny zintegrowany ze środowiskiem GitHub, który również przygotowany został głównie z myślą o programistach. Jules jako oprogramowanie typu agent potrafi:

  • analizować problemy programistyczne,
  • tworzyć plany działania,
  • samodzielnie wykonywać prace programistyczne pod nadzorem dewelopera,
  • integrować się bezpośrednio z przepływem pracy GitHub.

System AI świetnie ma radzić sobie zwłaszcza z pracami w językach Python i JavaScript. Docelowo Jules ma być kimś w rodzaju “lead developera AI”, który nie tylko będzie samodzielnie programować, ale także zarządzać prostymi zadaniami wykonywanymi przez inne moduły AI.

Koncepcja miasta Metaverse i cyberpunku
Nowa wersja Google Gemini ma być bardziej przyjazna dla developerów z branży gamingowej.

Gemini 2.0 w grach i środowiskach wirtualnych

Po ostatniej iteracji, 1 / 1.5, spodziewano się jakiegoś większego ukłonu w kierunku branży gamingowej. Sektor ten bowiem też doskonale zdaje sobie sprawę z tego, jak sztuczna inteligencja może zrewolucjonizować przyszłość graczy. Jeśli ktoś nie zdaje sobie z tego sprawy, warto wygooglać eksperyment polegający na wszczepieniu ChatGPT do testowego środowiska Unreal Engine 5 (Matrix). Perspektywy graczy pod tym względem kształtują się niesamowicie dobrze.

Gemini 2.0 Flash naprawia poprzednie błędy i może zaoferować gamingowi znacznie więcej, niż swoje poprzednie iteracje. Najważniejsze z nowych funkcji wprowadzanych wraz z Gemini 2.0 to:

  • precyzyjne interpretowanie akcji dziejącej się na ekranie użytkownika (w grze) w czasie rzeczywistym,
  • oferowanie sugestii dotyczących dalszych działań w środowisku wirtualnym (np. w grze),
  • prowadzenie rozmów w czasie rzeczywistym przy uwzględnieniu szeregu założeń i trybu role-playing,
  • wykorzystywanie zasobów wyszukiwarki Google Search jako docelowych zasobów wiedzy do interakcji.

Chociaż nie dysponujemy żadnymi szczegółowymi informacjami na ten moment, Google wzmiankowo podkreśla, że trwają już prace nad testowaniem modelu w grach. Google ma współpracować m.in. z fińskim studiem Supercell. Krytycznie warto jednak zwrócić uwagę na to, że współpraca na tym polu chyba jednak nie wygląda tak różowo, gdyż Supercell nie jest studiem produkującym tytuły AAA. 

Nowe Gemini 2.0 rezygnuje z rywalizacji z ChatGPT. Podsumowanie

Gemini 2.0 Flash nie jest przełomem, który powali ChatGPT na kolana. Ale uczciwie trzeba też przyznać, że nikt tego nie oczekiwał. Zamiast tego Google wyraźnie stara się iść w kierunku bardziej niszowym i skupiać na zastosowaniach profesjonalnych sztucznej inteligencji. Obejmują one m.in. badania naukowe, szeroko rozumiany sektor IT oraz branżę gamingową.

Testy wydajnościowe i ulepszone funkcjonalności pokazują, że AI od Google nie powiedziało jeszcze ostatniego słowa. Największą zmianą jest to, czego nie widzimy gołym okiem – Gemini 2.0 bazuje na procesorach TPU Trillium, co jest odejściem od powszechnego standardu. Kluczowe osiągnięcia techniczne obejmują dwukrotnie większą wydajność w porównaniu z modelem 1.5 Pro, przy jednoczesnym zachowaniu niskich opóźnień. Model wyróżnia się możliwością przetwarzania i generowania treści multimodalnych, w tym obrazów, dźwięku i tekstu, a także natywną integracją z zewnętrznymi narzędziami.

W ramach rozwoju platformy Google wprowadza także trzy główne projekty badawcze, które dalej będą przyczyniały się do udoskonalania bazowego systemu Gemini. Uniwersalny asystent AI, Astra, agent sztucznej inteligencji działający w środowisku przeglądarki, Mariner i agent wspierający programistów, sprzężony z Github, Jules, to bogaty pakiet nowych funkcjonalności. Widać, że Google stawia tym samym kolejny krok w tworzeniu spersonalizowanych systemów profesjonalnych, w których AI będą nie tylko pomagać użytkownikom, ale także nadzorować prace pomniejszych agentów AI.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *