Google Gemini wchodzi do gry z przytupem. Sprawdzamy, na czym polega innowacyjność A.I. od Google

Praca nad modułami językowymi wykorzystującymi zaawansowane techniki uczenia maszynowego przez ostatnie lata jest wskazywana jako główna oś rozwoju technologicznego. Po pojawieniu się Chat GPT od Open A.I. drastyczne zmiany dotknęły cały sektor IT na świecie. Prędko okazało się jednak, że nie tylko Open A.I. wypracowało swój model językowy. Niedługo później Google zaprezentowało Google Bard. Teraz na światło dzienne wychodzi Google Gemini. Na czym polega najnowszy model językowy A.I. od Google? Czy jest w stanie zdetronizować Chat GPT? Sprawdź poniżej najświeższe informacje!

Prezentacja Google Gemini – nowy moduł językowy A.I.

Kolejny przełom w zakresie rozwoju A.I.? To tak, jakby nie powiedzieć nic. 6 grudnia Google oficjalnie zaprezentowało Google Gemini – nowy moduł językowych A.I. Moduł ma być znacznie bardziej rozwinięty od obecnie znanych rozwiązań alternatywnych. Ma skutecznie pracować z różnymi rodzajami treści, m.in. tekstem (języki naturalne, języki programistyczne), obrazami, dźwiękiem, wideo i nie tylko.

Natychmiast po oficjalnej prezentacji świat nowych technologii i marketingu internetowego oszalał, zwiastując niebotyczne zmiany, jakie dokonają się w następnych miesiącach. Jest czego oczekiwać, bo programiści Google zapowiadają pełne wdrożenie Google Gemini do Google Search w 2024 roku. Już teraz jednak Google Gemini przyrównywany jest do najnowszej wersji produktu Open A.I. – Chat GPT 4.0. W dalszych częściach tego artykułu prezentujemy najnowsze porównania wydajności między obydwoma modelami językowymi.

Na konferencji zostały zaprezentowane 3 wersje Google Gemini, które różnią się zastosowaniem i możliwościami:

  • Google Gemini Nano – najlżejsza wersja przeznaczona dla urządzeń mobilnych (m.in. Google Pixel z systemem Android),
  • Gemini Pro – moduł profesjonalny zapewniający najwyższy poziom wydajności dla różnego rodzaju zadań,
  • Gemini Ultra – najbardziej zaawansowany moduł przeznaczony do kompleksowych i różnorodnych prac oraz obsługi wielu zróżnicowanych zadań jednocześnie.

Ogłoszenie Google Gemini choćby z perspektywy marketingowej staje się wisienką na torcie, która stanowi doskonałe, technologiczne uwieńczenie 2023 roku. Przyjęcie takiej daty jest nie bez znaczenia, bo oprócz ciągle rozwijającej się konkurencji Google prawdopodobnie chciał także zwiększyć sprzedaż telefonów Google Pixel Pro na koniec roku kalendarzowego (o tym fenomenie piszemy więcej w dalszej części artykułu).

Nad rozwojem Google Gemini pracowały dwa największe działy naukowo-badawcze Google: Google DeepMind i Google Research. Publikacja Gemini traktowana jest jako zwiastun największych skoków rozwojowych w zakresie prac nad A.I. naszych czasów. Sensacyjności dodają też oficjalne wypowiedzi dyrektorów Google’a. Prezes firmy, Sundar Pichai, stwierdził:

„Wierzę, że przejście, które obecnie obserwujemy w zakresie sztucznej inteligencji, będzie najgłębsze w ciągu naszego życia, znacznie ważniejsze niż wcześniejsze przejście na urządzenia mobilne lub internet. Sztuczna inteligencja ma potencjał do tworzenia możliwości – od codziennych po niezwykłe – dla ludzi na całym świecie. Przyniesie nowe fale innowacji i postępu gospodarczego oraz pobudzi wiedzę, uczenie się, kreatywność i produktywność, na skalę jakiej wcześniej nie widzieliśmy”

Gigant z Mountain View zapewnia, że Gemini to produkt charakteryzujący się niesamowitym, niespotykanym dotąd poziomem zaawansowania.

Wszystkie osoby, które chcą poznać więcej informacji technicznych na temat Google Gemini, mogą przeczytać oficjalne podsumowanie zespołu badawczego DeepMind: Gemini: A Family of Highly Capable Multimodal Models.

Od Google Bard do Google Gemini

W innym naszym artykule specjalistycznym pisaliśmy już o Google Bard – pierwszym module językowym od Google. Z naszych analiz wynika, że Bard stał daleko w tyle za czołowymi rozwiązaniami zespołu Open A.I. Posiadał jednak kilka ciekawych funkcjonalności za sprawą połączenia z systemem Google Search. Dzięki temu mógł być bardziej przydatny do niektórych prac specjalistycznych, np. weryfikacji źródeł naukowych czy znajdowania niektórych informacji.

Google Bard korzystał ze znacznie mniejszej liczby parametrów niż model Chat GPT. Po ostatniej aktualizacji z lipca 2023 r. Bard ma obsługiwać 137 milionów parametrów. Model bazuje na PaLM 2 – Pathways Language Model. Google już w lipcu zapowiedziało, że PaLM 2 pod koniec roku będzie obsługiwać 500 miliardów parametrów. W kontekście włączenia usług Gemini do Bard zapowiedź ta staje się dziś znacznie bardziej zrozumiała.

Najważniejsze cechy Google Bard, na które zwracaliśmy uwagę, to:

  • rozumowanie zdroworozsądkowe,
  • rozumowanie arytmetyczne,
  • rozumowanie kontekstowe,
  • generowanie kodu i tłumaczeń,
  • rozszerzone funkcje eksplanacyjne,
  • umiejętność “łatania luk” wiedzy.
Galati, Romania – December 6, 2023: Webpage of Google DeepMind Gemini era. The new generation of AI from Google integrated into Bard, presented on the official website.

Zgodnie z informacjami przekazanymi na konferencji Google 6 grudnia Google Bard jest teraz napędzany przez dedykowaną wersję Gemini Pro. Bard ma dzięki temu posiadać znacznie bardziej zaawansowane zdolności rozumowania, planowania i zrozumienia. Zmiana ta wpisuje się w wcześniejsze zapowiedzi Google dotyczących aktualizacji PaLM 2, choć w momencie ich wydawania szersza publiczność nie wiedziała jeszcze nic o Gemini (nazwa ta zresztą kojarzona było dotąd głównie z innym produktem Yahoo!). Bard, za sprawą aktualizacji związanej z Gemini, natychmiast zyskał też dodatkowe możliwości językowe, obsługując obecnie użytkowników z ponad 170 krajów.

Na początku 2024 roku ma zadebiutować lepsza wersja Barda – Bard Advanced, czyli moduł wspierany przez Gemini Ultra. Nie wiadomo jeszcze, czy prezentowane moduły będą ogólnodostępne, czy płatne.

Co wyróżnia Google Gemini na tle innych modułów językowych?

Przełom związany z prezentacją Gemini nie polega na liczbie obsługiwanych parametrów, ale charakteru działania nowego modułu. W przeciwieństwie do Chat GPT oraz zwykłego Barda działającego na silniku PaLM 2, Google Gemini ma charakter multimodalny. I to właśnie multimodalność modułu A.I. ma mieć charakter przełomowy. Na czym to polega?

Gemini ma mieć możliwość swobodnej, inteligentnej analizy zróżnicowanej zawartości. Sztuczna inteligencja ma radzić sobie z łączeniem różnych dziedzin i kategorii. Może wyciągać wnioski na podstawie odmiennych procesów poznawczych i analitycznych, dotyczących różnych obszarów, np. jednocześnie plików audio, plików wideo, jak i treści – pisanej w języku naturalnym lub zakodowanej. Co więcej, multimodalność Gemini polega również na zdolności do przetwarzania materiałów źródłowych. Z zapewnienień Google wynika, że Gemini ma radzić sobie z zaawansowaną analizą zawartości w sposób bardziej przypominającym proces poznawczy człowieka i odróżniający ten etap od obecnych standardów znanych z Chat GPT.

Kolejną zaletą Google Gemini jest umiejętność dokładnej analizy danych i ich streszczania. Moduł doskonale radzi sobie z porządkowaniem danych, wyciąganiem różnych właściwości, korzystaniem z funkcji programistycznych i statystycznych. Warto przy tym wziąć pod uwagę fakt, że Gemini tak samo skutecznie ma analizować zbiory zróżnicowanych danych, które uprzednio wymagają kompresji, zmiany formatu, czy dostosowania do jednego wspólnego mianownika w innym zakresie.

Pierwsze testy wydajności: Gemini Ultra vs Chat GPT 4.0

Według oficjalnych danych zespołu DeepMind Google Gemini ma mieć znacznie wyższą wydajność od Chat GPT. Model potrafi identyfikować różnego rodzaju obiekty, analizować je, porównywać z innymi, syntetyzować i charakteryzować. Ma też umiejętność rozwiązywania zagadek i rebusów. Jako model multimodalny jest w stanie pracować z wieloma danymi i nie służy jedynie do generowanie tekstu tak, jak klasyczne duże modele językowe (LLM).

Google DeepMind również podzieliło się raportem, który stwierdza, że Gemini przewyższa GPT-4.0 pod względem sześciu z ośmiu branżowych benchmarków. Porównanie prezentuje poniższa grafika:

tabela - porównanie Google Gemini w porównaniu do GPT-4
Google Gemini na płaszczyźnie analizy i generowania treści prawie pod każdym względem ma przewyższać moduł Chat GPT 4.0.

Najważniejszym kryterium jest jednak współczynnik wydajności zestawiony z wynikiem MMLU (ang. Massive Multitask Language Understanding). Parametr ten wyznacza ogólny poziom możliwości człowieka w zakresie przetwarzania zróżnicowanych zadań. Chat GPT 4.0 odnotował wynik 86,4%, znajdując się poniżej progu MMLU. Próg wynosi 89,9%. Google Gemini deklaratywnie miał osiągnąć rezultat 90% i jako pierwszy w historii model multimodalny A.I. osiągnął rezultat lepszy od bazowej wartości MMLU.

Zastosowanie Google Gemini – nie tylko generowanie treści

Aby w pełni zrozumieć, czym jest i jak działa moduł językowy Google Gemini, warto przeanalizować rekomendowane zastosowanie. Prędko okaże się bowiem, że zalety modelu przede wszystkim dotyczą tych dziedzin, w które Open A.I. nie inwestowało tak bardzo – przynajmniej w obrębie Chat GPT, bo spółka posiada na koncie także szereg innych projektów A.I.

Multimodalny moduł językowy Gemini charakteryzuje się wszechstronnością i elastycznością. W obecnej postaci Gemini nie jest botem konwersacyjnym w dosłownym tego słowa znaczeniu. Narzędzie może być jednak zaimplementowane do różnych systemów, zarówno systemów operacyjnych na urządzenia mobilne (Android), jak i do specjalistycznego oprogramowania firmowego, np. do zarządzania bazami danych w chmurze. Potwierdza to również w wywiadzie prezes Google, Pichai:

Jednym z obszarów, na których wyszukiwanie mocno się skupia, jest ogólna multimodalność. Jednak dziś muszą włożyć wiele pracy w to, aby uczynić wyszukiwanie multimodalnym. Gemini jako model fundamentalny daje im tę wbudowaną zdolność, więc myślę, że to jest obszar, w którym będziemy naprawdę innowacyjni.

Jednocześnie Google Gemini wyjątkowo dobrze radzi sobie z ogromnymi źródłami danych. W przeciwieństwie do popularnego Chat GPT 4.0 czy Microsoft Kosmos-1 jest w stanie analizować terabajtowe zbiory zróżnicowanych danych, które obejmują zarówno dane tekstowe (język naturalny, kod programistyczny), jak i dane multimedialne (zdjęcia, filmy, dźwięk, a nawet symbole czy emotikony). Stwarza to gigantyczne możliwości implementacji narzędzia w zastosowaniach profesjonalnych, zwłaszcza w prędko rozwijającym się sektorze big data.

Więcej informacji prezentuje też oficjalna strona internetowa Google Gemini. Znajdziemy na niej kilka przykładowych zastosowań Google Gemini, do których zalicza się:

  • zamiana grafiki w kod źródłowy,
  • rozumienie i interpretowanie nietypowych obrazów,
  • identyfikowanie podobieństw i różnic między materiałami wizualnymi,
  • rozpoznawanie rodzaju filmu czy muzyki po fragmencie,
  • rozumienie i identyfikowanie elementów odzieży, wystroju i nie tylko,
  • inteligentne doradztwo w zakresie np. wystroju wnętrz na podstawie zdjęć przestrzeni.

Google Pixel 8 Pro z Gemini

W ramach tzw. December Feature Drop użytkownicy smartfonów Google Pixel 8 Pro dostali nie lada prezent. Pixel 8 Pro stał się pierwszym modelem, w którym Google w ostatniej aktualizacji zaimplementowało funkcje Gemini Nano. Nano ma dwie wersje: pierwsza obsługuje 1,8 mld parametrów, druga 3,25 mld parametrów. Integracja rodzaju oprogramowania zależy od wersji Pixel 8 Pro. Najlepszy pakiet Gemini otrzymują telefony z większą ilością wbudowanej pamięci RAM.

Dzięki Gemini Nano Pixel 8 Pro może efektywniej pracować w trybie Rejestratora oraz dawać inteligentne odpowiedzi w Gboard. Skupiono się także na wykorzystaniu nowego modułu do ochrony przed zagrożeniami. Gemini ma pomagać w zapobieganiu wyciekom wrażliwych danych z telefonu i uniemożliwiać nieautoryzowane połączenie z siecią. Kolejne możliwości modułu będą z czasem odblokowywane dla użytkowników.

Kolejne integracje już w planach

Open A.I. na początkowym etapie rozwoju modułów językowych wyprzedziło działy badawcze Google. Trudno będzie jednak konkurować z gigantem o nie tylko sporej przewadze technologicznej, co przede wszystkim konkurentem z ogromnym doświadczeniem i wachlarzem produktów-usług. Przewagą Google będzie właśnie zaadaptowanie istniejących usług do warunków A.I.

Proces ten już się zaczął. Wraz z oficjalną prezentacją Gemini Google zapowiedziało integrację modułu A.I. z oprogramowaniem Google. W wywiadzie dla SearchEngineLand Pichai stwierdza, że “eksperymenty z Gemini związane z doświadczeniami generatywnymi dotyczącymi procesu wyszukiwania już mają miejsce”. CEO Google dodaje też, że “Gemini stanowi fundament – będzie działać we wszystkich naszych produktach. Wyszukiwanie nie jest wyjątkiem”.

Już 13 grudnia 2023 r. ruszy możliwość integracji Google Gemini z Google A.I. Studio i Google Cloud Vertex A.I. Wydaje się, że tylko kwestią czasu jest integracja modułu z pozostałymi usługami Google’a: Google Sheets, Google Docs, Google Business, a ostatecznie może również Google Ads i Adwords, w których to moduł może potencjalnie pomagać przy tworzeniu skuteczniejszych reklam i metod monetyzacji. Jedno jest pewne: to dopiero początek!

Google Gemini – nowe A.I. od Google. Podsumowanie

Nie ma wątpliwości co do tego, że Google Gemini od razu po premierze wyznaczyło nowe tory na ścieżce rozwoju A.I. Jest to narzędzie o innym charakterze, niż Google Bard czy Chat GPT. Jako moduł multimodalny, a nie klasyczny duży model językowy, Gemini przeznaczone jest do specjalistycznych prac z różnymi zasobami wiedzy. Może być zaimplementowane w różnych wersjach do systemów operacyjnych, oprogramowania specjalistycznego, przeglądarki internetowej i wyszukiwarki.

Gemini stanowi rozbudowaną platformę językową zdolną operować na różnorodnych rodzajach danych – tekstowych, wizualnych, dźwiękowych, wideo oraz kodzie. To przedsięwzięcie reprezentuje krok milowy w kierunku zbliżenia Google do konkurencyjnego modelu OpenAI, czyli GPT. Niebagatelne znaczenie odgrywa także integracja Geminy z Google Bard, gdyż to właśnie dzięki niej teraz Bard zyskał w końcu dodatkowe możliwości, których ewidentnie nam brakowało. Dodanie Gemini do flagowego smartfonu Google Pixel 8 Pro nie tylko jest przykładem dobrego marketingu, ale także pokazuje strategię giganta z Mountain View.

Zgodnie z cytowanym raportem Google DeepMind, Gemini przewyższa GPT-4.0 na siedmiu z ośmiu branżowych benchmarków. Przede wszystkim ma jednak wyższy współczynnik MMLU. Elastyczność, synergia z innymi narzędziami Google oraz wyniki benchmarków sugerują, że to właśnie Gemini, a nie Chat GPT, ma potencjał stać się protoplastą pierwszych zaawansowanych modułów sztucznej inteligencji. Z niecierpliwością pozostaje nam wyczekiwać dalszych informacji i na bieżąco obserwować zmiany!

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *