Tegoroczna konferencja Google I/O przebiegła spod znaku A.I. Nawet w tych zagadnieniach, które nie są bezpośrednio związane ze sztuczną inteligencją, najwięcej czasu zajęło prezentowanie rozwiązań wykorzystujących procesy generatywne. Rewolucja dzieje się na naszych oczach i Google nie ma zamiaru zwalniać. Czy czeka nas najciekawszy jak dotąd rok nowych technologii? Prezentujemy najważniejsze punkty konferencji Google I/O 2024!
Konferencja Google I/O – rozwój sztucznej inteligencji i nie tylko
14 maja odbyła się słynna konferencja Google I/O, w trakcie której zaprezentowano wiele nowości technologicznych. Zgodnie z przewidywaniami tematem przewodnim tegorocznego wydarzenia była sztuczna inteligencja. Google zaprezentowało wiele różnych projektów, przynależących do zupełnie odmiennych dziedzin, np. Google AI Music Sandbox.
Najważniejszym punktem konferencji Google I/O 2024 r. było jednak zaprezentowanie nowej wersji Google Gemini – flagowego modelu językowego, który ma być odpowiedzią Google na ChatGPT od OpenAI. Mowa o Gemini 1.5 Flash, które ma ograniczać koszty i opóźnienia, a także zwiększać wydajność pracy. Czy Google jest w stanie zyskać przewagą bądź chociaż zrównać poziom z OpenAI, które wiedzie prym, jeśli chodzi o modele generatywne A.I.?
Konferencja po konferencji: OpenAI vs Google
Nastrój przed konferencją był burzliwy, do czego przyczyniło się konkurencyjne studio z Doliny Krzemowej. Na łamach bloga pisaliśmy o tym, jak w poprzednim tygodniu OpenAI rozgrzało serwis X poprzez sugestie, jakoby w trakcie poniedziałkowej konferencji OpenAI miał zostać zaprezentowany produkt alternatywny względem Google Search. Ostatecznie jednak odbywająca się dzień wcześniej prezentacja OpenAI była pozbawiona informacji o nowym systemie wyszukiwania, a głównym punktem stało się zaprezentowanie wersji GPT-4o.
Różnic pomiędzy obydwoma wydarzeniami jest znacznie więcej i chyba wszystkie przemawiają na korzyść Google’a. Najważniejsze różnice można podsumować następująco:
- Chociaż dominującą tematyką Google I/O 2024 był model Gemini 1.5 Flash, w trakcie wydarzenia zaprezentowano też wiele innych nowości. OpenAI skupiło się zaś prawie wyłącznie na GPT-4o.
- Prezentacja OpenAI miała formę demonstracyjną i była nagrywana ze skromnego, zaaranżowanego studia. Google I/O odbyło się na żywo z kilkusetosobową publicznością i trwała prawie 2 godziny.
- W trakcie Google I/O poznaliśmy – przynajmniej oficjalne – plany Google na przyszłość. Dotyczą przede wszystkim rozwoju Gemini i implementacji tzw. agentów A.I.
Obydwie konferencje miały charakter marketingowy, dlatego jeżeli ktoś pragnie poznać więcej informacji technologicznych, dobrze zajrzeć na stronę studia DeepMind. Pełny zapis z konferencji dostępny jest na oficjalnym profilu Google na Youtube: https://www.youtube.com/watch?v=XEzRZ35urlk. Po 3 dniach od publikacji wideo ma ponad 1,3 miliony wyświetleń.
Google Gemini 1.5 Flash – nowa, szybsza wersja autorskiego modelu A.I. od Google
Gemini 1.5 Flash ma być odpowiedzią na rozwijających się ChatGPT, który od czasu powstania Google Gemini zdążył przejść aktualizację 4.0 Turbo, a 13 maja – GPT-4o. Google nie ma czasu do stracenia, jeżeli chce walczyć o udziały w tworzącym się rynku A.I. Nowy model Google Gemini 1.5 Flash wprowadza kilka znaczących zmian w porównaniu do swojego poprzednika, Gemini 1.0, które mają zwiększyć efektywność pracy z narzędziem, a także rozszerzyć jego bazowe zastosowanie.
Najważniejsze zmiany Gemini pod względem technologicznym:
- nowa architektura – Gemini 1.5 Flash wykorzystuje zaawansowaną architekturę Mixture-of-Experts (MoE), co pozwala na selektywne aktywowanie najbardziej odpowiednich ścieżek neuronowych w zależności od rodzaju danych wejściowych. Dzięki temu ma zyskać znacznie krótszy czas generowania odpowiedzi na prompt w porównaniu do poprzedniej wersji. Oprócz tego Gemini 1.5 Flash ma lepiej radzić sobie w przetwarzaniu zadań kreatywnych i liczbowych.
- okno kontekstowe – Gemini 1.5 posiada standardowe okno kontekstowe o pojemności 128 000 tokenów, co stanowi czterokrotne zwiększenie w porównaniu do 32 000 tokenów w Gemini 1.0. To jednak nie wszystko, bo wersja 1.5 wprowadza eksperymentalne wsparcie dla okna kontekstowego aż do 1 miliona tokenów (na początku dostępne tylko dla użytkowników z USA).
- przetwarzanie danych – nowy model ma mieć znacznie większe możliwości przetwarzania dużych ilości danych. Według oficjalnych informacji Google Gemini 1.5 Flash może przetwarzać do 700 000 słów, godzinę wideo, 11 godzin audio oraz bazy zawierające ponad 30 000 linii kodu.
- wzrost wydajności – wydajność nowego modelu ma być porównywalna z najbardziej wydajną wersją profesjonalną starszego modelu, tj. Gemini 1.0 Ultra. Jeszcze wyższa wydajność bazowa charakteryzuje wersję 1.5 Pro.
- rozumienie kontekstualne – nowe Gemini ma lepiej radzić sobie z interpretacją promptów wysoce uzależnionych od kontekstu rozmowy. Służyć temu miały osobne prace związane z “in-context learning”, czyli zdolnością modelu do szybkiego adaptowania się do nowych informacji w obrębie pojedynczego zapytania.
- multimodalność – wersja 1.5 ma mieć poprawione zdolności analizy i generowania odpowiedzi w różnych formatach. Poprawiono płynne przechodzenie między różnymi formatami i przetwarzanie multimodalne. Google podaje tu przykład analizy niemych filmów w celu streszczenia ich fabuły, z czym Gemini 1.5 ma radzić sobie bardzo dobrze. Model ma również umożliwiać efektywne przetwarzanie dużych bloków kodu w celu wykrywania problemów i sugerowania poprawek.
- poprawione bezpieczeństwo – w trakcie prezentacji zwrócono też uwagę na kwestię bezpieczeństwa wyszukiwania informacji i zachowania prywatności. Według zapowiedzi Google wdrożyło w testach zaawansowane techniki red-teamingu i opracowało nowe metody weryfikowania treści potencjalnie niebezpiecznych.
Warto dodać, że oprócz Gemini 1.5 Flash Google proponuje także Gemini 1.5 Pro. To wersja przeznaczona dla użytkowników specjalistycznych, przede wszystkim deweloperów. Google nie opublikowało dokładnych porównań różnic technologicznych pomiędzy wersjami 1.5 Flash a 1.5 Pro. Wiadomo, że wersja profesjonalna Gemini przewyższa lżejszy odpowiednik w testach wydajnościowych, m.in. MMLU, Natural2Code, MATH, GPQA, Big-Bench Hard, WMT23, MMMU, MathVista i FLEURS.
Gemini 1 vs Gemini 1.5 Flash – porównanie
Największą zmianą w Gemini 1.5 Flash jest zastosowanie nowej architektury Mixture-of-Experts (MoE). Zmiana implikuje dwie zasadnicze płaszczyzny: zdolność do przetwarzania danych i wydajność całego procesu. Poniżej najważniejsze różnice Gemini 1 – Gemini 1.5 Flash w tabeli:
Cecha | Gemini 1.0 | Gemini 1.5 Flash |
---|---|---|
Architektura | Tradycyjna architektura Transformer | Mixture-of-Experts (MoE) architektura |
Okno kontekstowe | 32 000 tokenów | 128 000 tokenów standardowo, eksperymentalnie do 1 miliona tokenów |
Zdolności przetwarzania danych | Dokumenty: do 250 000 słów<br>Video: do 15 minut<br>Audio: do 3 godzin<br>Kod: do 10 000 linii kodu | Dokumenty: do 700 000 słów<br>Video: do 1 godziny<br>Audio: do 11 godzin<br>Kod: do 30 000 linii kodu |
Wydajność | Podstawowa wydajność | Przewyższa Gemini 1.0 Pro w 87% testów, wydajność porównywalna z Gemini 1.0 Ultra |
Multimodalność | Podstawowe umiejętności w wielu modalnościach | Ulepszone zdolności analizy i generowania w wideo, audio, kodzie i językach |
Bezpieczeństwo i etyka | Standardowe testy etyczne i bezpieczeństwa | Rozszerzone testy etyczne i bezpieczeństwa, nowe techniki red-teamingu |
Dostępność | Dostępne dla deweloperów i klientów chmurowych | Wczesny dostęp dla deweloperów i klientów biznesowych, planowane szersze udostępnienie |
Czy Gemini 1.5 to sukces?
Przyglądając się dokładnie różnicom technologicznym, na pierwszy rzut oka widzimy wiele dysproporcji na korzyść nowszego modelu. Czy jednak różnice te są przełomowe? Czy można mówić o sukcesie nowej wersji?
Nie bez powodu zaprezentowana w trakcie Google I/O wersja Gemini 1.5 nazywa się 1.5, a nie np. 2.0. Wbrew całej marketingowej otoczki wcale nie mamy do czynienia z żadną rewolucją technologiczną. Wręcz przeciwnie. Gemini 1.5 to nic innego, jak ewolucja starego modelu – i to przebiegająca całkiem powoli, zwłaszcza w kontekście szybkiego rozwoju głównego konkurenta, OpenAI.
Na korzyść modelu przemawia zastosowanie architektury MoE i poprawa okna kontekstowego. W pierwszym przypadku mówimy o stworzeniu solidnej podstawy do skalowania potencjałem wydajności przetwarzania danych. MoE pozwala na lepszą optymalizację efektywności pracy poprzez precyzyjne przetwarzanie dużych wolumenów danych. Wadą są relatywnie wysokie koszty utrzymania modelu w obecnej formie, ale – znowu – tylko w porównaniu do architektury Transformer, na której bazuje ChatGPT. Drugim argumentem jest gigantyczne okno kontekstowe. Możliwość przetwarzania do 1 miliona tokenów w wersjach eksperymentalnych 1.5 Pro ma charakter bezprecedensowy. Pod tym względem na ten moment Gemini wyprzedza ChatGPT, ale tylko w najdoskonalszej wersji Pro, która jest niedostępna dla większości użytkowników.
Integracja z Androidem
Długo oczekiwaną zmianą było wprowadzenie pełnej integracji Gemini z systemem Android. Użytkownicy telefonów z Androidem mogli oczywiście korzystać z modułu, ale brak integracji na poziomie systemu znacznie zmniejszał potencjał i możliwości wykorzystywania tego narzędzia. Dzięki pełnej integracji Gemini 1.5 z Androidem Google może liczyć na popularyzację swojego produktu, co szczególnie istotne w kontekście danych konsumenckich dotyczących tego, jaki OS najczęściej wybierają użytkownicy. Podczas gdy iOS odnotowuje różne fluktuacje, liczba użytkowników korzystających z Androida regularnie rośnie.
Zastosowanie agentów A.I.
Gemini wprowadza również rozszerzone funkcje agentów A.I., czyli dodatkowych sieci algorytmicznych, które mają odpowiadać za integrację kompleksowych i wielopłaszczyznowych działań. Agenci A.I. to rodzaj oprogramowania w obrębie modułu, który może odpowiadać za podejmowanie określonych decyzji, wykonywać zadania i interakcje na podstawie danych wejściowych otrzymywanych nie tylko z promptu, ale także z określonych ścieżek dostępu.
Idąc dalej, agenci A.I. mogą wykorzystywać techniki takie jak uczenie maszynowe, przetwarzanie języka naturalnego (NLP), rozpoznawanie wzorców i inne zaawansowane algorytmy, aby realizować swoje cele.
Funkcja agentów AI w Gemini 1.5 polega na automatyzacji zadań i interakcji z użytkownikami poprzez zaawansowane modele sztucznej inteligencji. Agenci AI w Gemini 1.5 odpowiadają m.in. za:
- interakcje językowe – wykorzystują przetwarzanie języka naturalnego (NLP) do zrozumienia i generowania ludzkiego języka, umożliwiając naturalne rozmowy z użytkownikami,
- automatyzację zadań – agenci A.I. mogą wykonywać zadania na podstawie poleceń użytkownika, m.in. wyszukiwanie informacji, zarządzanie kalendarzem, czy przetwarzanie danych,
- personalizację – poznawanie i interpretowanie preferencji oraz nawyków konkretnego użytkownika; dostosowywanie działań do tworzonych wzorców behawioralnych,
- integracje – agenci A.I. w Gemini mają łączyć się z różnymi aplikacjami i usługami internetowymi, aby zapewnić obsługę różnych systemów. Według Google ma to być m.in. integracja z systemami pocztowymi, narzędziami do zarządzania projektami czy platformami społecznościowymi.
Music AI Sandbox i AI Overview
Kolejną nowością, która została zaprezentowana w trakcie konferencji Google I/O 2024, jest Music AI Sandbox. To oprogramowanie bazujące na sztucznej inteligencji, które ma umożliwiać użytkownikom tworzenie własnych sekcji instrumentalnych, a nawet całych kompozycji. Program opracowywany jest przez studio DeepMind, a w kampanii marketingowej wzięli udział popularni artyści, m.in. Wyclef Jean.
Trudno jednak oceniać narzędzie Google jako rewolucyjne, ponieważ i na tym polu konkurencja ma wyraźną przewagę nad Google. Na rynku dominują dwa znacznie bardziej rozbudowane “kreatory” muzyki z AI: Udio oraz Suno. Obydwa narzędzia umożliwiają szybkie stworzenie naprawdę wysokiej jakości muzyki w dowolnym stylu. Poprzez wprowadzenie instrukcji w prompcie można edytować każdy element muzyki, włączając w to tembr głosu wokalu, tonację, tempo i metrum czy gamę użytych w nagraniu instrumentów.
Drugie rozszerzenie Google, AI Overview, na pewno przypadnie do gustu tym, którzy lubią porządkować informacje i dostosowywać wyszukiwarkę do swoich potrzeb. AI Overview umożliwia szybkie generowanie streszczeń opartych na hasłach wpisanych w Google Search. Overview ma szeroki potencjał i ma upraszczać wyszukiwanie za pomocą obrazów, a nawet filmów.
Konferencja Google I/O 2024 – hit czy kit? Podsumowanie
Pomimo tego, że dzień wcześniej odbyła się prezentacja nowej aktualizacji ChatGPT, konferencja Google I/O 2024 była raczej udana. Podobnie jednak, jak w przypadku OpenAI, trudno mówić tu o rewolucji. Przed pokazem OpenAI spodziewano się zaprezentowania zupełnie nowego produktu: wyszukiwarki OpenAI, która działałaby zupełnie inaczej, niż wszystkie znane dotąd produkty, włącznie z Google Search. Tak samo przed Google I/O spodziewano się, że na światło dzienne wyjdzie nowa wersja Gemini, która rzuci rękawicę ChatGPT. Tak się jednak nie stało.
Gemini 1.5 – głównie Flash, bo wersja Pro jest ekskluzywna i niedostępna dla większości osób – jest szybsze, lepsze i wygodniejsze, ale tylko trochę. W codziennym wyszukiwaniu informacji różnic wcale nie jest tak wiele. Najważniejsze zmiany dotyczą przejścia na nową architekturę (Mixture-of-Experts) i rozbudowania okna kontekstowego.
Obydwie te zmiany są fundamentem, na podstawie którego Google będzie budować kolejne wersje Gemini, ale tu i teraz z perspektywy użytkownika wcale nie wiążą się z istotnymi różnicami jakościowymi. Na plus jest integracja z Androidem, potencjał ma też rozbudowanie i wykorzystanie funkcji agentów A.I. Wydaje się jednak, że na tak ważnej konferencji, jak Google I/O, można było pokazać coś więcej…