Gemini Robotics – Google ożywia roboty

Specjaliści Google z zespołu DeepMind w poprzednim roku byli współlaureatami jednej z nagród Nobla za przełomowe badania nad wiązaniami białkowymi z pomocą AI. Nikogo nie powinno więc dziwić to, że co jakiś czas słyszymy od nich o jakiejś kolejnej, rewolucyjnej technologii. Tym razem DeepMind chwali się stworzeniem pierwszych robotów, które zasilane są sztuczną inteligencją. Powstałe we współpracy z firmą Apptronik roboty humanoidalne mają mieć szereg praktycznych zastosowaniach, obejmujących między innymi prace w logistyce i usługach medycznych. Sprawdzamy zatem, jak działają Gemini Robotics i czy szybko mogą zmienić obecny rynek pracy?

Sztuczna inteligencja Google dla robotów

Obok rozwoju sztucznej inteligencji równolegle postępuje rozwój robotyki – zarówno militarnej, jak i cywilnej. Jako głównego reprezentanta tego drugiego członu najczęściej znamy Boston Dynamics – spółkę-legendę, która tworzy innowacyjne, inteligentne konstrukcje. Wszystko wskazuje na to, że do tego grona dołącza także Google ze stworzoną przez siebie sztuczną inteligencją, Gemini.

Wraz z niedawną prezentacją nowych modeli Gemini, 2.5 i 2.5 Pro, Google podzieliło się informacją o pierwszych stworzonych robotach – Gemini Robotics. Są one zasilane sztuczną inteligencją Gemini, co ma umożliwiać wykonywanie praktycznych czynności wspierających ludzi. Za projekt odpowiada zespół Google DeepMind, jedna z najbardziej innowacyjnych jednostek badawczych w dziedzinie sztucznej inteligencji. Celem Gemini Robotics jest stworzenie robotów wyposażonych w zaawansowaną sztuczną inteligencję opartą na modelu Gemini, który łączy zdolności percepcyjne, językowe oraz ruchowe. Projekt otwiera nowe horyzonty dla robotyki, umożliwiając maszynom nie tylko wykonywanie zadań, gdzie prym dotychczas wiodło Boston Dynamics, ale także ich rozumienie i adaptację do zmieniających się warunków.

Gemini Robotics – architektura sztucznej inteligencji Google

Gemini Robotics to odpowiedź na rosnące zapotrzebowanie na bardziej uniwersalne i autonomiczne systemy robotyczne. W tym celu zespół Google DeepMind dokonał integracji najnowszych osiągnięć z zakresu uczenia maszynowego i neuronowych modeli multimodalnych. Podstawą Gemini Robotics jest architektura Gemini 2.0, która łączy trzy kluczowe aspekty: percepcję wzrokową, przetwarzanie języka naturalnego oraz kontrolę ruchu. Można spodziewać się dalszych aktualizacji, biorąc pod uwagę to, że roboty z Gemini 2.0 pojawiły się w momencie, gdy światło dzienne ujrzała wersja Gemini 2.5 Pro.

Implementacja sztucznej inteligencji do układów robotów umożliwiła nie tylko nie tylko rozpoznawanie obiektów i interpretowanie wydawanych robotom poleceń. Mogą one także komunikować się z właścicielem, planować swoją pracę z wyprzedzeniem oraz wykonywać złożone sekwencje działań w autonomiczny sposób. Różnica jakościowa między najnowszymi generacjami robotów a maszynami Google wyposażonymi w Gemini wynika głównie z tego, że te ostatnie wykorzystują technologię multimodalnego uczenia maszynowego. Oznacza to, że taka jednostka potrafi jednocześnie analizować dane wizualne (np. obrazy z kamer), językowe (polecenia użytkownika) oraz sensoryczne (informacje o dotyku czy sile nacisku). Kluczową innowacją jest zdolność przewidywania konsekwencji działań. Robot Gemini jest w stanie m.in. ocenić, czy przesunięcie danego przedmiotu na stole możenić, może spowodować jego upadek i uszkodzenie innych obiektów, czy nie.

Roboty Gemini są pierwszymi antropomorficznymi robotami ze sztuczną inteligencją
Roboty Gemini są pierwszymi antropomorficznymi robotami ze sztuczną inteligencją.

Najważniejsze cechy robotów Gemini

Jednym z największych osiągnięć projektu Gemini Robotics jest zdolność robotów do wykonywania szerokiego zakresu zadań bez konieczności ich uprzedniego programowania pod konkretne scenariusze. Testy przeprowadzone przez Google DeepMind wykazały, że roboty wyposażone w model Gemini osiągają ponad 74% skuteczności w zadaniach spoza zakresu treningowego. Wynik ten jest niemal dwukrotnie wyższe względem konkurencyjnych projektów robotycznych. Przykładem uniwersalności Gemini Robotics jest zdolność do adaptacji: robot szkolony do składania ubrań może bez dodatkowego treningu przejść do pakowania pudełek czy wiązania sznurówek. Ta elastyczność wynika z integracji wiedzy encyklopedycznej (np. zasad fizyki) z percepcją sensoryczną i zdolnością do uczenia się w locie (ang. few-shot learning). 

Kolejną bardzo ważną cechą projektu jest rozumowanie przestrzenne. Moduł embodied reasoning ma pozwalać robotom na rozumienie przestrzeni i interakcji fizycznych w sposób przypominający ludzkie myślenie. Moduł ten bazuje na ogromnych zbiorach danych treningowych obejmujących scenariusze fizyczne i logiczne, które uczą modele przewidywania skutków swoich działań. W ten sposób roboty mogą planować działania wymagające precyzji i zrozumienia kontekstu.

Gemini Robotics wyróżnia się także wysokim poziomem interaktywności. Roboty reagują na zmiany w środowisku oraz polecenia głosowe w czasie rzeczywistym. Słuchają poleceń właściciela bezwarunkowo. Przykładem jest zaprezentowana przez DeepMind sytuacja, kiedy robot wykonuje określone działania, a użytkownik przerywa je poleceniem: “odłóż to na półkę”. System natychmiast koryguje trajektorię ruchu bez konieczności restartowania procesu, a robot odkłada trzymany przedmiot na półkę. Przydatną cechą w tym procesie jest wysoka Precyzja ruchów. Roboty Google Robotics potrafią manipulować delikatnymi przedmiotami z dokładnością co do milimetra. Według zapewnień DeepMind mogą więc sprawdzać się nawet w takich czynnościach jak składanie origami czy obsługa narzędzi chirurgicznych. Testy porównawcze wykazały, że Gemini wykonuje skomplikowane zadania nawet trzykrotnie szybciej niż inne systemy robotyczne dostępne na rynku.

Projekt Gemini Robotics realizowany jest przede wszystkim w celach użytkowych
Projekt Gemini Robotics realizowany jest przede wszystkim w celach użytkowych.

Zastosowanie robotów Google Robotics

W ramach projektu Gemini Robotics zespół DeepMind nawiązał współpracę z firmą Apptronik, której efektem jest humanoidalny robot Apollo. Robot ten został zaprojektowany tak, aby naśladować ludzką biomechanikę i współpracować z człowiekiem w różnych środowiskach pracy. Docelowo ma on pracować zarówno w magazynach przy pracach fizycznych, jak i w placówkach medycznych jako asystent. Apollo wyposażony w technologię Gemini potrafi: 

  • chwytać przedmioty o różnej teksturze (szkło, metal, guma), 
  • płynnie poruszać się po schodach oraz nierównych powierzchniach, 
  • rozpoznawać kontekst sytuacyjny i reagować na zmiany otoczenia w czasie rzeczywistym.

Apollo to dopiero pierwszy projekt łączący techniczny know-how Apptronik ze specjalnie dostosowaną, sztuczną inteligencję Gemini od Google. W przyszłości takich projektów ma być znacznie więcej. Zespół DeepMind przyznaje, że liczba możliwych zastosowań takich robotów jest ogromna. Do najważniejszych dziedzin należą:

  • opieka zdrowotna – asystenci rehabilitacyjni monitorujący ruch pacjentów,
  • logistyka – automatyzacja magazynów zwiększająca przepustowość,
  • ratownictwo – roboty poszukiwawcze analizujące zawaliska za pomocą sonarów,
  • produkcja – roboty wykorzystywane w procesach produkcyjnych, potrafiące precyzyjnie manipulować małymi komponentami elektronicznymi.

Gemini Robotics – podsumowanie

Gemini Robotics to kolejna przełomowa dziedzina, w której Google chce aktywnie partycypować. Inicjatywa zespołu Google DeepMind za sprawą sztucznej inteligencji Gemini redefiniuje możliwości współczesnej robotyki. Rozwiązania techniczne widzimy już na przykładzie pierwszej realizacji – robota Apollo, który jest wynikiem współpracy między Google a spółką technologiczną Apptronik. Robot zaskakuje zaawansowaną mechaniką ruchu, percepcją sensoryczną i rozumieniem komend.

Rozumowanie przestrzenne robota sprawia, że do pewnego stopnia może on działać samodzielnie i niezależnie od właściciela, samemu opracowując ścieżkę działań do realizacji danego zadania. Chociaż na ten moment projekt jest dopiero w pierwszych fazach rozwoju, bardzo możliwe, że Google w przyszłości będzie się kojarzyć mniej z wyszukiwarką internetową, a bardziej z inteligentnymi robotami zasilanymi Gemini.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *