Apple nie wystartowało w wyścigu technologicznym w zakresie A.I. z najlepszego miejsca. Nie znaczy to jednak, że się poddało. Rywalizację traktuje bardziej jako maraton, niż sprint, w którym nie planuje wybić się na lidera innowacji, ale odpowiedzialnego partnera. W kwietniu Apple zademestrowało najnowszy model językowy o otwartym kodzie źródłowym: OpenELM. Od tego czasu podpisano porozumienie o współpracy z OpenAI, twórcami ChatGPT i wprowadzono kolejne modyfikacje. Najciekawsze jest jednak to, że również w dziedzinie sztucznej inteligencji Apple chce iść nieco pod prąd. Zobacz, na czym polega najnowsza technologia A.I. od Apple i czym wyróżnia się od ofert konkurencji!

Apple OpenELM – pierwszy moduł sztucznej inteligencji Apple
OpenELM został zaprezentowany w kwietniu 2024 r. jako niezależny, nowy model językowy, który ma być zgodny z koncepcją demokratyzacji sztucznej inteligencji. To jedna idei, która – przynajmniej w oficjalnych komunikatach – przyświeca Apple w tworzeniu A.I. Nazwa, składająca się z Open i skrótu od Efficient Language Models, sugeruje główne cechy nowego modelu firmy tworzonej przez Steve’a Jobsa. OpenELM ma być z jednej strony jak najbardziej wydajnym modelem, z drugiej zaś dwustronnie otwartoźródłowym – kod jest dostępny dla każdego, a Apple zapewnia, że do szkolenia modelu wykorzystywano tylko bazy open source. Cały kod można samodzielnie pobrać ze strony Hugging Face: https://huggingface.co/apple/OpenELM.
OpenELM nie jest jednym modelem językowym, ale tak naprawdę ośmioma, które składają się z różnej liczby parametrów. Najuboższy model obejmuje 270 milionów, a najbogatszy – 3 miliardy parametrów. Modele te można podzielić na dwie nadrzędne kategorie: cztery modele wstępnie wytrenowane oraz cztery modele instruktażowe, które zostały dostosowane do wykonywania konkretnych zadań.
Apple od zawsze była firmą, która pomimo mniej lub bardziej dosłownych fajerwerków w trakcie imprez technologicznych stroniła od publicity w zakresie nowych technologie. W cyklu rozwojowym produktów Apple pierwsze lata zawsze są ściśle strzeżoną tajemnicą. W tym kontekście nie powinno nikogo dziwić, że o postępach w zakresie tworzenia A.I. przez Apple świat dowiedział się dopiero w 2024 roku, czyli półtora roku po udostępnieniu ChatGPT od OpenAI. Jednak nie tylko pod tym względem Apple, również w dziedzinie A.I., po raz kolejny odstaje od swoich konkurentów.
Wizja Apple jak zwykle odmienna. Ochrona prywatności i lokalne modele A.I.
Decyzja Apple o udostępnieniu OpenELM jako modelu open source już teraz (czyli jak na standardy Apple – dość wcześnie) jest częścią szerszej strategii firmy. Jeśli chodzi o rozwój sztucznej inteligencji, strategia Apple zakłada nie tylko pracę nad własnymi technologiami, ale także tworzenie bazy do potencjalnej współpracy z innymi; implementacji zewnętrznych rozwiązań, takich jak Google Gemini czy OpenAI ChatGPT.
Różnic koncepcyjnych jest więcej. Apple ma inną wizję co do sposobu wykorzystania sztucznej inteligencji. Podczas gdy Google i OpenAI skupiają się głównie na rozwoju dużych modeli językowych działających w chmurze, z zewnętrznym przetwarzaniem danych, Apple wyraźnie koncentruje się na rozwoju modeli działających lokalnie na urządzeniach. Podejście to ma sprzyjać zachowaniu prywatności użytkowników oraz umożliwiać wygodniejszą integrację poszczególnych urządzeń z ekosystemem Apple.
Chociaż gigant stworzony przez Steve’a Jobsa również inwestuje duży kapitał w badania nad A.I. (ponad miliard dolarów w poprzednich latach) i dokonuje przejęć mniejszych firm, nie stara się o dominację na rynku. Celem Apple jest hybrydowe podejście, które będzie łączyć rozwój własnych modeli z potencjalną integracją zewnętrznych rozwiązań (np. od Google, OpenAI czy Microsoftu).
Architektura OpenELM i główne parametry techniczne
OpenELM wykorzystuje architekturą Transformer, którą dobrze znamy z innych modeli. Korzysta z niej między innymi ChatGPT, Microsoft Copilot czy Perplexity. Architektura ta została jednak zmodyfikowana przez inżynierów Apple Zastosowano strategię skalowania warstwowego pod kątem optymalizacji alokacji parametrów w poszczególnych warstwach modelu. Dzięki temu warstwy bliższe wejściu mają mniejsze wymiary, które ukryte są w mechanizmach atencji oraz sieciach feed-forward. To zupełnie odmienna strategia względem koncepcji OpenAI, których modele oparte są na jednolitej alokacji parametrów i w których każda warstwa ma jednolitą pojemność i rozmiar.
Architektura OpenELM została zoptymalizowana także pod kątem wydajności na urządzeniach mobilnych. W tym celu Apple zastosowano techniki kompresji modelu i kwantyzacji, które pozwalają na znaczne zmniejszenie rozmiaru modelu bez istotnej utraty jakości. Apple wyposażył swój model w szereg innowacyjnych funkcji, m.in.:
- Grouped Query Attention (GQA) – umożliwia efektywne przetwarzanie zapytań w grupach, dzięki czemu zmniejszają się wymagania obliczeniowe,
- Switched Gated Linear Unit (GLU) – dostosowuje architekturę sieci do rodzaju przetwarzanych danych, zapewniając większa elastyczność pracy modułu,
- sieci feed-forward – bierze udział we wspomnianym procesie alokacji warstw oraz zapewnia komunikację pomiędzy poszczególnymi warstwami w trakcie dekodowania danych,
- Rotatory Positional Embeddings (RPE) – koduje bezwzględną informację o położeniu za pomocą macierzy rotacji; ma wpływać na efektywniejsze kodowanie pozycji tokenów w sekwencji.
Cały model Apple został zaprojektowany tak, aby działał efektywnie na urządzeniach lokalnych bez konieczności ciągłego przetwarzania danych w chmurze. Szczegółowe dane techniczne i wyniki testów opublikowane są w formie artykułu naukowego na Arxiv: https://arxiv.org/pdf/2404.14619.

Bez chodzenia na skróty. OpenELM od Apple jako open source trenowany na otwartych źródłach
Innowacyjnym aspektem procesu treningu OpenELM było zastosowanie tokenizacji w czasie rzeczywistym, technik augmentacji danych oraz adaptacyjnego filtrowania danych. W procesie treningu OpenELM zastosowano również techniki uczenia transferowego i fine-tuningu. Jednak aspekty techniczne stają się mniej istotne, jeśli przyjrzymy się samemu sposobowi szkolenia modeli. Model językowy OpenELM miał zostać wytrenowany na publicznie dostępnych, otwartych danych. Apple deklaruje, że trening odbywał się przy wykorzystaniu otwartych źródeł danych, takich jak Wikipedia, Wikibooks, Reddit, GitHub, arXiv.org oraz Project Gutenberg. Łączna ilość danych użytych do treningu wynosi około 1,8 biliona tokenów, co ma przekładać się na finalny stopień efektywności.
Jest to zupełnie przeciwna droga względem tej, którą poszło OpenAI. Z biegiem czasu rośnie liczba zarzutów dotyczących procesu szkolenia ChatGPT. Wiadomo, że Fundacja OpenAI jest bardzo mocno związana z Microsoftem, który kilka lat temu wykupił platformę Github. Ta zaś stała się głównym zbiorem danych szkoleniowych dla modeli językowych OpenAI. Zakłada się również, że modele szkolone są z różnych źródeł internetowych, łamiąc tym samym licencje i prawa autorskie. Apple wprost przyznaje, że prywatność użytkowników oraz szacunek wobec publikowanych treści musi być na pierwszym miejscu. Chociaż nie wiem, jak jest naprawdę, nawet na poziomie przekazów oficjalnych podejście Apple zgoła różni się od podejścia OpenAI. Różni się zdecydowanie na plus.
Co ważne, OpenELM jest udostępniony jako oprogramowanie open source na platformie Hugging Face. Dzięki temu każdy, już teraz, może zacząć swobodnie z niego korzystać, jak również modyfikować i redystrybuować (w obrębie publicznej, darmowej licencji). Otwartość OpenELM obejmuje nie tylko same modele, ale również kod źródłowy i narzędzia używane do ich treningu i optymalizacji. Apple udostępniło szczegółową dokumentację techniczną, stworzyło otwarte repozytorium na GitHubie z własnym supportem i stara się otwierać na współpracę ze społecznością.
Jak OpenELM wypada na tle innych modeli językowych?
Zanim przejdziemy do analizy dostępnych wyników porównawczych, warto zwrócić uwagę raz jeszcze na kolejne różnice w podejściu Apple. Nie chodzi o gloryfikowanie jakiejkolwiek firmy, ale tam, gdzie te różnice faktycznie występują, warto je unaoczniać. Otóż Apple, pomimo tego, że nazwało swój model “efektywnym” (Effective Language Model), stroni przed porównywaniem go z innymi. W oficjalnej komunikacji brakuje “pompy” charakterystycznej dla OpenAI czy Google. Czy to znaczy, że OpenELM po prostu nie ma się czym pochwalić i wypada gorzej na tle innych modeli językowych? Absolutnie nie!
OpenELM wykazuje imponującą wydajność w porównaniu do innych modeli, także w tych wersjach, które wykorzystują wyższą liczbę parametrów. Według analiz porównawczych OpenELM przewyższa modele OLMo Instytutu Allena o 2,36%, wymagając jednocześnie dwukrotnie mniej tokenów do wstępnego treningu. Model Apple ma wyjątkowo dobrze sprawdzać się w takich zadaniach, jak klasyfikacja tekstu, odpowiadanie na pytania i generowanie kodu. Warianty OpenELM posiadające miliard parametrów osiągały wyniki porównywalne z modelami GPT-3, które wykorzystują 175 miliardów parametrów. Wydajność ma być szczególnie wyraźna w zadaniach dotyczących analiz i wnioskowania.
Jednym z kluczowych aspektów wydajności OpenELM jest jego zdolność do szybkiego przetwarzania i generowania tekstu na urządzeniach lokalnych. Testy przeprowadzone na iPhone’ach najnowszej generacji wykazały, że OpenELM może generować odpowiedzi z prędkością do 100 tokenów na sekundę. To wynik nieco gorszy od najnowszych rezultatów modeli OpenAI, ale sprzyja na korzyść Apple. Dlaczego? Model Apple w tym teście nie wykorzystywał obliczeń wykonywanych w chmurze, lecz pracował lokalnie. To duża zmiana i widać, że Apple nie zamierza tworzyć, pisząc kolokwialnie, ogólnie najlepszej sztucznej inteligencji, lecz najlepszej dla swoich odbiorców – użytkowników produktów Apple.

Główne zastosowania OpenELM
Model językowy Apple ma podobne zastosowania względem konkurencyjnych projektów. Wyróżnia się jednak lepszym dostosowaniem do pracy na urządzeniach mobilnych oraz deklarowanym brakiem zależności od przetwarzania danych w chmurze. Dzięki temu świetnie sprawdzi się także w systemach o ograniczonych zasobach. Apple wskazuje, że potencjalne obszary zastosowania OpenELM mogą obejmować:
- asystentów głosowych z zaawansowanymi możliwościami rozumienia kontekstu i generowania naturalnych odpowiedzi,
- systemy rekomendacji w aplikacjach e-commerce i platformach streamingowych,
- zaawansowaną analizę sentymentu w mediach społecznościowych i systemach obsługi klienta,
- generowanie spersonalizowanych treści, takich jak e-maile, raporty czy artykuły,
- wsparcie w zadaniach programistycznych, w tym automatyczne uzupełnianie kodu i debugowanie,
- tłumaczenie maszynowe w czasie rzeczywistym na urządzeniach mobilnych,
- inteligentne systemy zarządzania danymi.
Modele OpenELM mogą również znaleźć zastosowanie w różnych aplikacjach systemowych, takich jak Notes, Messages czy Mail. Możliwość przetwarzania języka naturalnego bezpośrednio na urządzeniu użytkownika sprzyja dalszym integracjom modelu z różnymi aplikacjami zewnętrznymi i zewnętrznymi.
Inkluzywny model współpracy – Apple podpisuje umowę z OpenAI
W przeciwieństwie do Google, które toczy aktywną rywalizację z OpenAI / Microsoftem, pozycja Apple jest nieco inna. Apple nie stara się wyrastać na giganta A.I. Próbuje za to stworzyć szyte na miarę rozwiązania A.I., które przydadzą się użytkownikom korzystających z produktów Apple. Takie podejście do sprawy jest bardziej koncyliacyjne i charakteryzuje się większą otwartością.
O tym, że to nie tylko słowa, świadczą ostatnie wydarzenia. Apple aktualnie prowadzi rozmowy z Google w sprawie integracji modelu OpenELM z modelami Google’a. Rozważa też wykorzystanie modelu Gemini od Google lub ChatGPT od OpenAI do zasilenia nowych funkcji AI w iPhone’ach. Według raportu Bloomberga w maju Apple miało sfinalizować umowę z OpenAI, zgodnie z którą ChatGPT będzie mógł pojawić się na smartfonach z iOS 18 jeszcze w 2024 roku. Apple nie ma problemu z korzystaniem z technologii OpenAI, jeśli jest to korzystne dla użytkowników. Jednocześnie oferuje wykorzystanie OpenELM do celów OpenAI, zacieśniając tym samym współpracę.

Nowy moduł językowy Apple OpenELM – podsumowanie
OpenELM to nie tylko nowy moduł językowy Apple’a, ale również kierunkowskaz, które odczytanie umożliwia sprawdzenie, jak Apple widzi się w trwającej rewolucji A.I. Na ten moment jasne jest to, że Apple nie podnosi rękawicy i nie wchodzi w szranki z głównymi podmiotami na rynku – Google, OpenAI i Microsoftem. Zamiast tego koncentruje się na tworzeniu rozwiązań, które mają bezpośrednio przyczynić się do uatrakcyjnienia własnych produktów – smartfonów i laptopów.
Najnowszy model językowy wyróżnia się dobrą wydajnością w porównaniu do modeli o podobnych ograniczeniach co do liczby obsługiwanych parametrów. Pomimo implementacji wielu przełomowych funkcji, m.in. Grouped Query Attention i Switched Gated Linear Unit, model nie zaskakuje jednak swoimi możliwościami technicznymi. Nie ma tu rewolucji, która kazałaby spojrzeć na Apple jako innowatora technologii A.I. Jest za to znaczny postęp w zakresie transparentności procesu tworzenia modeli językowych przez duże korporacje.
Apple od początku udostępniło model jako open source na Hugging Face. Model miał być testowany wyłącznie w oparciu o dane, co do których nie ma podejrzenia łamania praw licencyjnych i autorskich. Funkcje modelu dostosowano do urządzeń mobilnych i produktów Apple, tak, aby również mogły szanować prywatność użytkowników. Dowodem na to ma być możliwość pracy lokalnej bez przetwarzania w chmurze.