Nie tylko treści i materiał wideo, ale także muzyka stanowi coraz większy obszar zainteresowania twórców oprogramowania A.I. Bez trudu znajdziemy kilka różnych programów, które umożliwiają już nie tylko proste modyfikacje dźwięku, ale tworzenie całego utworu od A do Z. Spośród nich za najlepsze uznawane są dwa generatory muzyki: Suno i Udio. Sprawdzamy, czym różnią się od siebie, analizując architekturę modeli, sposobu przetwarzania promptu i finalnego generowania utworów muzycznych!
Generatory muzyki A.I. – Suno i Udio
Już nie tylko copywriterzy, programiści i graficy mogą czuć się realnie zagrożeni wpływem rozwoju A.I. na rynek pracy. Do tej grupy osób dochodzą również muzycy – i to zarówno ci amatorscy, hobbystyczni, jak i wszystkim znane zespoły muzyczne. Z czego to wynika? Oczywiście z pojawienia się generatorów muzyki, które bazują na algorytmach sztucznej inteligencji i są w stanie stworzyć nie tylko proste efekty tła i melodie, co pełnoprawne utwory muzyczne.
Od lat istniało wiele różnych narzędzi, które miało zadanie generować różnego rodzaju kawałki. Sama technika cyfrowa, wyprzedzająca analogową, zrewolucjonizowała i studia muzyczne, i samo myślenie o robieniu muzyki. Jeszcze 15 lat temu, aby uzyskać świetnej jakości nagranie, trzeba było zainwestować w profesjonalną salę nagraniową, instrumenty, mikrofony itd. Dziś większość rzeczy zrobi jeden człowiek – siedząc przy biurku i korzystając z DAW.
Pojawienie się ChatGPT opartego na architekturze Transformer otworzyło zupełnie nową kartę w historii ewolucji sposobu tworzenia muzyki. Powstały narzędzia, które są w stanie same wygenerować praktycznie dowolny kawałek. Najpopularniejsze są dwa – Suno i Udio. Tajemnicą Poliszynela jest to, że korzystają z nich największe studia nagraniowe na świecie!
Jak działają generatory muzyki A.I. i do czego służą?
Jeżeli wygenerowany przez Suno lub Udio kawałek muzyczny leciałby w radio, z pewnością słysząc go, nie przyszłoby nam do głowy, że jest to dzieło A.I. Narzędzia te już dziś są – i to w wersji darmowej! – są w stanie stworzyć tak zaawansowane, bogate stylistycznie i profesjonalnie brzmiące utwory, że pytania o przyszłość muzyki w ogóle mnożą się bez końca. Na czym polega fenomen generatorów muzyki A.I. i jak działają?
Zarówno Suno, jak i Udio, są w stanie wygenerować zróżnicowane utwory muzyczne bez względu na rodzaj gatunku muzycznego, tempo, skalę i styl. Cały proces od komponowania, aranżowania, poprzez dobór instrumentów, efektów i na produkcji skończywszy z perspektywy użytkownika ograniczone są do jednej rzeczy: promptu. Narzędzia nie tylko generują melodie, ale także są w stanie tworzyć teksty piosenek, aranżacje instrumentalne oraz efekty dźwiękowe. Tylko od użytkownika zależy, jaki rezultat pragnie osiągnąć. Chociaż nie zawsze algorytmy prawidłowo zinterpretują intencje użytkownika, warto jednak nadmienić, że Suno i Udio na jeden prompt generują kilka różnych propozycji.
Za pomocą generatorów muzyki A.I. można stworzyć de facto wszystko. Najczęstsze zastosowania obecnie obejmują tworzenie:
- pełnych utworów muzycznych,
- poszczególnych ścieżek, np. linii basu,
- wstawek muzycznych i przejść, np. do podcastów,
- treści do piosenek,
- efektów tła.
Architektura modelu generatywnego Suno i Udio
Suno opiera się na zaawansowanej architekturze modeli generatywnych, które są częścią większej rodziny algorytmów machine learning. Podstawą Suno i Udio jest architektura Transformer. Znamy ją m.in. z ChatGPT. Różnice są jednak znaczne. Podczas gdy Suno ma bazować na wersji bliższej algorytmom umieszczonym w strukturze ChatGPT. Nie jest jasne, jak daleko poszły modyfikacje natywnej architektury Transformer w Udio, ponieważ żadna z firm z oczywistych powodów nie publikuje dokładnej metodologii. Można jednak zakładać, że dokładniejsza architektura Suno zawiera bliższe ChatGPT rozwiązania z zakresu empatii i wykrywania intencji użytkownika, za co odpowiada charakterystyczny moduł atencji (attention mechanism). Może się to przekładać na lepsze dostosowywanie utworu do realnych intencji użytkownika.
Różnice na poziomie architektury to jedno, ale aby obydwa modele mogły być w pełni funkcjonalne konieczne jest ich nieustanne trenowanie na dużych zbiorach danych. Suno i Udio szkolone są na ogromnych zbiorach danych muzycznych, tekstowych i dźwiękowych. Modele te są trenowane na bazie sekwencji nut, akordów, rytmów oraz tekstów piosenek, co pozwala im na tworzenie spójnych i stylistycznie odpowiednich kompozycji.
Techniczne aspekty analizowania promptu
Zanim przejdziemy do tego, jak to się dzieje, że narzędzie jest w stanie wygenerować kompletny utwór, należy zacząć od podstaw. Fundamentem generatorów muzyki wykorzystujących sztuczną inteligencją są funkcje analizy i przetwarzania promptu.
Obydwa narzędzia umożliwiają wprowadzenie krótkich wytycznych w formie promptu, przy czym nie jest określone, jakie informacje powinien zawierać prompt. Dzięki temu można wpisać zarówno “sonata barokowa w Dis, tonacja molowa, bez tercji wielkiej”, jak i “romantyczna piosenka o miłości”. na jeden i drugi prompt obydwa narzędzia znajdą kilka ciekawych propozycji.
Powyższy przykład pokazuje jednak, że skuteczność generowania utworu zależy nie tylko od możliwości tworzenia samej muzyki, ale badania intencji użytkownika. Mechanizm analizy promptów opiera się na technikach przetwarzania języka naturalnego. Suno wykorzystuje w tym celu architekturę Transformer i zaawansowane techniki machine learning. W przypadku Udio mechanizm jest podobny, ale nacisk położony jest na klasteryzację danych.
Machine learning generatorów muzyki
Podstawowym procesem umożliwiającym generowanie muzyki jest uczenie maszynowe. Zastosowanie technik machine learning ma także na celu optymalizację procesu tworzenia muzyki. Obydwa narzędzia są do siebie pod tym względem bardzo zbliżone, ale przyglądając się bliżej ich konstrukcji, widoczne są pewne różnice.
Suno wykorzystuje wielopłaszczyznowe funkcje machine learning, które można podzielić na metody uczenia nadzorowanego i nienadzorowanego. W przypadku uczenia nadzorowanego modele generatywne są trenowane na oznaczonych danych muzycznych, co pozwala na rozpoznawanie i generowanie konkretnych stylów muzycznych. Drugi wariant machine learning Suno, czyli uczenie nienadzorowane, służy do weryfikowania prawidłowości i schematów. Umożliwia modelom generatywnym odkrywanie ukrytych wzorców w danych muzycznych bez potrzeby ręcznego oznaczania tych danych, co – samo w sobie – jest ogromnym postępem.
Podobnie robi Udio – korzysta z machine learning nadzorowanego i nienadzorowanego. Modele uczą się na oznaczonych danych muzycznych, co pozwala im rozpoznawać i generować konkretne style muzyczne. Ze względu na to, że Udio nie bazuje na architekturze Transformer i technikach NLP (przetwarzania języka naturalnego), różnice w zakresie machine learning są dość wyraźne. Udio polega w dużej mierze na funkcji zaawansowanej klasteryzacji danych, która umożliwia odnajdowanie i tworzenie wzorców (danych muzycznych). Wykorzystanie adaptacyjnych algorytmów uczenia maszynowego sprawia, że pod względem teoretycznym Udio powinno się wydawać narzędziem nieco bardziej eksperymentalnym, to jest takim, którego rezultaty charakteryzują się mniejszą powtarzalnością.
W obydwu przypadkach istotnym elementem technologii uczenia maszynowego jest tzw. uczenie wzmocnione / uczenie przez wzmocnienie (ang. reinforcement learning). Modele są nagradzane za poprawne generowanie muzyki, co z czasem pozwala na coraz bardziej zaawansowane i trafne tworzenie kompozycji. Za sprawą technik reinforcement learning modele mogą być dynamicznie dostosowywane do zmieniających się trendów i zmian na poziomie preferencji użytkowników z promptu na prompt.
W jaki sposób Suno i Udio generują utwory muzyczne? Przetwarzanie promptu na muzykę
Proces generowania muzyki w Suno rozpoczyna się od przetworzenia promptu przez warstwę NLP, w której wejściowy prompt jest dekodowany i tokenizowany. Następnie wstępnie przetworzony prompt podlega kodyfikacji do reprezentacji wektorowej za pomocą wstępnie wytrenowanych modeli językowych, takich jak BERT lub GPT-3. Kolejnym etapem jest podawanie wygenerowanych wektorów do warstw enkodera i dekodera w celu analizy semantycznej. Na tej płaszczyźnie proces przetwarzania promptu niewiele różni się od ChatGPT. Wynika to z faktu, że obydwa narzędzia bazują na architekturze Transformer.
W tym momencie mamy wstępnie przetworzony prompt, który w postaci wektorowej przypisywany jest do różnych wartości na podstawie analizy semantycznej. Inaczej mówiąc, model dobiera wzorce i style muzyczne, które pasują do przetworzonego promptu. I tu zaczyna się magia: na podstawie zidentyfikowanych wzorców i stylów muzycznych algorytmy wykorzystują warstwę LSTM (Long Short-Term Memory) lub GRU (Gated Recurrent Unit) do tworzenia sekwencji muzycznych. Sekwencje te mają szereg właściwości i dzielą się na różne rodzaje, takie jak: rytm, metrum, wartości nutowe i tonalne, styl muzyczny, głośność, pętle fx itd. Dobór instrumentaliów odbywa się poprzez algorytmy klastrowania i klasyfikacji, które na podstawie zdefiniowanych parametrów promptu przypisują odpowiednie brzmienia i instrumenty z bibliotek dźwiękowych.
Początek procesu generowania muzyki jest prawie taki sam dla Udio i Suno. Różnice zaczynają się pojawiać w obrębie dekodowania promptu i przetwarzania go do postaci wektorowej. W Udio wektory są przekazywane do modułów generatywnych, takich jak GAN (Generative Adversarial Networks) i RNN (Recurrent Neural Networks), które są odpowiedzialne za tworzenie muzyki. W przeciwieństwie do Suno Udio bazuje przede wszystkim na technikach klastrowania danych, m.in. t-SNE (t-distributed Stochastic Neighbor Embedding) i PCA (Principal Component Analysis). Algorytmy analizują kluczowe cechy promptu, takie jak nastrój, styl muzyczny, tempo oraz preferowane instrumenty. Kolejnym krokiem jest zastosowanie LSTM (Long Short-Term Memory) do modelowania sekwencji muzycznej, co pozwala na utrzymanie spójności rytmicznej i melodycznej w całym utworze.
W obydwu przypadkach generowana struktura muzyczna w ostatnim etapie syntetyzowana jest przez specjalne warstwy konwolucyjne (Convolutional Neural Networks). Odpowiadają one za spójność tonalną i harmoniczną utworu, analizując jego elementy i dopasowując do wybranego wzorca. Zarówno w przypadku Suno, jak i Udio, proces generowania utworów wspierany jest przez mechanizmy reinforcement learning. W obrębie końcowego etapu generowania muzyki odpowiadają one m.in. za iteracyjne poprawianie jakości tworzonego kawałka.
Główne ograniczenia Suno i Udio
Mimo ogromnego postępu w tworzeniu muzyki Suno i Udio mają liczne ograniczenia. Jednym z głównych wyzwań jest jakość generowanych utworów muzycznych. Chociaż modele są w stanie tworzyć muzykę na wysokim poziomie, nie zawsze udaje się osiągnąć takie rezultaty, które faktycznie brzmią naturalnie – tak, jakby nie były wytworem A.I. Wydaje się, że Suno lepiej radzi sobie w tworzeniu kompozycji i aranżacji, natomiast Udio częściej chwalone jest za bardziej realistyczny wokal.
Obydwa modele nie są w stanie stworzyć bardziej zaawansowanych kawałków, np. ze zmieniającym się w trakcie tempem i metrum. Przejścia między skalami, korzystanie z interwałów niewchodzących w skład danej progresji i dźwięków spoza danej gamy będą ogromnym wyzwaniem. Z drugiej strony tego typu argumenty nie mają znaczenia dla większości osób. I tak w radiu, na co dzień, raczej nie słyszymy utworów, które korzystają z takich technik.
Poważniejszym ograniczeniem z perspektywy przeciętnego użytkownika jest wysoki stopień uzależnienia od danych treningowych. Wpływa to na powtarzalność poszczególnych kompozycji, które mogą się od siebie niewiele różnić pomimo jasnych różnic na poziomie wprowadzanego promptu. Modele AI mogą mieć trudności z pełnym oddaniem emocji i subtelności muzycznych. Bywa, że również w obrębie jednego utworu mamy zbyt wiele zapętleń i powtarzających się motywów. Ostatecznie obydwa narzędzia nie są zintegrowane z programami DAW, a eksport plików ograniczony jest do najpopularniejszych formatów, bez podziału na poszczególne ścieżki. Tym samym – przynajmniej na ten moment – Suno i Udio mogą usatysfakcjonować użytkowników hobbystycznych i mniejszych twórców treści, a nie wytwórnie muzyczne i większe podmioty.
Suno vs Udio – porównanie
Na pierwszy rzut oka Suno i Udio nie tylko działają podobnie, ale są nawet mocno zbliżone pod względem interfejsu użytkownika. Pomimo tego, jak wskazaliśmy wcześniej, różnic między nimi jest sporo. Najważniejsze dotyczą modyfikacji architektury Transformer i sposobu przetwarzania promptu. Wydaje się też, że Suno koncentruje się na szerokiej gamie stylów muzycznych i jakości aranżacji, podczas gdy Udio wyróżnia się zaawansowanymi możliwościami edycji i adaptacyjnymi algorytmami, które pozwalają na bardziej spersonalizowane tworzenie muzyki.
Najważniejsze różnice między Suno a Udio:
Cechy | Suno | Udio |
---|---|---|
Podstawowa funkcjonalność | Generowanie muzyki, aranżacje, teksty piosenek | Generowanie muzyki, automatyczne kompozycje, edycja audio |
Architektura AI | Oparta na modelach Transformer i technikach NLP | Adaptacyjne algorytmy uczenia maszynowego z dużą rolą wielosektorowego klastrowania zasobów danych |
Interfejs użytkownika | Intuicyjny interfejs do wprowadzania promptów i parametrów muzycznych | Prosty w obsłudze interfejs z opcjami konfiguracji stylu, instrumentów i długości utworu |
Dostępność stylów muzycznych | Szeroka gama stylów muzycznych, od popu po muzykę klasyczną | Wszechstronne wsparcie dla różnych gatunków muzycznych, w tym pop, rock, EDM |
Personalizacja utworów | Opcje dostosowywania instrumentów, rytmu i harmonii | Możliwość precyzyjnej edycji fragmentów utworów, regeneracja sekcji audio |
Licencjonowanie i subskrypcje | Darmowa wersja oraz płatne plany subskrypcyjne z dodatkowymi funkcjami | Plany subskrypcyjne: darmowy, Standard i Pro z różnymi limitami kredytów |
Analiza promptów | Wykorzystanie zaawansowanych technik NLP do analizy i generowania muzyki zgodnej z promptami | Analiza preferencji użytkownika, adaptacyjne uczenie się stylu muzycznego |
Możliwości edycji | Ograniczona do podstawowej edycji generowanych utworów | Zaawansowane narzędzia edycji, w tym audio inpainting i dostosowywanie okien kontekstowych |
Społeczność i wsparcie | Dynamicznie rozwijająca się społeczność użytkowników i regularne aktualizacje | Rozbudowana społeczność, wsparcie przez platformy takie jak Discord i Reddit |
Główne zastosowania | Utwory muzyczne, wstawki muzyczne, podcasty, treści multimedialne, teksty | Utwory muzyczne, wstawki muzyczne, podcasty, treści multimedialne, teksty |
Zarzuty dotyczące praw autorskich
Pojawienie się generatorów muzyki jest stosunkowo nowym tematem, ale już teraz nie brakuje kontrowersji na poziomie prawnym. Eksperci wskazują, że generatory A.I. wykorzystują wielokrotnie przetwarzane, ale wciąż oryginalne utwory zastrzeżone prawami autorskimi. Pojawia się więc pytanie, czy utwór, który powstanie w ten sposób, może być traktowany jako “dzieło” w myśl aktualnej ustawy o prawach autorskich. Idąc dalej, zasadna jest wątpliwość, na ile dany utwór jest oryginalny, a także czy poszczególne jego elementy nie są bezpośrednio wycięte z innych dzieł.
Najbardziej kontrowersyjna wydaje się kwestia przypisywania autorstwa oraz wykorzystywania materiałów w sposób komercyjny. Warto zwrócić uwagę na to, że prawa autorskie są niezwykle skomplikowaną dziedziną prawa. Ze względu na to, że korzystanie z Udio czy Suno nie jest ograniczone terytorialnie, problem ma charakter globalny. Jednocześnie definicje i różnice w wykładni prawa autorskiego pomiędzy różnymi państwami są gigantyczne.
Rewolucja w generowaniu muzyki – podsumowanie
Przyszłość tworzenia muzyki na pewno jest nierozerwalnie związana z rozwojem sztucznej inteligencji. O ile ludzie raczej nie będą chcieli słuchać i kibicować “zespołom” A.I., o tyle rola algorytmów w tworzeniu muzyki na potrzeby filmów, podcastów i wszelkich treści multimedialnych jest nie do przecenienia.
Suno i Udio już teraz zapewniają taką jakość nagrań, która z powodzeniem mogłaby się znaleźć na radiowej playliście, a i tak mało kto odczułby różnicę. Narzędzia są bardzo innowacyjne, a dzięki architekturze Transformers, odpowiednio zmodyfikowanej, zaawansowanym technikom przetwarzania języka naturalnego i klastrowania mogą generować treści dobrze odpowiadające naszym potrzebom. Najwięcej kontrowersji dotyczy aspektów prawnych, nie technicznych. Jeśli bowiem chodzi o te drugie, to już dziś Udio i Suno mają potencjał, aby zrewolucjonizować proces tworzenia muzyki i stać się nieodzownym narzędziem dla muzyków i producentów na całym świecie.