Rewolucja w generowaniu muzyki z pomocą A.I.? Recenzja i porównanie Suno oraz Udio

Nie tylko treści i materiał wideo, ale także muzyka stanowi coraz większy obszar zainteresowania twórców oprogramowania A.I. Bez trudu znajdziemy kilka różnych programów, które umożliwiają już nie tylko proste modyfikacje dźwięku, ale tworzenie całego utworu od A do Z. Spośród nich za najlepsze uznawane są dwa generatory muzyki: Suno i Udio. Sprawdzamy, czym różnią się od siebie, analizując architekturę modeli, sposobu przetwarzania promptu i finalnego generowania utworów muzycznych!

Generatory muzyki A.I. – Suno i Udio

Już nie tylko copywriterzy, programiści i graficy mogą czuć się realnie zagrożeni wpływem rozwoju A.I. na rynek pracy. Do tej grupy osób dochodzą również muzycy – i to zarówno ci amatorscy, hobbystyczni, jak i wszystkim znane zespoły muzyczne. Z czego to wynika? Oczywiście z pojawienia się generatorów muzyki, które bazują na algorytmach sztucznej inteligencji i są w stanie stworzyć nie tylko proste efekty tła i melodie, co pełnoprawne utwory muzyczne.

Od lat istniało wiele różnych narzędzi, które miało zadanie generować różnego rodzaju kawałki. Sama technika cyfrowa, wyprzedzająca analogową, zrewolucjonizowała i studia muzyczne, i samo myślenie o robieniu muzyki. Jeszcze 15 lat temu, aby uzyskać świetnej jakości nagranie, trzeba było zainwestować w profesjonalną salę nagraniową, instrumenty, mikrofony itd. Dziś większość rzeczy zrobi jeden człowiek – siedząc przy biurku i korzystając z DAW. 

Pojawienie się ChatGPT opartego na architekturze Transformer otworzyło zupełnie nową kartę w historii ewolucji sposobu tworzenia muzyki. Powstały narzędzia, które są w stanie same wygenerować praktycznie dowolny kawałek. Najpopularniejsze są dwa – Suno i Udio. Tajemnicą Poliszynela jest to, że korzystają z nich największe studia nagraniowe na świecie!

robot grający na kontrabasie
Udio i Suno przecierają nieznane dotąd szlaki – generowanie muzyki przy pomocy A.I. jeszcze nigdy nie było takie proste!

Jak działają generatory muzyki A.I. i do czego służą?

Jeżeli wygenerowany przez Suno lub Udio kawałek muzyczny leciałby w radio, z pewnością słysząc go, nie przyszłoby nam do głowy, że jest to dzieło A.I. Narzędzia te już dziś są – i to w wersji darmowej! – są w stanie stworzyć tak zaawansowane, bogate stylistycznie i profesjonalnie brzmiące utwory, że pytania o przyszłość muzyki w ogóle mnożą się bez końca. Na czym polega fenomen generatorów muzyki A.I. i jak działają?

Zarówno Suno, jak i Udio, są w stanie wygenerować zróżnicowane utwory muzyczne bez względu na rodzaj gatunku muzycznego, tempo, skalę i styl. Cały proces od komponowania, aranżowania, poprzez dobór instrumentów, efektów i na produkcji skończywszy z perspektywy użytkownika ograniczone są do jednej rzeczy: promptu. Narzędzia nie tylko generują melodie, ale także są w stanie tworzyć teksty piosenek, aranżacje instrumentalne oraz efekty dźwiękowe. Tylko od użytkownika zależy, jaki rezultat pragnie osiągnąć. Chociaż nie zawsze algorytmy prawidłowo zinterpretują intencje użytkownika, warto jednak nadmienić, że Suno i Udio na jeden prompt generują kilka różnych propozycji.

Za pomocą generatorów muzyki A.I. można stworzyć de facto wszystko. Najczęstsze zastosowania obecnie obejmują tworzenie:

  • pełnych utworów muzycznych,
  • poszczególnych ścieżek, np. linii basu,
  • wstawek muzycznych i przejść, np. do podcastów,
  • treści do piosenek,
  • efektów tła.

Architektura modelu generatywnego Suno i Udio

Suno opiera się na zaawansowanej architekturze modeli generatywnych, które są częścią większej rodziny algorytmów machine learning. Podstawą Suno i Udio jest architektura Transformer. Znamy ją m.in. z ChatGPT. Różnice są jednak znaczne. Podczas gdy Suno ma bazować na wersji bliższej algorytmom umieszczonym w strukturze ChatGPT. Nie jest jasne, jak daleko poszły modyfikacje natywnej architektury Transformer w Udio, ponieważ żadna z firm z oczywistych powodów nie publikuje dokładnej metodologii. Można jednak zakładać, że dokładniejsza architektura Suno zawiera bliższe ChatGPT rozwiązania z zakresu empatii i wykrywania intencji użytkownika, za co odpowiada charakterystyczny moduł atencji (attention mechanism). Może się to przekładać na lepsze dostosowywanie utworu do realnych intencji użytkownika.

Różnice na poziomie architektury to jedno, ale aby obydwa modele mogły być w pełni funkcjonalne konieczne jest ich nieustanne trenowanie na dużych zbiorach danych. Suno i Udio szkolone są na ogromnych zbiorach danych muzycznych, tekstowych i dźwiękowych. Modele te są trenowane na bazie sekwencji nut, akordów, rytmów oraz tekstów piosenek, co pozwala im na tworzenie spójnych i stylistycznie odpowiednich kompozycji.

zbliżenie na logo Suno
Suno wykorzystuje architekturę Transformer do analizy promptu użytkownika.

Techniczne aspekty analizowania promptu

Zanim przejdziemy do tego, jak to się dzieje, że narzędzie jest w stanie wygenerować kompletny utwór, należy zacząć od podstaw. Fundamentem generatorów muzyki wykorzystujących sztuczną inteligencją są funkcje analizy i przetwarzania promptu.

Obydwa narzędzia umożliwiają wprowadzenie krótkich wytycznych w formie promptu, przy czym nie jest określone, jakie informacje powinien zawierać prompt. Dzięki temu można wpisać zarówno “sonata barokowa w Dis, tonacja molowa, bez tercji wielkiej”, jak i “romantyczna piosenka o miłości”. na jeden i drugi prompt obydwa narzędzia znajdą kilka ciekawych propozycji.

Powyższy przykład pokazuje jednak, że skuteczność generowania utworu zależy nie tylko od możliwości tworzenia samej muzyki, ale badania intencji użytkownika. Mechanizm analizy promptów opiera się na technikach przetwarzania języka naturalnego. Suno wykorzystuje w tym celu architekturę Transformer i zaawansowane techniki machine learning. W przypadku Udio mechanizm jest podobny, ale nacisk położony jest na klasteryzację danych.

Machine learning generatorów muzyki

Podstawowym procesem umożliwiającym generowanie muzyki jest uczenie maszynowe. Zastosowanie technik machine learning ma także na celu optymalizację procesu tworzenia muzyki. Obydwa narzędzia są do siebie pod tym względem bardzo zbliżone, ale przyglądając się bliżej ich konstrukcji, widoczne są pewne różnice.

Suno wykorzystuje wielopłaszczyznowe funkcje machine learning, które można podzielić na metody uczenia nadzorowanego i nienadzorowanego. W przypadku uczenia nadzorowanego modele generatywne są trenowane na oznaczonych danych muzycznych, co pozwala na rozpoznawanie i generowanie konkretnych stylów muzycznych. Drugi wariant machine learning Suno, czyli uczenie nienadzorowane, służy do weryfikowania prawidłowości i schematów. Umożliwia modelom generatywnym odkrywanie ukrytych wzorców w danych muzycznych bez potrzeby ręcznego oznaczania tych danych, co – samo w sobie – jest ogromnym postępem.

Podobnie robi Udio – korzysta z machine learning nadzorowanego i nienadzorowanego. Modele uczą się na oznaczonych danych muzycznych, co pozwala im rozpoznawać i generować konkretne style muzyczne. Ze względu na to, że Udio nie bazuje na architekturze Transformer i technikach NLP (przetwarzania języka naturalnego), różnice w zakresie machine learning są dość wyraźne. Udio polega w dużej mierze na funkcji zaawansowanej klasteryzacji danych, która umożliwia odnajdowanie i tworzenie wzorców (danych muzycznych). Wykorzystanie adaptacyjnych algorytmów uczenia maszynowego sprawia, że pod względem teoretycznym Udio powinno się wydawać narzędziem nieco bardziej eksperymentalnym, to jest takim, którego rezultaty charakteryzują się mniejszą powtarzalnością.

W obydwu przypadkach istotnym elementem technologii uczenia maszynowego jest tzw. uczenie wzmocnione / uczenie przez wzmocnienie (ang. reinforcement learning). Modele są nagradzane za poprawne generowanie muzyki, co z czasem pozwala na coraz bardziej zaawansowane i trafne tworzenie kompozycji. Za sprawą technik reinforcement learning modele mogą być dynamicznie dostosowywane do zmieniających się trendów i zmian na poziomie preferencji użytkowników z promptu na prompt.

Koncepcja, analityka Big Data poprzez uczenie maszynowe
Efektywność Suno i Udio zależy w dużej mierze od machine learning, analizy NLP i zasobów szkoleniowych.

W jaki sposób Suno i Udio generują utwory muzyczne? Przetwarzanie promptu na muzykę

Proces generowania muzyki w Suno rozpoczyna się od przetworzenia promptu przez warstwę NLP, w której wejściowy prompt jest dekodowany i tokenizowany. Następnie wstępnie przetworzony prompt podlega kodyfikacji do reprezentacji wektorowej za pomocą wstępnie wytrenowanych modeli językowych, takich jak BERT lub GPT-3. Kolejnym etapem jest podawanie wygenerowanych wektorów do warstw enkodera i dekodera w celu analizy semantycznej. Na tej płaszczyźnie proces przetwarzania promptu niewiele różni się od ChatGPT. Wynika to z faktu, że obydwa narzędzia bazują na architekturze Transformer.

W tym momencie mamy wstępnie przetworzony prompt, który w postaci wektorowej przypisywany jest do różnych wartości na podstawie analizy semantycznej. Inaczej mówiąc, model dobiera wzorce i style muzyczne, które pasują do przetworzonego promptu. I tu zaczyna się magia: na podstawie zidentyfikowanych wzorców i stylów muzycznych algorytmy wykorzystują warstwę LSTM (Long Short-Term Memory) lub GRU (Gated Recurrent Unit) do tworzenia sekwencji muzycznych. Sekwencje te mają szereg właściwości i dzielą się na różne rodzaje, takie jak: rytm, metrum, wartości nutowe i tonalne, styl muzyczny, głośność, pętle fx itd. Dobór instrumentaliów odbywa się poprzez algorytmy klastrowania i klasyfikacji, które na podstawie zdefiniowanych parametrów promptu przypisują odpowiednie brzmienia i instrumenty z bibliotek dźwiękowych.

Początek procesu generowania muzyki jest prawie taki sam dla Udio i Suno. Różnice zaczynają się pojawiać w obrębie dekodowania promptu i przetwarzania go do postaci wektorowej. W Udio wektory są przekazywane do modułów generatywnych, takich jak GAN (Generative Adversarial Networks) i RNN (Recurrent Neural Networks), które są odpowiedzialne za tworzenie muzyki. W przeciwieństwie do Suno Udio bazuje przede wszystkim na technikach klastrowania danych, m.in. t-SNE (t-distributed Stochastic Neighbor Embedding) i PCA (Principal Component Analysis). Algorytmy analizują kluczowe cechy promptu, takie jak nastrój, styl muzyczny, tempo oraz preferowane instrumenty. Kolejnym krokiem jest zastosowanie LSTM (Long Short-Term Memory) do modelowania sekwencji muzycznej, co pozwala na utrzymanie spójności rytmicznej i melodycznej w całym utworze.

tworzenie muzyki z wykorzystaniem sztucznej inteligencji
Suno kładzie nacisk na przetwarzanie języka naturalnego, Udio – na klaster

W obydwu przypadkach generowana struktura muzyczna w ostatnim etapie syntetyzowana jest przez specjalne warstwy konwolucyjne (Convolutional Neural Networks). Odpowiadają one za spójność tonalną i harmoniczną utworu, analizując jego elementy i dopasowując do wybranego wzorca. Zarówno w przypadku Suno, jak i Udio, proces generowania utworów wspierany jest przez mechanizmy reinforcement learning. W obrębie końcowego etapu generowania muzyki odpowiadają one m.in. za iteracyjne poprawianie jakości tworzonego kawałka.

Główne ograniczenia Suno i Udio

Mimo ogromnego postępu w tworzeniu muzyki Suno i Udio mają liczne ograniczenia. Jednym z głównych wyzwań jest jakość generowanych utworów muzycznych. Chociaż modele są w stanie tworzyć muzykę na wysokim poziomie, nie zawsze udaje się osiągnąć takie rezultaty, które faktycznie brzmią naturalnie – tak, jakby nie były wytworem A.I. Wydaje się, że Suno lepiej radzi sobie w tworzeniu kompozycji i aranżacji, natomiast Udio częściej chwalone jest za bardziej realistyczny wokal.

Obydwa modele nie są w stanie stworzyć bardziej zaawansowanych kawałków, np. ze zmieniającym się w trakcie tempem i metrum. Przejścia między skalami, korzystanie z interwałów niewchodzących w skład danej progresji i dźwięków spoza danej gamy będą ogromnym wyzwaniem. Z drugiej strony tego typu argumenty nie mają znaczenia dla większości osób. I tak w radiu, na co dzień, raczej nie słyszymy utworów, które korzystają z takich technik.

Poważniejszym ograniczeniem z perspektywy przeciętnego użytkownika jest wysoki stopień uzależnienia od danych treningowych. Wpływa to na powtarzalność poszczególnych kompozycji, które mogą się od siebie niewiele różnić pomimo jasnych różnic na poziomie wprowadzanego promptu. Modele AI mogą mieć trudności z pełnym oddaniem emocji i subtelności muzycznych. Bywa, że również w obrębie jednego utworu mamy zbyt wiele zapętleń i powtarzających się motywów. Ostatecznie obydwa narzędzia nie są zintegrowane z programami DAW, a eksport plików ograniczony jest do najpopularniejszych formatów, bez podziału na poszczególne ścieżki. Tym samym – przynajmniej na ten moment – Suno i Udio mogą usatysfakcjonować użytkowników hobbystycznych i mniejszych twórców treści, a nie wytwórnie muzyczne i większe podmioty.

mikrofon, słuchawki, kwiaty i ciemne tło
Suno i Udio to nie zabawki – już teraz na co dzień pomagają podcasterom i twórcom treści.

Suno vs Udio – porównanie

Na pierwszy rzut oka Suno i Udio nie tylko działają podobnie, ale są nawet mocno zbliżone pod względem interfejsu użytkownika. Pomimo tego, jak wskazaliśmy wcześniej, różnic między nimi jest sporo. Najważniejsze dotyczą modyfikacji architektury Transformer i sposobu przetwarzania promptu. Wydaje się też, że Suno koncentruje się na szerokiej gamie stylów muzycznych i jakości aranżacji, podczas gdy Udio wyróżnia się zaawansowanymi możliwościami edycji i adaptacyjnymi algorytmami, które pozwalają na bardziej spersonalizowane tworzenie muzyki.

Najważniejsze różnice między Suno a Udio:

CechySunoUdio
Podstawowa funkcjonalnośćGenerowanie muzyki, aranżacje, teksty piosenekGenerowanie muzyki, automatyczne kompozycje, edycja audio
Architektura AIOparta na modelach Transformer i technikach NLPAdaptacyjne algorytmy uczenia maszynowego z dużą rolą wielosektorowego klastrowania zasobów danych
Interfejs użytkownikaIntuicyjny interfejs do wprowadzania promptów i parametrów muzycznychProsty w obsłudze interfejs z opcjami konfiguracji stylu, instrumentów i długości utworu
Dostępność stylów muzycznychSzeroka gama stylów muzycznych, od popu po muzykę klasycznąWszechstronne wsparcie dla różnych gatunków muzycznych, w tym pop, rock, EDM
Personalizacja utworówOpcje dostosowywania instrumentów, rytmu i harmoniiMożliwość precyzyjnej edycji fragmentów utworów, regeneracja sekcji audio
Licencjonowanie i subskrypcjeDarmowa wersja oraz płatne plany subskrypcyjne z dodatkowymi funkcjamiPlany subskrypcyjne: darmowy, Standard i Pro z różnymi limitami kredytów
Analiza promptówWykorzystanie zaawansowanych technik NLP do analizy i generowania muzyki zgodnej z promptamiAnaliza preferencji użytkownika, adaptacyjne uczenie się stylu muzycznego
Możliwości edycjiOgraniczona do podstawowej edycji generowanych utworówZaawansowane narzędzia edycji, w tym audio inpainting i dostosowywanie okien kontekstowych
Społeczność i wsparcieDynamicznie rozwijająca się społeczność użytkowników i regularne aktualizacjeRozbudowana społeczność, wsparcie przez platformy takie jak Discord i Reddit
Główne zastosowaniaUtwory muzyczne, wstawki muzyczne, podcasty, treści multimedialne, tekstyUtwory muzyczne, wstawki muzyczne, podcasty, treści multimedialne, teksty

Zarzuty dotyczące praw autorskich

Pojawienie się generatorów muzyki jest stosunkowo nowym tematem, ale już teraz nie brakuje kontrowersji na poziomie prawnym. Eksperci wskazują, że generatory A.I. wykorzystują wielokrotnie przetwarzane, ale wciąż oryginalne utwory zastrzeżone prawami autorskimi. Pojawia się więc pytanie, czy utwór, który powstanie w ten sposób, może być traktowany jako “dzieło” w myśl aktualnej ustawy o prawach autorskich. Idąc dalej, zasadna jest wątpliwość, na ile dany utwór jest oryginalny, a także czy poszczególne jego elementy nie są bezpośrednio wycięte z innych dzieł.

Najbardziej kontrowersyjna wydaje się kwestia przypisywania autorstwa oraz wykorzystywania materiałów w sposób komercyjny. Warto zwrócić uwagę na to, że prawa autorskie są niezwykle skomplikowaną dziedziną prawa. Ze względu na to, że korzystanie z Udio czy Suno nie jest ograniczone terytorialnie, problem ma charakter globalny. Jednocześnie definicje i różnice w wykładni prawa autorskiego pomiędzy różnymi państwami są gigantyczne.

robot dyrygujący orkiestrą
Sztuczna inteligencja nie tworzy muzyki z próżni – wykorzystuje i modyfikuje już istniejące zasoby, które mogą być objęte prawami autorskimi.

Rewolucja w generowaniu muzyki – podsumowanie

Przyszłość tworzenia muzyki na pewno jest nierozerwalnie związana z rozwojem sztucznej inteligencji. O ile ludzie raczej nie będą chcieli słuchać i kibicować “zespołom” A.I., o tyle rola algorytmów w tworzeniu muzyki na potrzeby filmów, podcastów i wszelkich treści multimedialnych jest nie do przecenienia.

Suno i Udio już teraz zapewniają taką jakość nagrań, która z powodzeniem mogłaby się znaleźć na radiowej playliście, a i tak mało kto odczułby różnicę. Narzędzia są bardzo innowacyjne, a dzięki architekturze Transformers, odpowiednio zmodyfikowanej, zaawansowanym technikom przetwarzania języka naturalnego i klastrowania mogą generować treści dobrze odpowiadające naszym potrzebom. Najwięcej kontrowersji dotyczy aspektów prawnych, nie technicznych. Jeśli bowiem chodzi o te drugie, to już dziś Udio i Suno mają potencjał, aby zrewolucjonizować proces tworzenia muzyki i stać się nieodzownym narzędziem dla muzyków i producentów na całym świecie.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *