- #Umelá inteligencia
- 5 min.
- 27.11.2024
NVIDIA vyvinula AI model, ktorý dokáže vytvárať doposiaľ neexistujúce zvuky
Spoločnosť NVIDIA predstavila pravdepodobne najflexibilnejší AI model na generovanie nových zvukov na svete. Fugatto dokáže vygenerovať akúkoľvek kombináciu hudby, hlasov a zvukov len na základe textového alebo zvukového zadania.
Takáto umelá inteligencia podľa slov spoločnosti nemá nahradiť kreatívne talenty, ale im naopak poskytnúť nástroje na jednoduchšiu a rýchlejšiu tvorbu unikátnych diel.
NVIDIA prirovnáva nástroj Fugatto ku švajčiarskemu nožíku na zvuky. Generovanie piesní na základe textového zadania nie je žiadnou novinkou. Čím sa ale Fugatto líši od doterajších modelov, je flexibilita, s akou dokáže zvuky vytvárať a spracovávať.
Fugatto dokáže vytvoriť novú skladbu na základe textového pokynu, zároveň ale z existujúcich nahrávok dokáže odstrániť alebo do nich naopak pridať celkom nové hudobné nástroje. V hlasových nahrávkach dokáže zmeniť prízvuk prejavu osoby alebo jej náladu a tak docieliť, aby nahrávka veselej osoby znela naopak nahnevane. Schopnosť kombinovať prvky napokon Fugatto umožňuje vytvárať aj úplne nové, doposiaľ nepočuté zvuky, ako je napríklad štekajúci saxofón.
Hudobní skladatelia si tak môžu pomocou modelu rýchlo vypočuť nahrávku svojho nového nápadu na skladbu s tým, že do nej v priebehu niekoľkých minút dosadia rôzne hlasy a nástroje, prípadne vyskúšajú skladbu pretransformovať do úplne nového žánru. Podobne môžu Fugatto podľa Nvidie využiť napríklad aj reklamné agentúry, ktoré si ešte v štádiu brainstormingu budú môcť vyskúšať rôzne nálady a prejavy v pripravovanom spote skôr, než dajú reklamu nahrávať reálnym hercom.
Fugatto sa teoreticky môže objaviť aj v hrách, kde sa s využitím syntézy hlasov a generatívnej umelej inteligencie experimentuje už dlhšiu dobu. Postavy v niektorých modoch a prototypoch hier dokážu už dnes realistickým hlasom reagovať na dianie alebo slová ľudského hráča, zvyčajne pri tom ale znejú pomerne monotónne. Fugatto je ale schopný vygenerovať hlas z textového zadania s akýmkoľvek prízvukom, intonáciou a náladou.
„Jednou zo schopností modelu, na ktoré sme obzvlášť hrdí, je to, čo nazývame avokádová stolička,“ uviedol Rafael Valle, manažér aplikovaného audio výskumu v spoločnosti NVIDIA a zároveň orchestrálny dirigent a skladateľ. Na mysli má pod týmto prirovnaním schopnosť modelu vytvárať úplne unikátne zvuky z kombinácie doposiaľ nespojených prvkov.
Fugatto tak dokáže vytvoriť zvuk, ktorý pripomína štekajúcu trúbku alebo mňaukajúci saxofón. Rovnako dokáže na základe textovej požiadavky napríklad docieliť, aby sa zvuk prechádzajúceho vlaku plynule zmenil na orchestrálnu filmovú hudbu, alebo prechádzajúca búrka postupne prešla do zvuku spevu vtákov. Tieto zvuky by teoreticky bolo možné obratom použiť aj vo filmovej alebo videohernej tvorbe.
Typické pre generatívnu umelú inteligenciu je, že má problém s konzistentnosťou svojej tvorby. Stretnúť ste sa s tým už mohli, ak ste napríklad pomocou niektorého z AI modelov tvorili obrázky. Ak model požiadate iba o miernú úpravu drobného detailu obrázka, späť dostanete zvyčajne celkom nový obrázok s výrazne pozmeneným vizuálom. Fugatto ale dokáže vykonávať aj drobné zmeny, prípadne pri väčšej úprave podržať jeden požadovaný prvok nahrávky nezmenený.
Model teda dokáže napríklad na škále citlivo upravovať náladu hlasového prejavu bez toho, aby nahrávka zmenila svoju dĺžku alebo obsah. Pri skladbách dokáže Fugatto zmeniť hudobný štýl alebo nástroj bez zmeny v samotnej melódii. Na bazálnej úrovni totiž pracuje priamo s jednotlivými tónmi, ktoré dokáže posúvať alebo nahrádzať inými.
„História hudby je aj históriou technológií. Elektrická gitara dala svetu rock and roll. Keď sa objavil sampler, zrodil sa hip-hop,“ uviedol Ido Zmishlany, multiplatinový producent a skladateľ, ako aj člen programu NVIDIA Inception pre startupy. „S AI píšeme ďalšiu kapitolu hudby. Máme nový nástroj na tvorbu hudby – a to je super vzrušujúce.“
V súčasnosti nie je Fugatto verejne dostupný a NVIDIA zatiaľ ani jeho zverejnenie do budúcnosti neprisľúbila. Kým sa tak stane, môžete schopnosti modelu bližšie preskúmať aspoň prostredníctvom nahrávok, na ktorých spoločnosť bližšie prezentuje jeho schopnosti.