- #Umelá inteligencia
- 3 min.
- 10.10.2024
Meta dokáže vygenerovať deepfake video z jednej vašej fotky, aj so zvukom
Spoločnosť Meta stojaca primárne za sociálnymi sieťami Facebook, Instagram a Threads, predstavila nový AI model pre generovanie videí Movie Gen. Videá dokáže generovať z textového popisu, existujúceho obrázka, upravovať ich a pridať k nim aj vygenerované zvuky.
Meta tak drží tempo s konkurenčnými spoločnosťami Google a OpenAI. Ani jeden z ich modelov však v tejto chvíli ešte nie je verejne dostupný.
Modely umelej inteligencie pre generovanie videí urobili v posledných dvoch rokoch obrovské pokroky. Z nezmyselných sekvencií pripomínajúcich zlé sny, sme sa prepracovali k videám, ktoré netrénované okolo nemá šancu rozoznať od reálnych záberov.
Meta za to môže zrejme vďačiť aj nespočetnému obsahu, ktoré používatelia publikovali na jej sociálnych sieťach, hoci to spoločnosť priamo nepriznáva. Na tréning modeu Movie Gen údajne použila „kombináciu licencovaného a verejne dostupného obsahu“, vrátane 100 miliónov videí a 1 miliardu obrázkov.
Podobne ako to už dlhšie dokážu modely pre generovanie obrázkov, dokáže Movie Gen generovať videá priamo z textového popisu. Výsledkom sú 4 až 16-sekundové sekvencie so 16 snímkami za sekundu vo Full HD rozlíšení a pomeroch strán 1:1, 9:16 a 16:9. Ako podklad pre video však modelu môže poslúžiť aj fotografia doplnená o vlastný popis, čoho výsledkom sú „personalizované videá“, inak povedané, deepfake.
Movie Gen umožňuje tvorcom videá aj priamo editovať a tak v nich napríklad zameniť pozadie za osobami, doplniť či odstrániť z nich objekty, ako aj úplne zmeniť ich kontext výmenou niektorých objektov za iné. Úpravy, ktoré by tak doteraz zvládol vykonať iba skúsený používateľ profesionálnych nástrojov, tak na pár kliknutí bude môcť vykonať každý.
Unikátne na modeli Movie Gen je, že k videám dokáže vytvárať aj zvuky a to opäť aj podľa zadania od používateľa. Zvuky môžu stopercentne zodpovedať obsahu videa, ale aj nemusia. Všetko závisí len od toho, akú požiadavku dáte modelu pomocou textu. Zatiaľ čo videá model generuje pri 30 miliardách parametrov, pri zvukoch využíva 13 miliárd a zvukové efekty s hudbou tvorí s kvalitou 48 kHz.
Meta vo svojej štúdii uvádza, že jej model prekonáva aj konkurenčné generatívne modely Runway Gen3 (o 35,02 %), LumaLabs (o 60,58 %) či OpenAI Sora (o 8,23 %) a to ako v celkovej kvalite videí a tiež v oblastiach personalizácie a presných úprav videí. V porovnaní s čínskym modelom Kling1.5 je Movie Gen pomerne vyrovnaný s rozdielom len 3,87 %.
Podobne ako väčšina konkurencie, ani Meta zatiaľ nie je pripravená model publikovať verejne. Generovanie videá pomocou týchto modelov je stále príliš pomalé a z hľadiska výpočtového výkonu drahé. Samotná Meta však naznačuje, že jedného dňa možno schopnosti Movie Gen uvidíme integrované vo funkcii Reels na Instagrame alebo v četoch na WhatsAppe, kde si budeme môcť priamo generovať a posielať vlastné AI videá.