Čo je to Projet Genie? Interaktívny generatívny svetový model

Zdroj | Google

Čo je to

Zdroj | Google

Predstavte si systém, ktorý dokáže v zlomku sekundy vytvoriť digitálny priestor na základe jedinej vety alebo statického obrázka a následne vám dovolí do tohto priestoru vstúpiť a ovládať v ňom pohybujúcu sa postavu.

Presne na tomto princípe funguje Project Genie, experimentálny výskumný prototyp od spoločnosti Google DeepMind.

Project Genie predstavuje v súčasnosti najpokročilejšiu implementáciu generatívnych svetových modelov v praxi. Celý systém je navrhnutý ako webový prototyp, ktorý používateľovi umožňuje nielen pasívne sledovať vygenerovaný obsah, ale aktívne do neho vstupovať a ovplyvňovať jeho vývoj.

Obsah pokračuje pod reklamou

Na rozdiel od tradičných metód renderovania v počítačovej grafike, kde sú objekty definované pevnou geometriou, Project Genie vypočítava vizuálnu podobu sveta na základe štatistických pravdepodobností naučených z obrovského množstva video dát.

https://www.youtube.com/watch?v=s40a06a5wIc

Project Genie | How world sketching works (https://www.youtube.com/watch?v=s40a06a5wIc)

Architektúra modelu Genie 3 a technické špecifikácie

Srdcom celého projektu je model Genie 3, ktorý patrí do kategórie všeobecných svetových modelov. Jeho hlavnou úlohou je simulácia dynamiky prostredia. Technicky pracuje model v rozlíšení 720p, čo poskytuje dostatočnú úroveň detailov pre realistické zobrazenie textúr, ako sú odrazy na vodnej hladine alebo pohyb vegetácie. Plynulosť simulácie zabezpečuje snímková frekvencia v rozsahu 20 až 24 FPS.

Výpočtový proces prebieha v reálnom čase prostredníctvom auto-regresívneho predpovedania. Model nedostáva informácie o 3D priestore v tradičnom zmysle, ale na základe predchádzajúcich snímkov a aktuálneho vstupu z ovládania (šípky, klávesy) predpovedá, ako by mal vyzerať nasledujúci logický stav vizuálneho poľa. Tento proces zahŕňa nielen posun kamery, ale aj simuláciu fyzikálnych javov, ako je gravitácia, kolízie objektov alebo zmeny osvetlenia.

Proces tvorby a používateľské rozhranie

Používateľská skúsenosť v Project Genie začína v module „Design“, kde sa uplatňuje model Gemini na spracovanie textových pokynov a model Nano Banana Pro na generovanie prvotných vizuálnych návrhov. Používateľ má možnosť nahrať vlastný obrázok, ktorý model následne „oživí“ a premení na trojrozmerný navigovateľný priestor. V tomto štádiu sa definujú kľúčové parametre:

Typ postavy a perspektíva: Je možné zvoliť pohľad z prvej osoby (FPS) alebo z tretej osoby, kedy je postava viditeľná v prostredí.
Mód pohybu: Systém prispôsobuje generovanie okolia podľa toho, či sa postava pohybuje po zemi, letí vo vzduchu alebo využíva dopravný prostriedok.

Po spustení režimu „Explore“ začne Genie 3 v reálnom čase budovať svet v smere pohybu používateľa. Významným technickým parametrom je časová konzistencia. Ak sa používateľ v simulácii otočí o 360 stupňov, model musí zobraziť presne tie isté objekty, ktoré vygeneroval pred chvíľou. Táto krátkodobá pamäť systému umožňuje prieskum bez toho, aby sa svet pod rukami používateľa náhodne menil.

https://www.youtube.com/watch?v=YxkGdX4WIBE

Project Genie | Experimenting with infinite interactive worlds (https://www.youtube.com/watch?v=YxkGdX4WIBE)

Kontext výskumu a prepojenie s agentmi AI

Project Genie nie je určený primárne na zábavu, ale slúži ako kritická infraštruktúra pre tréning umelej inteligencie smerujúcej k AGI (všeobecnej umelej inteligencii). Hlavným výskumným cieľom je učenie agentov (napríklad systému SIMA) prostredníctvom interakcie. Model Genie 3 tu funguje ako trenažér, ktorý agentovi poskytuje vizuálnu spätnú väzbu na jeho akcie. Agent sa tak učí chápať príčinu a následok v komplexnom prostredí bez toho, aby musel byť programovo definovaný každý jeden objekt alebo pravidlo fyziky. Tieto svety poskytujú nekonečné množstvo variácií, čo zabraňuje takzvanému „pretrénovaniu“ agentov na konkrétne scenáre.

Prevádzkové obmedzenia a limity prototypu

Obsah pokračuje pod reklamou

Napriek pokročilým schopnostiam má súčasná verzia prototypu niekoľko zásadných limitov, ktoré vyplývajú z jeho experimentálnej povahy. Model má tendenciu k vizuálnym chybám (artefaktom) v prípadoch, keď používateľ vykoná nepredvídateľný pohyb, ktorý model nedokáže logicky doplniť. Latencia ovládania, teda čas medzi fyzickým stlačením klávesy a reakciou postavy na obrazovke, je stále vyššia ako pri bežnom softvéri.

https://www.youtube.com/watch?v=cULEAl2wDxw

Project Genie | How image upload works (https://www.youtube.com/watch?v=cULEAl2wDxw)

Dĺžka jednej súvislej generovanej sekvencie je momentálne limitovaná na 60 sekúnd. Schopnosť modelu interpretovať a zobrazovať texty vnútri sveta je taktiež obmedzená; nápisy na budovách alebo značkách môžu byť skomolené, pokiaľ neboli súčasťou trénovacej sady. Niektoré funkcie ohlásené v skorších fázach vývoja, ako napríklad schopnosť meniť svet pomocou textových príkazov počas prebiehajúceho prieskumu (promptable events), v aktuálnej verzii prototypu Project Genie pre verejnosť ešte nie sú plne implementované. Prístup k systému je prísne limitovaný na používateľov s predplatným Google AI Ultra v rámci USA, pričom firemné účty sú z bezpečnostných a administratívnych dôvodov nateraz vylúčené.

Tento článok napísala umelá inteligencia Gemini od Google. Článok bol skontrolovaný redakciou TECHBOX.

Čo je to

Odkaz bol úspešne skopírovaný. Ľutujeme, odkaz sa nepodarilo skopírovať.

Čo je to Projet Genie? Interaktívny generatívny svetový model

Architektúra modelu Genie 3 a technické špecifikácie

Proces tvorby a používateľské rozhranie

Kontext výskumu a prepojenie s agentmi AI

Prevádzkové obmedzenia a limity prototypu

Newsletter

Sledujte nás