- #Novinky
- 4 min.
- 1.7.2018
Umelá inteligencia dokáže ďalší psí kúsok - vygeneruje 3D objekt z 2D obrázka
Neurónová sieť od DeepMind, patriaca spoločnosti Google, sa dokáže učiť z okolia a je veľkým prínosom v oblasti vizuálneho rozpoznávania umelej inteligencie.
Nový výskum v oblasti neurónových sietí prináša algoritmus, ktorý porozumie scéne a reprezentuje ju v ucelenom formáte. Vďaka strojovému učeniu si táto AI vie doplniť chýbajúce informácie a vyskladať 3D modely.
Je to dôležitý krok, pretože počítače nevidia ako človek. Keď človek vidí napríklad zo stoličky len tri nohy, vie, že tam patrí aj štvrtá. Podobne je to aj s farbami. Ak je stolička spredu červená, veľmi pravdepodobne bude taká istá aj z iného uhla.
Tím DeepMind, pod vedením Aliho Eslamiho a Danila Rezendea, teraz vyvinul program založený na hlbokých neurónových sieťach, ktorých schopnosti sa približujú tým ľudským. Sieť dostala názov GQN (Generative Query Network – generatívna sieť dotazov). Dokáže vygenerovať pravdepodobný pohľad na scénu z ľubovoľného uhla, aj keď nepozná väčšinu informácií. AI používa neurónovú sieť na vytvorenie kompaktného matematického zobrazenia tejto scény. Potom použije toto zobrazenie na vykreslenie objektov a scény z nových uhlov, z perspektívy, ktoré sieť predtým „nevidela“.
Ľudia majú dlhoročné skúsenosti, ktoré využívajú aj pri pohľade na scény v reálnom svete. Neurónová sieť DeepMind si tvorí podobné skúsenosti a vyvíja vlastnú intuíciu na modelovanie 3D objektov z nových perspektív, aj z tých, ktoré si musí predstaviť.
Sieť GQN má dve prepojené neurónové siete. Na obrázku vľavo zbiera reprezentatívna sieť obrázky, ktoré predstavujú scénu aj spolu s údajmi o umiestnení kamery pre každú snímku. Tieto údaje potom zhusťuje do kompaktných matematických zobrazení celých scén.
Generujúca sieť má za úlohu otočiť túto scénu a ukázať ju, ako bude vyzerať z iného uhla. GQN tak dokáže generovať obrazy scén, ktoré sú (takmer) totožné so skutočnou realitou. Obe siete sú spoločne školené, môžeme si ich predstaviť ako spojené vedenie, oba konce sa musia presne spojiť. Oblasti oboch sieti sú tesné, preto sa museli naučiť spolupracovať, aby bol obsah scény vykreslený kompaktne.
Keď bola sieť dostatočne vyškolená, dali jej vedci jeden záber z Tetrisu. Z tohoto jediného obrázku bola sieť vygenerovať realistické trojrozmerné obrazy z akéhokoľvek uhla. Pravdaže, vždy to nedokázala, napríklad ak je snímka v uhle, kde sú niektoré časti kúska schované. Sieť vtedy nevie, ako skryté kúsky skladačky vyzerajú. Keď sú však viditeľné, výsledky sú až prekvapujúco dobré.
V ďalšom experimente vytvorili výskumníci 3D bludisko. Malo veľa miestností a chodieb, pričom každý obrázok ukazoval len malú časť z celkovej scény. Keď však sieť GQN dostala 50 záberov, dokázala zostaviť presný model celého bludiska.
DeepMind a jej GQN sú ďalšou ukážkou veľkej univerzálnosti hĺbkových neurónových sietí. Samotných vedcov prekvapila svojimi výsledkami, ako dokáža pracovať s perspektívou, svetlom a tieňom. Najpozoruhodnejšie však je, že aj keď programátori dokážu vytvoriť rendery a enginy, v softvéri DeepMind to neurobili. Vieme teda, že tieto siete majú ďalšiu pozoruhodnú schopnosť – vedia uvažovať trojrozmerne.
Samozrejme, zatiaľ nie je praktické uplatenie DeepMind možné, je to len výsledok výskumu. Scény musia byť pomerne jednoduché, aby ich GQN vedela vymodelovať do 3D. V určitom okamihu môže byť scéna príliš zložitá na efektívnu reprezentáciu pomocou kompaktného matematického zobrazenia, na ktorom je založený jej softvér. Vedci budú musieť teraz zistiť, či môže byť táto technika vylepšená tak, aby dokázala zobraziť náročné scény s mnohými objektmi.
V blízkej budúcnosti však môže tento algoritmus pomôcť napríklad pri riadení autonómnych vozidiel, kde bude vidieť a predvídať stále meniacu sa situáciu na ceste.