Doteraz sa umelá inteligencia učila jazyk tak, že sa jej poskytovali anotácie popisujúce význam slov. Výsledok však, ako vieme, nie je dokonalý a je na míle vzdialený od ľudského. Vedci z MIT ukázali, ako by sa to mohlo zmeniť k lepšiemu. Zdá sa, že nemuseli ísť ďaleko pre inšpiráciu.
Deti sa učia jazyk pozorovaním. Sledujú svoje okolie, počúvajú ľudí a spájajú si videné s počutým. V oblasti umelej inteligencie (AI) sa jazyk učí pomocou syntaktických a sémantických analyzátorov. Tieto systémy sú vycvičené na vetách, ktoré opisujú štruktúru a význam slov. Zhromažďovanie údajov o anotáciách býva časovo náročné a je ťažšie pre menej rozšírené jazyky. Ani ľudia nie sú vždy spokojní s anotáciami, ktoré navyše nemusia presne odrážať to, ako ľudia prirodzene rozprávajú.
Vedci z Massachusettského technologického instinštitútu (MIT) vyvinuli analyzátor, ktorý imituje detské vzdelávacie procesy sledovaním a následným spájaním. Systém študuje videá s titulkami, kde sa naučí spájať slová s objektami a akciami určením presnosti popisu. Dokáže tak zmeniť pravdepodobné významy na logické matematické výrazy a potom vyberá také slovo, alebo frázu, ktorá najlepšie korešponduje s tým, čo si AI myslí, že sa odohráva. Tento prístup by podľa vedcov mohol rozšíriť typy údajov a znížiť úsilie potrebné na školenie analytikov.
Rozhodujúci je flexibilný prístup. V budúcnosti sa predpokladá, že by sa mohol takýto analyzátor používať na zlepšovanie prirodzenej interakcie medzi ľuďmi a osobnými robotmi. Robot, ktorý bude vybavený analyzátorom môže neustále pozorovať prostredie, čím si bude zlepšovať chápanie hovorených príkazov, a to aj dokonca vtedy, ak hovorené vety nie sú celkom gramaticky správne alebo jasné.
„Ľudia sa medzi sebou rozprávajú v čiastkových vetách, rozbehnutých myšlienkach, v nárečí a v cudzom jazyku. Chcete mať vo svojom dome robota, ktorý sa prispôsobí vášmu konkrétnemu spôsobu rozprávania a stále si uvedomuje, čo to znamená,“ hovorí spoluautor Andrei Barbu, výskumný pracovník laboratórií informatiky a umelej inteligencie v rámci MIT McGovern Institute.
Vedci pripravili súbor údajov s asi 400 videami, v ktorých vykonávajú ľudia veľa akcií. Účastníci na platforme crowdsourcing Mechanical Turk poskytli 1 200 titulkov pre tieto videá. Vyhradili 840 príkladov videozáznamov na výcvik a ladenie, 360 použili na testovanie. Veľkou výhodou využitia parsovania založeného na vízii je, že nepotrebujete veľa dát, povedal Barbu. Pri výcviku dali určiť analyzátorovi cieľ, či veta presne popisuje dané video. Poslali mu video a zodpovedajúce titulky. Parser extrahuje možné významy nadpisu ako logické matematické výrazy. Veta „Žena dvíha jablko“ môže napríklad byť vyjadrená ako: λxy. žena x, pick_up xy, jablko y.
Tieto výrazy a videá vložili vedci do algoritmu počítačového videnia, ktorý nazvali Sentence Tracker. Algoritmus sleduje každý obrazový rámec a pozoruje ako sa v priebehu času transformujú ľudia i objekty, aby zistil či sa prehrávajú podľa popisu.Týmto spôsobom určuje či je pravdepodobne pravdivý význam pre video.
V budúcnosti sa chcú výskumníci zaoberať aj modelovaním interakcií, nielen pasívnym pozorovaním. „Deti komunikujú so životným prostredím, keď sa učia. Našim nápadom je vytvoriť model, ktorý by tiež používal vnímanie, aby sa naučil,“ hovorí Candace Ross, študent a spoluautor príspevku.
Vedci tak v tomto prípade nemuseli pracne hľadať inšpiráciu, stačilo si všímať vlastných potomkov. No aj jednoduché riešenia, ktoré fungujú, musí niekto vymyslieť. My môžeme dúfať, že napríklad takí hlasoví asistenti (Siri, Alexa, Google) sa zdokonalia a prinesú do naších múdrych zariadení ľubozvučnú slovenčinu.