Mohla by sa pouličná navigácia s umelou inteligenciou orientovať v dovtedy neznámych štvrtiach, ak by mala k dispozícii dostatok testovacích dát? To je oblasť, ktorú výskumníci z DeepMind aktuálne skúmajú. Poznatky publikovali v dokumente „Cross-View Policy Learning for Street Navigation. DeepMind je jedna z divízii materskej spoločnosti Google Alphabet.
V dokumente popisujú prenos skúseností umelej inteligencie (UI) vyškolenej na vnímanie pozemných pohľadov na cieľové časti mesta pomocou vizuálnych informácií získaných z vtáčej perspektívy pre dosiahnutie lepšej presnosti. Autorov inšpirovali zručnosti ľudí, ktorí sa dokážu rýchlo zorientovať v neznámom meste vďaka čítaniu mapy.
Schopnosť orientovať sa pomocou vizuálnych pozorovaní v neznámych prostrediach je základnou zložkou systémov s umelou inteligenciou a pretvávajúcou výzvou pre Deep Reinforcement Learning (RL), čiže posilnené hĺbkové učenie.
Jednou z oblastí, kde sa dajú takéto systémy RL testovať, je aplikácia Street View od Google. Tá poskytuje realistické fotografické snímky z pozemskej perspektívy, s rôznorodými pouličnými detailami. Takúto upravenú aplikáciu nazvali výskumníci z DeepMind Street Learn a používa sa na výskum navigácie.
Lenže nie je navigácia, ako navigácia. Systémy pouličnej navigácie orientované na cieľ zatiaľ neboli schopné navigovať do predtým nevidených oblastí bez rozsiahleho preškolenia a spoliehanie sa na simuláciu nie je najlepšie riešenie.
Keďže letecké snímky sú ľahko prístupné aj v globálnom rozsahu, výskumníci navrhujú namiesto toho trénovať multimodálne postupy na kombinácii pozemných a leteckých záberov a potom preniesť pohľad na postupy zamerané na neznáme (cieľové) časti mesta s využitím leteckých snímok. Spoľahlivosť sa dosiahne učením rozpoznávania priestoru spoločného pre oba pohľady.
Výskumníci najprv zhromaždili regionálne letecké mapy, spárovali ich s pohľadmi na úrovni ulice na základe zodpovedajúcich geografických súradníc. Následne spustili trojstupňový proces strojového učenia, ktorý začal školením o údajoch o zdrojovom regióne, pokračoval adaptáciou pomocou pozorovania cieľového regiónu v leteckom pohľade a zakončil sa prenosom poznatkov do cieľovej oblasti pomocou pozorovania v teréne.
Systém strojového učenia vedeckého tímu zahŕňal trojicu modulov, vrátane konvolučného modulu zodpovedného za vizuálne vnímanie, modulu dlhodobej a krátkodobej pamäte (LSTM), ktorý zaznamenal funkcie špecifické pre danú lokalitu, a neurónového modulu.
Experiment bol nasadený v prostredí StreetAir, čo je viacúrovňové vonkajšie prostredie ulíc ako nadstavba StreetLearn, s interaktívnou zbierkou panoramatických fotografií ulíc Street View a Google Maps. V rámci StreetAir a StreetLearn letecké snímky pokrývali New York City (Downtown NYC a Midtown NYC) a Pittsburgh (Allegheny a kampus Carnegie Mellon University) usporiadané tak, že na každej súradnici zemepisnej šírky a dĺžky prostredie pokrývalo 84 x 84 leteckých snímok rovnakej veľkosti ako pohľad zobrazený na zemi.
Výsledky sú povzbudivé a podľa autorov nový systém inteligentnej navigácie funguje omnoho presnejšie a spoľahlivejšie, ako systémy založené len na jednom (tzn. pozemnom) pohľade. Snáď sa podobné inteligentné riešenia čoskoro objavia aj v smartfónoch a autonavigáciách.