- #Umelá inteligencia
- 4 min.
- 21.2.2024
Nová AI od Google sa naučila unikátny jazyk len z gramatickej príručky
Sú to len dva týždne, čo Google nahradil svoju umelú inteligenciu Bard novším a pokročilejším modelom zvanom Gemini. V podobe, v akej debutoval na verejnosti, sa ale príliš dlho neohrial. Už čoskoro ho nahradí vylepšený model Gemini 1.5.
Prvá verzia novej generácie modelu, ktorú Google vydáva v predbežnom prístupe, bude Gemini 1.5 Pro. V schopnostiach sa vyrovná aj súčasnému modelu Gemini 1.0 Ultra, ktorý je dostupný za poplatok 20 dolárov mesačne.
Google pri novej generácii svojho modelu dokázal výrazne zvýšiť množstvo informácií, ktoré dokáže Gemini spracovať. Po novom dokáže model konštantne spracovávať 1 miliónov tokenov, čo je pre lepšiu predstavu viac ako 700-tisíc slov, cez 30-tisíc riadkov kódu, 11 hodín zvuku alebo 1 hodina videa. S týmito rôznymi formátmi dát dokáže Gemini pracovať aj kombinovane.
Gemini 1.5 je postavený na architektúre MoE (Mixture-of-Experts), v ktorom sú na rozdiel od jednej veľkej neurónovej siete modely MoE rozdelené na menšie „expertné“ neurónové siete. Tieto modely sa na základe učenia inteligentne aktivujú iba v častiach, ktoré sú pri aktuálnej úlohe potrebné, vďaka čomu dokáže byť Gemini efektívnejší ako štandardné modely.
Z hľadiska kapacity pôvodný model Gemini 1.0 začínal na schopnosti spracovávať konštantne 32-tisíc tokenov, pri Gemini 1.5 táto kapacita stúpa na 1 milión tokenov, no Google má už na pozadí za sebou aj úspešné testy s 10 miliónmi tokenov. Implementovať poslednú spomínanú kapacitu do verejne dostupného modelu však bude ale ešte istá výzva aj pre Google.
Schopnosti nového modelu Google predviedol v sérii videí, v ktorých tentokrát na rozdiel od prvých predvádzačiek jasne upozorňuje, že predvádzané výstupy nie sú ukazované v reálnom čase, ale videá boli pre demonštratívne účely zrýchlené. V prvom videu Gemini analyzuje 402-stranový prepis misie Apollo 11, v ktorej najprv hľadá vtipné momenty a neskôr z jednoduchej kresby identifikuje konkrétny moment, ku ktorému dokáže správne uviesť aj časovú značku z prepisu.
Okrem dlhých dokumentov dokáže Gemini 1.5 bez problémov analyzovať aj obsah 44-minútového nemého filmu, ktorý predstavoval 696 417 tokenov na spracovanie. Model dokáže na základe textovej požiadavky identifikovať konkrétny moment z filmu a následne z lístku zachyteného vo filme vyčítať konkrétne údaje o jeho cene, dátume a podpise.
V poslednom deme sa Google zameral na prácu s kódom o dĺžke viac ako 100-tisíc riadkov, ktorého obsahom bola knižnica animácií Three.js. Gemini v analyzovaných súboroch dokázal za zhruba 60 sekúnd nájsť príklady konkrétnych animácií postáv a v rovnakom čase odpovedať používateľovi na konkrétne otázky ohľadom kódu, ako aj vykonať požadované úpravy v samotnom javascript kóde.
Posledný a snáď najpútavejší príklad schopnosti Gemini 1.5 už Google na videu nezachytil. Gemini sa mal iba na základe gramatickej príručky naučiť jazyk Kalamang, ktorým vo svete hovorí menej ako 200 ľudí a bez analýzy ďalších textov tento jazyk bez problémov prekladať do angličtiny.
Vývojári a spoločnosti môžu model Gemini 1.5 Pro začať testovať už dnes prostredníctvom nástrojov AI Studio a Vertex AI. Na verejnosť sa Gemini 1.5 Pro dostane v oklieštenej forme s limitov na 128-tisíc tokenov už „čoskoro“. Vyššia kapacita so stropom po 1 miliónov tokenov už bude spoplatnená, podobne ako súčasný model Gemini 1.0 Ultra či konkurenčný ChatGPT Plus.