Výskumníci Apple vyvinuli upravenú verziu modelu SlowFast-LLaVA, ktorá prekonáva väčšie modely v analýze a porozumení dlhých videí. Ide o model SlowFast‑LLaVA‑1.5, čiže skupinu Video LLM (Large Language Models), ktoré využívajú tokenovo úsporný prístup na analýzu dlhých videí. Model kombinuje dvojprúdový mechanizmus SlowFast pre efektívne spracovanie temporálnej informácie a dosahuje špičkové výsledky na benchmarkoch LongVideoBench a MLVU i v menších rozsahoch (1B–7B parametrov).