Emu3.5: очередная «мультимодальность» или реальный прорыв в предсказании будущего?

Все давно устали от моделей, которые «понимают» мир лишь обрывками, теряя контекст в длинных последовательностях текста и изображений – как будто пытаешься собрать фильм из отдельных кадров. Но вот, когда мы уже думали, что знаем всё, появляется «Emu3.5: Native Multimodal Models are World Learners», заявляющая о своей способности к настоящему «миропониманию» – но действительно ли эта «встроенная» мультимодальность – не просто маркетинговый ход, а реальный прорыв в способности модели удерживать целостную картину мира на протяжении долгого времени, или же это очередная иллюзия, созданная впечатляющими, но поверхностными результатами?






