Понимание видео нового поколения: испытание для искусственного интеллекта

Представлен масштабный набор данных MMOU, призванный оценить способность моделей искусственного интеллекта понимать и рассуждать на основе длинных, сложных видео с использованием как визуальной, так и звуковой информации.

![В период с 2023 по 2025 год наблюдается стремительный рост исследований в области обучения моделей, характеризующийся расширением областей применения, сближением подходов, основанных на комбинации обучения с подкреплением и контролируемого обучения [latex]SFT-RL[/latex], поддержкой развитой инфраструктуры и библиотек, а также переходом от ручной разметки данных к использованию данных, генерируемых всё более мощными открытыми моделями.](https://arxiv.org/html/2603.13985v1/x1.png)




