Видео в фокусе: Цена понимания движения для мультимодальных моделей

Автор: Денис Аветисян

Новое исследование показывает, как обучение моделей обработке видео может негативно сказаться на их способности понимать статические изображения.

После применения Video-SFT к моделям Qwen2.5-VL (7B, 32B, 72B) наблюдается дифференциация в механизмах внимания: в небольших моделях внимание становится более рассеянным при запросе вроде «Есть ли на изображении птица?», тогда как в крупных моделях сохраняется локализованная фокусировка на целевом объекте, что указывает на повышенную устойчивость к «временным ловушкам».

Работа посвящена анализу компромисса между улучшением понимания видео и сохранением качества обработки изображений в больших мультимодальных языковых моделях.

Несмотря на успехи мультимодальных больших языковых моделей, тонкости обучения на видеоданных остаются недостаточно изученными. В работе ‘Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models’ систематически исследуется влияние тонкой настройки на видео на развитие визуальных способностей моделей, выявляя закономерную тенденцию к улучшению понимания видеоконтента за счет снижения производительности на задачах, связанных со статичными изображениями. Полученные результаты указывают на существование своеобразного «временного капкана», где увеличение количества обрабатываемых кадров улучшает результаты на видео, но ухудшает распознавание изображений. Можно ли разработать стратегии, позволяющие эффективно балансировать между этими двумя типами визуального восприятия и сохранить общую производительность мультимодальных моделей?

В поисках смысла: от изображений к видео

Мультимодальные большие языковые модели (MLLM) демонстрируют стремительное развитие способностей к пониманию как изображений, так и видео, существенно превосходя традиционные подходы, работающие только с одним типом данных. Вместо обработки текста или визуальной информации изолированно, эти модели объединяют различные модальности, позволяя им формировать более полное и контекстуально-обоснованное представление о происходящем. Такой подход открывает новые возможности в задачах, требующих комплексного анализа, например, в автоматическом описании видеоконтента, распознавании объектов в динамичных сценах и даже в создании более интеллектуальных систем взаимодействия человека и компьютера. Вместо простого распознавания того, что изображено на картинке или видео, MLLM стремятся понять смысл и контекст происходящего, приближая искусственный интеллект к человеческому восприятию.

Современные мультимодальные большие языковые модели стремятся к объединению визуальной и текстовой информации, что позволяет достичь более глубокого и всестороннего понимания сцен. Вместо анализа изображения или текста по отдельности, эти модели способны одновременно обрабатывать оба типа данных, выявляя взаимосвязи и контекст, которые могли бы остаться незамеченными при традиционном подходе. Такое слияние позволяет не просто распознавать объекты на изображении, но и интерпретировать действия, понимать намерения и даже предсказывать будущие события, основываясь на визуальном повествовании и сопутствующем текстовом описании. В результате, возможность интеграции различных модальностей открывает новые перспективы в областях, требующих сложного анализа и понимания окружающего мира.

Переход от статических изображений к динамическим видео в обучении мультимодальных больших языковых моделей (MLLM) сопряжен с рядом специфических трудностей. Исследования показывают, что адаптация моделей, успешно работающих с изображениями, к обработке видеоданных часто приводит к снижению производительности. Это связано с тем, что видео содержит значительно больше информации и требует учета временной последовательности событий, что предъявляет более высокие требования к вычислительным ресурсам и архитектуре модели. В частности, модели испытывают трудности с поддержанием согласованности понимания на протяжении всего видеоряда и с эффективным извлечением релевантной информации из быстро меняющегося визуального потока, что проявляется в снижении точности выполнения задач, таких как распознавание действий или понимание сюжетной линии.

Обучение с подкреплением (SFT) приводит к снижению производительности модели Qwen2.5-VL-7B на мультимодальных бенчмарках MME, MMStar и MMBench по сравнению с базовой моделью, при этом увеличение количества избыточных входных кадров усугубляет эту проблему, что подтверждает эффективность предлагаемой стратегии Hybrid-Frame.

Временной капкан: парадокс мультимодального обучения

В ходе исследований было выявлено явление, получившее название «Временной Ловушки» (Temporal Trap). Эксперименты показали, что применение контролируемого обучения с учителем (Supervised Fine-Tuning, SFT) на видеоданных последовательно повышает способность моделей к пониманию видео, однако одновременно приводит к снижению производительности при обработке изображений. Данный парадоксальный эффект проявляется в ухудшении результатов на стандартных бенчмарках для анализа изображений, что указывает на взаимосвязь между способностью модели к обработке различных модальностей данных.

Наблюдаемый феномен “Временной Ловушки” частично объясняется наличием общих параметров в мультимодальных больших языковых моделях (MLLM). В процессе обучения на видеоданных происходит интерференция с ранее приобретенными пространственными способностями, что приводит к снижению производительности при обработке изображений. В частности, в ходе экспериментов с моделями LLaVA-1.5-7B зафиксировано снижение точности на бенчмарке MME, вплоть до 80.59 процентных пунктов в задаче распознавания знаменитостей после применения Video-SFT.

Ухудшение производительности при обучении с использованием видеоданных (Video-SFT) усугубляется факторами, такими как негативное выравнивание в процессе обучения и избыточное повторное воздействие временных данных. Негативное выравнивание приводит к конфликтам между визуальными представлениями, полученными из изображений и видео, в то время как избыточное повторение временной информации усиливает смещение модели в сторону обработки видео, ослабляя ее способность к пространственному рассуждению. Данная деградация, проявляющаяся в снижении производительности на задачах, требующих понимания изображений, была последовательно зафиксирована в различных моделях, включая LLaVA-1.5-7B, LLaVA-Next-Video-7B и Qwen2.5-VL-7B, что указывает на общую закономерность и необходимость разработки методов смягчения данного эффекта.

Наше исследование демонстрирует, что обучение с использованием видеоданных (<span class="katex-eq" data-katex-display="false">Video-SFT</span>) улучшает качество видео, но может снижать производительность при обработке статических изображений, что частично компенсируется адаптивной стратегией распределения бюджета кадров (<span class="katex-eq" data-katex-display="false">Hybrid-Frame</span>) в зависимости от характеристик обучающей выборки, при этом учитываются архитектура, масштаб и количество кадров. — Наше исследование демонстрирует, что обучение с использованием видеоданных ( $Video-SFT$ ) улучшает качество видео, но может снижать производительность при обработке статических изображений, что частично компенсируется адаптивной стратегией распределения бюджета кадров ( $Hybrid-Frame$ ) в зависимости от характеристик обучающей выборки, при этом учитываются архитектура, масштаб и количество кадров.

Гибридный подход: баланс между временем и пространством

Для решения проблемы “Временного Замыкания” (Temporal Trap) в процессе обучения Video-SFT, предложена Гибридная Стратегия Распределения Кадров (Hybrid-Frame Strategy). Данный метод представляет собой адаптивный подход к выделению кадров, позволяющий динамически регулировать количество используемых кадров в зависимости от сложности инструкций. В отличие от фиксированного количества кадров, используемого в традиционных подходах, Гибридная Стратегия позволяет модели концентрироваться на наиболее релевантной временной информации, минимизируя при этом влияние избыточных кадров на понимание статических изображений. Это достигается путем интеллектуального управления бюджетом кадров в процессе обучения, что обеспечивает более эффективное использование вычислительных ресурсов и повышение производительности модели.

Гибридная стратегия формирования кадров динамически регулирует объем используемых кадров в зависимости от требований инструкции, что позволяет модели концентрироваться на релевантной временной информации, минимизируя при этом влияние статических изображений на процесс обучения. Данный подход обеспечивает адаптацию количества выборочных кадров в процессе тренировки, позволяя модели эффективно использовать ресурсы и избегать перегрузки информацией, не относящейся к текущей задаче. Это позволяет улучшить способность модели к пониманию видео, не ухудшая при этом ее производительность в задачах, связанных с анализом отдельных изображений.

Интеллектуальное управление количеством кадров, используемых в процессе обучения, позволяет эффективно снизить ухудшение производительности и добиться превосходных результатов в задачах, связанных как с изображениями, так и с видео. В частности, модели, обученные с использованием Hybrid-Frame Strategy, демонстрируют точность в 63.94% по метрике MMStar, превосходя модели, обученные с использованием 8, 16, 32 и 64 кадров при одинаковых условиях инференса. Аналогично, точность по метрике MVBench составляет 63.94%, что также превышает показатели моделей, обученных с 16, 32 и 64 кадрами.

Обучение с использованием Video-SFT значительно улучшает производительность модели Qwen2.5-VL-7B на визуальных задачах, оцениваемых по изображениям и видео, причем эффективность возрастает с увеличением количества обучающих кадров (8/16/32/64).

Архитектуры в деле: Qwen2.5-VL & LLaVA

Экспериментальные данные подтверждают эффективность стратегии Hybrid-Frame применительно к различным архитектурам мультимодальных больших языковых моделей (MLLM), в частности, Qwen2.5-VL и LLaVA. В ходе исследований было установлено, что использование данной стратегии позволяет добиться повышения производительности моделей при решении задач, связанных с обработкой и анализом мультимодальных данных. Эффективность была подтверждена на ряде стандартных бенчмарков, что свидетельствует о стабильности и надежности подхода в различных сценариях использования.

В ходе экспериментов модели Qwen2.5-VL и LLaVA, обученные с использованием предложенного подхода, демонстрируют стабильное превосходство над базовыми методами на широком спектре мультимодальных бенчмарков. Зафиксировано повышение производительности по ключевым показателям, таким как точность ответов на вопросы, требующие анализа визуального и текстового контента, а также в задачах, связанных с визуальным обоснованием. Результаты подтверждаются статистически значимыми улучшениями на стандартных наборах данных для оценки мультимодальных моделей, что свидетельствует о надежности и эффективности предложенного метода обучения.

Полученные результаты демонстрируют общую применимость предложенного подхода к различным архитектурам мультимодальных больших языковых моделей (MLLM), включая Qwen2.5-VL и LLaVA. Это указывает на возможность повышения производительности MLLM в широком спектре приложений, поскольку метод не зависит от конкретной реализации модели. Достижение улучшения показателей на различных архитектурах подтверждает потенциал решения для масштабирования и адаптации к новым и развивающимся MLLM, что способствует более эффективному использованию визуальной информации в задачах обработки естественного языка.

Обучение с использованием Video-SFT оказывает неоднородное влияние на модель Qwen2.5-VL-7B в различных задачах визуального понимания, демонстрируя наибольшее снижение производительности в задачах мелкозернистого восприятия <span class="katex-eq" data-katex-display="false">\downarrow</span> и улучшение в некоторых задачах общего понимания и визуального рассуждения <span class="katex-eq" data-katex-display="false">\uparrow</span>. — Обучение с использованием Video-SFT оказывает неоднородное влияние на модель Qwen2.5-VL-7B в различных задачах визуального понимания, демонстрируя наибольшее снижение производительности в задачах мелкозернистого восприятия $\downarrow$ и улучшение в некоторых задачах общего понимания и визуального рассуждения $\uparrow$ .

К устойчивому мультимодальному интеллекту

Исследование подчеркивает критическую важность продуманных стратегий обучения в мультимодальном обучении, особенно при работе с временными данными. Обучение моделей, способных эффективно объединять информацию из различных источников, таких как видео и звук, требует особого подхода к последовательности представления данных и методам оптимизации. Авторы продемонстрировали, что неадекватные стратегии обучения могут приводить к искажению временных зависимостей и снижению общей производительности системы. В частности, акцент делается на необходимость тщательного согласования скорости обучения и методов регуляризации для каждой модальности, что позволяет модели более эффективно извлекать и интегрировать информацию, сохраняя при этом временную когерентность. Полученные результаты указывают на то, что разработка адаптивных стратегий обучения, учитывающих специфику временных данных, является ключевым фактором для создания надежных и эффективных мультимодальных систем искусственного интеллекта.

Перспективные исследования направлены на разработку усовершенствованных методов балансировки информации, поступающей из различных модальностей. Особое внимание уделяется возможности использования подходов, основанных на последовательном обучении — когда модель постепенно осваивает более сложные задачи, начиная с простых — и мета-обучении, позволяющем системе адаптироваться к новым модальностям или задачам, используя опыт, полученный при работе с другими. Такой подход позволит создавать системы, эффективно интегрирующие информацию из разных источников, например, визуальные данные и текстовые описания, и избегать перекосов в обучении, когда одна модальность доминирует над другой, что существенно повысит надежность и обобщающую способность мультимодальных моделей.

В основе проводимых исследований лежит стремление к созданию искусственного интеллекта, способного бесшовно объединять и анализировать информацию из различных источников. Речь идет не просто о сопоставлении данных, но и о формировании целостного понимания мира, подобного человеческому. Такие системы должны уметь выявлять взаимосвязи между визуальными, звуковыми и текстовыми данными, делая обоснованные выводы и принимая решения на основе комплексного анализа. Достижение этой цели позволит создавать интеллектуальные системы, способные к более глубокому и осмысленному взаимодействию с окружающей средой, открывая новые возможности в областях от автоматизированного анализа данных до разработки продвинутых робототехнических комплексов и систем поддержки принятия решений.

Исследование, посвящённое тонкой настройке мультимодальных больших языковых моделей, закономерно выявило компромисс между пониманием видео и статичных изображений. Авторы столкнулись с так называемой «временной ловушкой», когда стремление улучшить работу с видео приводит к ухудшению результатов при обработке изображений. Этот эффект, впрочем, не нов. Вспомнить хотя бы бесконечные оптимизации под конкретные датасеты, которые неизменно ломали обобщающую способность моделей. Как справедливо заметила Фэй-Фэй Ли: «Искусственный интеллект — это не магия, а инженерия». И в данном случае, инженерия требует постоянного поиска баланса и понимания, что каждое улучшение в одной области неизбежно влечёт за собой изменения в другой. Предложенная «гибридная стратегия» — лишь очередная попытка смягчить неизбежные последствия этой самой инженерии, обернуть ограничения в преимущества.

Что дальше?

Работа демонстрирует закономерную, хотя и часто игнорируемую, проблему: стремление к временному разрешению неминуемо оборачивается пространственными издержками. Улучшение понимания видео, как показывает исследование, неизбежно ведёт к деградации способности модели работать со статичными изображениями. Это не открытие, а скорее констатация факта, который рано или поздно постигает любого, кто пытается заставить машину понимать мир. Разработанная «гибридная» стратегия, конечно, смягчает симптомы, но не лечит болезнь. Ведь что такое «гибридность», как не признание неспособности построить единую, универсальную репрезентацию?

Более глубокий вопрос заключается в том, насколько вообще оправдано стремление к мультимодальности. В погоне за «общей» моделью, способной понимать всё, рискуют получить монстра, который плохо справляется со всем. Иногда, как это ни парадоксально, лучше монолит, чем сто микросервисов, каждый из которых врёт. Очевидно, что поле для экспериментов с архитектурами, позволяющими более гибко разделять и переключать ресурсы между различными модальностями, остаётся широким. Но не стоит забывать, что даже самая элегантная архитектура бессильна перед лицом реальных данных.

В конечном счёте, предложенные решения — это лишь временные меры. Продакшен всегда найдёт способ сломать элегантную теорию. И когда наступит момент, когда модель столкнётся с действительно сложными, неоднозначными данными, все эти «гибридные» стратегии окажутся бесполезными. И тогда придётся начинать всё сначала, признавая, что «понимание» — это, возможно, просто иллюзия.

Оригинал статьи: https://arxiv.org/pdf/2603.17541.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-19 22:06

🚀 Квантовые новости