Видео как инструмент мышления: новый подход к анализу длинных роликов

Автор: Денис Аветисян


Исследователи разработали систему, позволяющую моделям искусственного интеллекта эффективно использовать видеоинструменты для более глубокого понимания и анализа длинных видеозаписей.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Подход LongVT обрабатывает длинные видеоматериалы в два этапа, подобно человеческому восприятию, используя механизм iMCoTT: сначала выполняется обзор выборочных кадров для формирования предварительной гипотезы о вероятном времени появления доказательств, затем вызывается инструмент crop\_video для повторной выборки более детализированных кадров из короткого фрагмента, ограниченного гипотетическим временным окном, и производится дальнейший анализ; модель самостоятельно определяет, достаточно ли одного шага ($T1T\_{1}$) для ответа или требуется несколько ($T5T\_{5}$) с самоанализом, при этом в процессе обучения с подкреплением одновременно оптимизируются точность ответа ($R_{acc}$), чистота форматирования ($R_{format}$) и точность временной привязки ($R_{time}$).
Подход LongVT обрабатывает длинные видеоматериалы в два этапа, подобно человеческому восприятию, используя механизм iMCoTT: сначала выполняется обзор выборочных кадров для формирования предварительной гипотезы о вероятном времени появления доказательств, затем вызывается инструмент crop\_video для повторной выборки более детализированных кадров из короткого фрагмента, ограниченного гипотетическим временным окном, и производится дальнейший анализ; модель самостоятельно определяет, достаточно ли одного шага ($T1T\_{1}$) для ответа или требуется несколько ($T5T\_{5}$) с самоанализом, при этом в процессе обучения с подкреплением одновременно оптимизируются точность ответа ($R_{acc}$), чистота форматирования ($R_{format}$) и точность временной привязки ($R_{time}$).

Представлен фреймворк LongVT, позволяющий мультимодальным большим языковым моделям надежно рассуждать над длинными видео, используя визуальные инструменты и достигая передовых результатов в задачах понимания видео.

Несмотря на значительный прогресс в области мультимодального анализа, большие языковые модели испытывают трудности при обработке длинных видео, подвергаясь галлюцинациям из-за разреженности и временной разбросанности доказательств. В данной работе, представленной под названием ‘LongVT: Incentivizing «Thinking with Long Videos» via Native Tool Calling’, предложен агентский фреймворк LongVT, позволяющий моделям эффективно рассуждать над длинными видео посредством итеративного использования инструментов для обработки визуальной информации и логических рассуждений. Разработанный подход демонстрирует превосходство над существующими решениями на четырех сложных бенчмарках, а также включает в себя новый датасет VideoSIAH для обучения и оценки. Сможет ли LongVT открыть новые горизонты в области понимания и анализа длинных видеоматериалов, приближая нас к созданию действительно «думающих» мультимодальных систем?


Вызовы долгосрочного анализа видео

Традиционные методы анализа видео, разработанные для коротких роликов с высокой плотностью информации, сталкиваются с серьезными трудностями при работе с длинными видеозаписями. В отличие от коротких видео, где релевантные признаки часто встречаются на протяжении всей записи, длинные видео характеризуются значительным количеством неинформативных кадров и разреженностью доказательств, необходимых для точного ответа на вопросы. Это означает, что алгоритмы, успешно работающие с короткими видео, часто терпят неудачу при анализе длинных видео, поскольку им не хватает возможности эффективно отфильтровать шум и выделить ключевые моменты, необходимые для формирования корректного ответа. Проблема усугубляется тем, что релевантная информация может быть разбросана по всему видео, требуя от алгоритма способности к длительному отслеживанию и контекстуальному пониманию, что представляет собой сложную задачу для существующих систем.

Существующие большие языковые модели (LLM) зачастую демонстрируют ограниченные возможности в области глубокого, привязанного ко времени рассуждения, необходимого для полноценного понимания видеоконтента. В то время как LLM превосходно справляются с анализом текста, их способность интегрировать и логически обрабатывать информацию, распределенную во времени в видеопотоке, остается недостаточной. Это связано с тем, что LLM обычно обучаются на статичных данных, не учитывающих последовательность событий и их взаимосвязь. Для эффективного анализа видео требуется не просто распознавание объектов и действий, но и понимание их временной динамики, причинно-следственных связей и долгосрочных последствий, что представляет собой серьезную проблему для современных языковых моделей и требует разработки специализированных архитектур и методов обучения, учитывающих временную структуру видеоданных.

Модель, обученная только с подкреплением, не смогла сохранить логическую последовательность после взаимодействия с инструментом, не используя полученные данные для ответа на вопрос и вместо этого повторила общее описание видео.
Модель, обученная только с подкреплением, не смогла сохранить логическую последовательность после взаимодействия с инструментом, не используя полученные данные для ответа на вопрос и вместо этого повторила общее описание видео.

LongVT: Агентный фреймворк для понимания видео

LongVT использует структуру Interleaved Multimodal Chain-of-Tool-Thought (iMCoTT), которая позволяет модели динамически обращаться к инструментам в процессе рассуждений. iMCoTT представляет собой последовательность шагов, где модель попеременно выполняет следующие действия: анализ мультимодальных данных (видео и текста), выбор подходящего инструмента для выполнения определенной задачи, использование выбранного инструмента, и интеграция полученных результатов в дальнейший процесс рассуждений. Это позволяет LongVT решать сложные задачи, требующие внешних знаний и специализированных инструментов, таких как поиск информации в интернете или выполнение математических вычислений, непосредственно в процессе анализа видеоконтента.

Для формирования базовых возможностей LongVT используется этап контролируемого обучения (Supervised Fine-Tuning, SFT), в ходе которого производится дообучение базовой мультимодальной большой языковой модели Qwen2.5-VL-7B. Данный этап позволяет модели приобрести необходимые навыки для эффективной обработки и понимания видеоконтента, а также для последующего использования инструментов в процессе рассуждений. SFT предполагает обучение модели на размеченном наборе данных, что позволяет ей научиться сопоставлять визуальную информацию с текстовыми инструкциями и ответами.

В основе архитектуры LongVT лежит стратегия глобально-локального рассуждения, направленная на повышение эффективности анализа видео. На первом этапе модель осуществляет быстрый просмотр всего видеоконтента для формирования общего представления о его содержании. Этот этап позволяет определить потенциально релевантные сегменты. Последующий локальный анализ фокусируется исключительно на этих сегментах, что значительно снижает вычислительные затраты и время обработки по сравнению с анализом всего видеопотока целиком. Такой подход позволяет модели концентрироваться на наиболее значимой информации, игнорируя несущественные детали.

Для создания VideoSIAH используется полуавтоматический конвейер обработки видео, объединяющий современные мультимодальные модели для последовательного сегментирования видео, создания подписей к фрагментам, генерации вопросов для поиска фрагментов в видео, фильтрации вопросов и генерации iMCoTT, при этом для улучшения качества подсказок используются валидаторы-люди, а обучение с подкреплением ведется только на отфильтрованных парах вопросов-ответов.
Для создания VideoSIAH используется полуавтоматический конвейер обработки видео, объединяющий современные мультимодальные модели для последовательного сегментирования видео, создания подписей к фрагментам, генерации вопросов для поиска фрагментов в видео, фильтрации вопросов и генерации iMCoTT, при этом для улучшения качества подсказок используются валидаторы-люди, а обучение с подкреплением ведется только на отфильтрованных парах вопросов-ответов.

Уточнение рассуждений с помощью обучения с подкреплением

Для оптимизации LongVT в задачах открытого вопросно-ответного поиска используется обучение с подкреплением (Reinforcement Learning, RL). В процессе обучения применяется комбинированная (Joint) функция вознаграждения, учитывающая как точность ответа, так и точность временной локализации ответа в видео. Это позволяет модели не только правильно отвечать на вопросы, но и указывать конкретный момент времени в видео, к которому относится ответ, что критически важно для понимания видеоконтента и повышения общей производительности системы.

Для повышения эффективности обучения модели LongVT используется метод Reinforcement Fine-Tuning (RFT) с применением фильтрованных траекторий (rollout traces). Этот подход предполагает отбор наиболее качественных эпизодов взаимодействия модели с окружающей средой, исключая эпизоды с низкой наградой или нерелевантными действиями. Фильтрация траекторий позволяет модели обучаться на данных, представляющих оптимальные стратегии решения задачи, что значительно улучшает её способность к точному ответам на вопросы и временной локализации событий в видеоматериале. Применение отфильтрованных траекторий способствует более быстрой сходимости обучения и повышает общую производительность модели.

Для улучшения локализации во времени (Temporal Grounding) в видео, LongVT использует механизм аргументированного инструментами рассуждения (Tool-Augmented Reasoning), основанный на iMCoTT. iMCoTT предоставляет модели доступ к внешним инструментам, позволяющим ей анализировать видеоконтент и точно определять моменты времени, соответствующие ответам на вопросы. Это позволяет LongVT не только находить релевантные ответы, но и точно указывать временные отрезки в видео, где эти ответы подтверждаются, повышая достоверность и информативность предоставляемой информации.

В отличие от стандартного подхода Chain-of-Thought, полагающегося на недостоверную информацию, наша модель iMCoTT, используя инструменты, активно анализирует видео, исправляет ошибки локализации и точно определяет цвета автомобилей как
В отличие от стандартного подхода Chain-of-Thought, полагающегося на недостоверную информацию, наша модель iMCoTT, используя инструменты, активно анализирует видео, исправляет ошибки локализации и точно определяет цвета автомобилей как «Белый и Жёлтый».

Проверка LongVT: Производительность и надежность

Оценка возможностей модели проводилась с использованием специализированного бенчмарка VideoSIAH-Eval, который отличается наличием этапа валидации с участием людей-экспертов. Такой подход позволяет обеспечить высокое качество ответов, поскольку результаты работы модели сопоставляются с оценками, данными квалифицированными специалистами. В рамках VideoSIAH-Eval, эксперты оценивают не только фактическую точность ответов, но и их релевантность и логическую связность, что является критически важным для сложных задач анализа видео. Использование человеческой оценки в сочетании с автоматизированными метриками гарантирует объективность и надежность полученных результатов, позволяя достоверно оценить производительность модели в реальных сценариях.

В процессе оценки производительности модели LongVT особое внимание уделялось проблеме загрязнения данных, которая может исказить результаты и привести к завышенным оценкам. Исследователи тщательно проанализировали обучающие и тестовые наборы данных, выявляя и исключая случаи потенциального пересечения информации. Применялись строгие протоколы фильтрации, чтобы гарантировать, что модель оценивается на действительно новых данных, а не просто запоминает информацию из обучающей выборки. Данный подход позволил получить более надежные и объективные метрики, отражающие реальную способность модели к обобщению и решению задач, а не просто к воспроизведению заученного материала. Такой тщательный контроль за чистотой данных является критически важным для достоверной оценки и сравнения различных моделей в области анализа видео.

Для обеспечения объективной оценки качества ответов модели LongVT была применена методика автоматизированной оценки на основе больших языковых моделей (LLM-as-a-Judge). Этот подход позволяет дополнить традиционную оценку, осуществляемую человеком, и гарантировать последовательность и воспроизводимость результатов. В отличие от субъективных оценок, LLM-as-a-Judge предоставляет стандартизированный критерий, минимизируя влияние человеческого фактора и обеспечивая более надежную и всестороннюю проверку точности и релевантности генерируемых ответов. Использование LLM в качестве автоматического судьи позволяет значительно ускорить процесс оценки и повысить его масштабируемость, что особенно важно при работе с большими объемами данных и сложными задачами видео-вопросов-ответов.

Модель LongVT продемонстрировала передовые результаты на бенчмарке VideoSIAH-Eval, достигнув показателя в 42.0 балла. Этот результат превосходит показатели существующих методов на целых 6 баллов, что свидетельствует о значительном прогрессе в области понимания видео и ответов на вопросы о его содержании. Данный результат не только подтверждает эффективность предложенной архитектуры, но и открывает новые перспективы для развития систем, способных к более глубокому анализу видеоинформации и предоставлению точных и информативных ответов.

Исследования показали, что модель LongVT демонстрирует выдающуюся эффективность в обработке видеоданных. В ходе тестирования LongVT достигла минимальной задержки при выводе результатов — всего 1329.8 секунд, что значительно превосходит показатели других протестированных моделей. Данный результат указывает на способность LongVT оперативно анализировать видео и предоставлять ответы, что особенно важно для приложений, требующих обработки данных в реальном времени, таких как системы видеонаблюдения или интерактивные видеоаналитики. Высокая скорость работы LongVT не только повышает удобство использования, но и открывает возможности для более сложных и масштабных задач анализа видеоконтента.

Для обеспечения последовательной оценки ответов модели используется полный системный запрос, определяющий критерии оценки и рекомендации для модели-судьи.
Для обеспечения последовательной оценки ответов модели используется полный системный запрос, определяющий критерии оценки и рекомендации для модели-судьи.

Исследование демонстрирует, что для эффективного понимания длинных видео необходим не просто анализ визуальной информации, но и способность модели к последовательному рассуждению и использованию инструментов. Подобно тому, как микроскоп позволяет рассмотреть объект исследования в деталях, LongVT предоставляет модели возможность «просматривать» видео, выделять ключевые моменты и делать обоснованные выводы. Как заметил Эндрю Ын: «Мы находимся в моменте, когда машинное обучение может принести пользу людям, и мы должны убедиться, что это происходит ответственно». Данный подход, фокусируясь на агентном взаимодействии с видеоконтентом, открывает новые горизонты для систем, способных к глубокому пониманию и осмыслению сложных визуальных данных, что особенно важно для таких задач, как анализ видеосюжетов и понимание временных взаимосвязей.

Что дальше?

Представленная работа, безусловно, демонстрирует прогресс в понимании длинных видео, однако истинный вызов заключается не в достижении новых рекордов производительности, а в понимании границ применимости этих моделей. Необходимо тщательно изучать случаи, когда кажущаяся “логичность” действий агента является лишь артефактом обучающей выборки, а не признаком истинного понимания. Внимательное изучение границ данных — необходимое условие для избежания ложных закономерностей.

Перспективным направлением представляется разработка методов оценки “надежности” рассуждений модели, а также механизмов самокоррекции, позволяющих агенту признавать собственные ошибки и корректировать свои действия. Не менее важной задачей является разработка более эффективных методов обучения с подкреплением, учитывающих специфику длинных видео и необходимость временной привязки действий агента к конкретным моментам в видеоряде.

В конечном итоге, успех в этой области будет зависеть не от создания все более сложных моделей, а от способности выявить фундаментальные принципы, управляющие восприятием и рассуждением, и реализовать их в искусственных системах. Это, как всегда, потребует не только технических инноваций, но и глубокого философского осмысления природы интеллекта.


Оригинал статьи: https://arxiv.org/pdf/2511.20785.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-30 10:13