Автор: Денис Аветисян
Исследователи разработали систему, позволяющую моделям искусственного интеллекта эффективно использовать видеоинструменты для более глубокого понимания и анализа длинных видеозаписей.

Представлен фреймворк LongVT, позволяющий мультимодальным большим языковым моделям надежно рассуждать над длинными видео, используя визуальные инструменты и достигая передовых результатов в задачах понимания видео.
Несмотря на значительный прогресс в области мультимодального анализа, большие языковые модели испытывают трудности при обработке длинных видео, подвергаясь галлюцинациям из-за разреженности и временной разбросанности доказательств. В данной работе, представленной под названием ‘LongVT: Incentivizing «Thinking with Long Videos» via Native Tool Calling’, предложен агентский фреймворк LongVT, позволяющий моделям эффективно рассуждать над длинными видео посредством итеративного использования инструментов для обработки визуальной информации и логических рассуждений. Разработанный подход демонстрирует превосходство над существующими решениями на четырех сложных бенчмарках, а также включает в себя новый датасет VideoSIAH для обучения и оценки. Сможет ли LongVT открыть новые горизонты в области понимания и анализа длинных видеоматериалов, приближая нас к созданию действительно «думающих» мультимодальных систем?
Вызовы долгосрочного анализа видео
Традиционные методы анализа видео, разработанные для коротких роликов с высокой плотностью информации, сталкиваются с серьезными трудностями при работе с длинными видеозаписями. В отличие от коротких видео, где релевантные признаки часто встречаются на протяжении всей записи, длинные видео характеризуются значительным количеством неинформативных кадров и разреженностью доказательств, необходимых для точного ответа на вопросы. Это означает, что алгоритмы, успешно работающие с короткими видео, часто терпят неудачу при анализе длинных видео, поскольку им не хватает возможности эффективно отфильтровать шум и выделить ключевые моменты, необходимые для формирования корректного ответа. Проблема усугубляется тем, что релевантная информация может быть разбросана по всему видео, требуя от алгоритма способности к длительному отслеживанию и контекстуальному пониманию, что представляет собой сложную задачу для существующих систем.
Существующие большие языковые модели (LLM) зачастую демонстрируют ограниченные возможности в области глубокого, привязанного ко времени рассуждения, необходимого для полноценного понимания видеоконтента. В то время как LLM превосходно справляются с анализом текста, их способность интегрировать и логически обрабатывать информацию, распределенную во времени в видеопотоке, остается недостаточной. Это связано с тем, что LLM обычно обучаются на статичных данных, не учитывающих последовательность событий и их взаимосвязь. Для эффективного анализа видео требуется не просто распознавание объектов и действий, но и понимание их временной динамики, причинно-следственных связей и долгосрочных последствий, что представляет собой серьезную проблему для современных языковых моделей и требует разработки специализированных архитектур и методов обучения, учитывающих временную структуру видеоданных.

LongVT: Агентный фреймворк для понимания видео
LongVT использует структуру Interleaved Multimodal Chain-of-Tool-Thought (iMCoTT), которая позволяет модели динамически обращаться к инструментам в процессе рассуждений. iMCoTT представляет собой последовательность шагов, где модель попеременно выполняет следующие действия: анализ мультимодальных данных (видео и текста), выбор подходящего инструмента для выполнения определенной задачи, использование выбранного инструмента, и интеграция полученных результатов в дальнейший процесс рассуждений. Это позволяет LongVT решать сложные задачи, требующие внешних знаний и специализированных инструментов, таких как поиск информации в интернете или выполнение математических вычислений, непосредственно в процессе анализа видеоконтента.
Для формирования базовых возможностей LongVT используется этап контролируемого обучения (Supervised Fine-Tuning, SFT), в ходе которого производится дообучение базовой мультимодальной большой языковой модели Qwen2.5-VL-7B. Данный этап позволяет модели приобрести необходимые навыки для эффективной обработки и понимания видеоконтента, а также для последующего использования инструментов в процессе рассуждений. SFT предполагает обучение модели на размеченном наборе данных, что позволяет ей научиться сопоставлять визуальную информацию с текстовыми инструкциями и ответами.
В основе архитектуры LongVT лежит стратегия глобально-локального рассуждения, направленная на повышение эффективности анализа видео. На первом этапе модель осуществляет быстрый просмотр всего видеоконтента для формирования общего представления о его содержании. Этот этап позволяет определить потенциально релевантные сегменты. Последующий локальный анализ фокусируется исключительно на этих сегментах, что значительно снижает вычислительные затраты и время обработки по сравнению с анализом всего видеопотока целиком. Такой подход позволяет модели концентрироваться на наиболее значимой информации, игнорируя несущественные детали.

Уточнение рассуждений с помощью обучения с подкреплением
Для оптимизации LongVT в задачах открытого вопросно-ответного поиска используется обучение с подкреплением (Reinforcement Learning, RL). В процессе обучения применяется комбинированная (Joint) функция вознаграждения, учитывающая как точность ответа, так и точность временной локализации ответа в видео. Это позволяет модели не только правильно отвечать на вопросы, но и указывать конкретный момент времени в видео, к которому относится ответ, что критически важно для понимания видеоконтента и повышения общей производительности системы.
Для повышения эффективности обучения модели LongVT используется метод Reinforcement Fine-Tuning (RFT) с применением фильтрованных траекторий (rollout traces). Этот подход предполагает отбор наиболее качественных эпизодов взаимодействия модели с окружающей средой, исключая эпизоды с низкой наградой или нерелевантными действиями. Фильтрация траекторий позволяет модели обучаться на данных, представляющих оптимальные стратегии решения задачи, что значительно улучшает её способность к точному ответам на вопросы и временной локализации событий в видеоматериале. Применение отфильтрованных траекторий способствует более быстрой сходимости обучения и повышает общую производительность модели.
Для улучшения локализации во времени (Temporal Grounding) в видео, LongVT использует механизм аргументированного инструментами рассуждения (Tool-Augmented Reasoning), основанный на iMCoTT. iMCoTT предоставляет модели доступ к внешним инструментам, позволяющим ей анализировать видеоконтент и точно определять моменты времени, соответствующие ответам на вопросы. Это позволяет LongVT не только находить релевантные ответы, но и точно указывать временные отрезки в видео, где эти ответы подтверждаются, повышая достоверность и информативность предоставляемой информации.

Проверка LongVT: Производительность и надежность
Оценка возможностей модели проводилась с использованием специализированного бенчмарка VideoSIAH-Eval, который отличается наличием этапа валидации с участием людей-экспертов. Такой подход позволяет обеспечить высокое качество ответов, поскольку результаты работы модели сопоставляются с оценками, данными квалифицированными специалистами. В рамках VideoSIAH-Eval, эксперты оценивают не только фактическую точность ответов, но и их релевантность и логическую связность, что является критически важным для сложных задач анализа видео. Использование человеческой оценки в сочетании с автоматизированными метриками гарантирует объективность и надежность полученных результатов, позволяя достоверно оценить производительность модели в реальных сценариях.
В процессе оценки производительности модели LongVT особое внимание уделялось проблеме загрязнения данных, которая может исказить результаты и привести к завышенным оценкам. Исследователи тщательно проанализировали обучающие и тестовые наборы данных, выявляя и исключая случаи потенциального пересечения информации. Применялись строгие протоколы фильтрации, чтобы гарантировать, что модель оценивается на действительно новых данных, а не просто запоминает информацию из обучающей выборки. Данный подход позволил получить более надежные и объективные метрики, отражающие реальную способность модели к обобщению и решению задач, а не просто к воспроизведению заученного материала. Такой тщательный контроль за чистотой данных является критически важным для достоверной оценки и сравнения различных моделей в области анализа видео.
Для обеспечения объективной оценки качества ответов модели LongVT была применена методика автоматизированной оценки на основе больших языковых моделей (LLM-as-a-Judge). Этот подход позволяет дополнить традиционную оценку, осуществляемую человеком, и гарантировать последовательность и воспроизводимость результатов. В отличие от субъективных оценок, LLM-as-a-Judge предоставляет стандартизированный критерий, минимизируя влияние человеческого фактора и обеспечивая более надежную и всестороннюю проверку точности и релевантности генерируемых ответов. Использование LLM в качестве автоматического судьи позволяет значительно ускорить процесс оценки и повысить его масштабируемость, что особенно важно при работе с большими объемами данных и сложными задачами видео-вопросов-ответов.
Модель LongVT продемонстрировала передовые результаты на бенчмарке VideoSIAH-Eval, достигнув показателя в 42.0 балла. Этот результат превосходит показатели существующих методов на целых 6 баллов, что свидетельствует о значительном прогрессе в области понимания видео и ответов на вопросы о его содержании. Данный результат не только подтверждает эффективность предложенной архитектуры, но и открывает новые перспективы для развития систем, способных к более глубокому анализу видеоинформации и предоставлению точных и информативных ответов.
Исследования показали, что модель LongVT демонстрирует выдающуюся эффективность в обработке видеоданных. В ходе тестирования LongVT достигла минимальной задержки при выводе результатов — всего 1329.8 секунд, что значительно превосходит показатели других протестированных моделей. Данный результат указывает на способность LongVT оперативно анализировать видео и предоставлять ответы, что особенно важно для приложений, требующих обработки данных в реальном времени, таких как системы видеонаблюдения или интерактивные видеоаналитики. Высокая скорость работы LongVT не только повышает удобство использования, но и открывает возможности для более сложных и масштабных задач анализа видеоконтента.

Исследование демонстрирует, что для эффективного понимания длинных видео необходим не просто анализ визуальной информации, но и способность модели к последовательному рассуждению и использованию инструментов. Подобно тому, как микроскоп позволяет рассмотреть объект исследования в деталях, LongVT предоставляет модели возможность «просматривать» видео, выделять ключевые моменты и делать обоснованные выводы. Как заметил Эндрю Ын: «Мы находимся в моменте, когда машинное обучение может принести пользу людям, и мы должны убедиться, что это происходит ответственно». Данный подход, фокусируясь на агентном взаимодействии с видеоконтентом, открывает новые горизонты для систем, способных к глубокому пониманию и осмыслению сложных визуальных данных, что особенно важно для таких задач, как анализ видеосюжетов и понимание временных взаимосвязей.
Что дальше?
Представленная работа, безусловно, демонстрирует прогресс в понимании длинных видео, однако истинный вызов заключается не в достижении новых рекордов производительности, а в понимании границ применимости этих моделей. Необходимо тщательно изучать случаи, когда кажущаяся “логичность” действий агента является лишь артефактом обучающей выборки, а не признаком истинного понимания. Внимательное изучение границ данных — необходимое условие для избежания ложных закономерностей.
Перспективным направлением представляется разработка методов оценки “надежности” рассуждений модели, а также механизмов самокоррекции, позволяющих агенту признавать собственные ошибки и корректировать свои действия. Не менее важной задачей является разработка более эффективных методов обучения с подкреплением, учитывающих специфику длинных видео и необходимость временной привязки действий агента к конкретным моментам в видеоряде.
В конечном итоге, успех в этой области будет зависеть не от создания все более сложных моделей, а от способности выявить фундаментальные принципы, управляющие восприятием и рассуждением, и реализовать их в искусственных системах. Это, как всегда, потребует не только технических инноваций, но и глубокого философского осмысления природы интеллекта.
Оригинал статьи: https://arxiv.org/pdf/2511.20785.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- LLM: математика — предел возможностей.
- Кандинский 5.0: Искусство генерации изображений и видео
- Волны под контролем: Ускорение моделирования материалов с дефектами
- Квантовые симуляторы: Преодолевая ограничения памяти
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Квантовая симуляция без издержек: новый подход к динамике открытых систем
- Квантовое моделирование затухающих волн: новый подход к точности и эффективности
- Архитектура фермента: от генерации каркаса к адресной каталитической эффективности.
- Белки в коде: от структуры к динамике
- Квантовая активность: моделирование диссипации в активных системах
2025-11-30 10:13