Видеопонимание: новый уровень интеллекта

Автор: Денис Аветисян

Исследователи представляют масштабный набор данных и бенчмарк VideoKR, призванный значительно улучшить способность моделей понимать видео, требующие знаний и логического мышления.

Корпус видеоданных VideoKR, собранный из открытых источников с лицензией CC, предназначен для обучения навыкам ответов на вопросы, где каждый пример соотнесен с одной из трех ключевых компетенций, необходимых для продвинутого анализа видео, а подмножество примеров CoT дополнительно дополнено высококачественным описанием процесса рассуждений.

Представлен новый набор данных и методика оценки для обучения моделей видеопониманию, акцентирующий внимание на интеграции знаний и логических рассуждений.

Несмотря на значительный прогресс в области компьютерного зрения, понимание видео, требующее знаний и рассуждений, остается сложной задачей. В данной работе представлена платформа VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding, включающая в себя крупномасштабный обучающий корпус и бенчмарк, специально разработанные для повышения способности моделей к пониманию видео, основанному на знаниях и логических рассуждениях. Эксперименты показали, что модели, обученные на данных VideoKR, демонстрируют улучшенные результаты в задачах, требующих глубокого понимания видеоконтента и интеграции знаний, при сохранении конкурентоспособности в задачах общего назначения. Каким образом дальнейшее развитие и расширение подобных корпусов данных может приблизить нас к созданию по-настоящему «умных» систем анализа видео?

Поверхностное зрение: иллюзия понимания видео

Современные модели анализа видео часто демонстрируют способность распознавать визуальные паттерны и отдельные объекты, однако их понимание выходит за рамки поверхностного восприятия. Вместо глубокого осмысления происходящего, они склонны полагаться на простые визуальные подсказки и статистические закономерности, что не позволяет им проводить сложные умозаключения, требующие обширных знаний о мире. Например, модель может определить, что на видео присутствует «мяч», но не сможет понять контекст игры, правила или стратегию игроков. Это ограничивает их способность к реальному пониманию видеоконтента и препятствует созданию систем искусственного интеллекта, способных к полноценному анализу и интерпретации сложных визуальных сцен, требующих знаний о физике, социологии и здравом смысле.

Существующие наборы данных для оценки понимания видео часто оказываются уязвимыми для решения задач, основываясь лишь на анализе отдельных кадров. Это создает иллюзию успешной работы алгоритмов, поскольку системы могут определять объекты или действия, не учитывая временную последовательность и взаимосвязь событий в видеопотоке. Исследования показывают, что многие модели демонстрируют высокую точность на этих бенчмарках, но при этом не способны ответить на вопросы, требующие понимания динамики происходящего или предсказания будущих событий. Таким образом, оценка истинных возможностей искусственного интеллекта в области анализа видео требует разработки более сложных и всесторонних критериев, которые бы исключали возможность успешного решения задач за счет использования лишь статических изображений и фокусировались на способности системы к логическому выводу и временному рассуждению.

Поверхностный подход к анализу видеозаписей существенно замедляет развитие искусственного интеллекта, способного к глубокому пониманию и логическому осмыслению сложного визуального контента. Существующие системы зачастую ограничиваются распознаванием отдельных объектов или действий, не улавливая причинно-следственные связи, намерения и контекст происходящего. Отсутствие способности к действительному пониманию лишает ИИ возможности делать обоснованные выводы, прогнозировать развитие событий и эффективно взаимодействовать с реальным миром, требующим не просто визуального восприятия, но и интеллектуальной интерпретации происходящего. Разработка алгоритмов, способных к полноценному анализу видео, представляет собой ключевую задачу для создания действительно разумных систем искусственного интеллекта.

Модель демонстрирует способность к логическому выводу на основе видеоинформации, что позволяет ей успешно решать задачи, требующие знаний и понимания контекста.

VideoKR: Корпус для глубокого рассуждения, а не имитации

VideoKR представляет собой масштабный обучающий корпус, созданный на основе видеоматериалов, распространяемых под лицензией Creative Commons (CC). Данный подход обеспечивает открытый доступ к ресурсу для исследовательского сообщества и способствует развитию исследований в области компьютерного зрения и искусственного интеллекта. Использование CC-лицензированных видео гарантирует легальность использования данных для некоммерческих и исследовательских целей, а также позволяет другим исследователям свободно использовать, распространять и модифицировать контент, способствуя тем самым ускорению прогресса в данной области. Масштаб корпуса позволяет обучать и оценивать сложные модели глубокого обучения, требующие больших объемов данных для достижения высокой производительности.

Корпус VideoKR формируется с использованием фреймворка генерации вопросов и ответов, ориентированного на навыки (Skill-Oriented QA Generation). Этот подход предполагает категоризацию примеров по сложности рассуждений, необходимых для ответа на вопрос. Примеры классифицируются на основе требуемого уровня когнитивных способностей, таких как понимание фактов, причинно-следственные связи, пространственное мышление и временные отношения. Такая структурированная организация позволяет оценить и сравнить производительность моделей искусственного интеллекта на различных уровнях сложности рассуждений, обеспечивая более детализированный анализ их способностей.

Ключевым элементом при создании VideoKR является интеграция базы знаний предметных областей (Domain Knowledge Bank), которая используется для направления процесса генерации примеров и обеспечения их высокой информативности. Данная база знаний содержит структурированную информацию по различным темам, позволяя формировать вопросы и сценарии, требующие от модели не только визуального восприятия, но и применения специализированных знаний. Это обеспечивает создание примеров, где правильный ответ зависит от понимания конкретных фактов и взаимосвязей в определенной области, а не только от распознавания объектов или действий на видео. Использование базы знаний позволяет контролировать сложность и направленность примеров, а также повышает их релевантность для задач, требующих глубокого рассуждения и применения знаний.

Набор данных VideoKR-Eval состоит из 2000 примеров, предназначенных для надежной оценки моделей глубокого рассуждения. Этот набор данных включает в себя 1254 оригинальных примера, созданных с нуля, и 746 повторно аннотированных примеров, полученных из существующих данных и прошедших дополнительную проверку и уточнение. Такой подход к формированию набора данных позволяет обеспечить более высокую достоверность и надежность оценки производительности моделей в задачах, требующих сложного логического вывода и анализа видеоинформации.

Сформированный обучающий корпус, включающий <span class="katex-eq" data-katex-display="false">201K</span> примеров из VideoKR-SFT и <span class="katex-eq" data-katex-display="false">114K</span> примеров из VideoKR-RL, обеспечивает данные для обучения и оптимизации моделей. — Сформированный обучающий корпус, включающий $201K$ примеров из VideoKR-SFT и $114K$ примеров из VideoKR-RL, обеспечивает данные для обучения и оптимизации моделей.

Обучение и доработка: от поверхностного к осмысленному зрению

Первичная настройка параметров моделей осуществлялась посредством контролируемого обучения (Supervised Fine-Tuning, SFT) с использованием подмножества данных VideoKR-SFT-201K. Данный этап предполагает обучение модели на размеченном наборе данных, что позволяет инициализировать веса модели и подготовить её к дальнейшей оптимизации. Использование VideoKR-SFT-201K обеспечивает начальную адаптацию модели к задачам, связанным с видеоконтентом и пониманием визуальной информации, формируя основу для последующего обучения с подкреплением.

После этапа контролируемого обучения модели подвергаются обучению с подкреплением с использованием набора данных VideoKR-RL-114K. В процессе оптимизации применяются алгоритмы, такие как GRPO (Generalized Reinforcement Learning from Preference). Данный этап позволяет улучшить производительность моделей, направляя их на более эффективное выполнение задач и достижение лучших результатов в сложных сценариях, требующих адаптации к изменяющимся условиям и предпочтениям пользователей.

В процессе обучения и доработки использовались модели Qwen2.5-VL-7B-Instruct и Qwen3-VL-8B-Instruct, демонстрирующие прирост средней точности в задачах, требующих обширных знаний, до +4.7% по сравнению с базовыми моделями. Данный прирост точности был зафиксирован в ходе экспериментов, направленных на оптимизацию моделей с использованием наборов данных для контролируемого обучения и обучения с подкреплением, что подтверждает эффективность применяемого подхода к улучшению производительности моделей в задачах, связанных с обработкой знаний.

Модель Qwen2.5-VL-7B, прошедшая постобучение на наборе данных VideoKR, продемонстрировала значительное повышение производительности на стандартных бенчмарках. В частности, наблюдалось улучшение на 4.8% в метрике MMVU, оценивающей мультимодальное понимание, и впечатляющее увеличение точности на 8.5% на специализированном наборе VideoKR-Eval, предназначенном для оценки способностей модели к анализу и пониманию видеоконтента.

Пример VideoKR-SFT-201K из инженерной области демонстрирует сжатое представление процесса рассуждений для повышения удобочитаемости.

Оценка истинной способности к рассуждениям: отфильтровать иллюзии

Представлен новый оценочный набор данных VideoKR-Eval, разработанный для преодоления ограничений существующих датасетов в области понимания видео. Его ключевая особенность — фильтрация примеров, требующих рассуждений на основе анализа нескольких кадров. Этот подход позволяет отсеивать задачи, решаемые на основе информации из одного кадра, и фокусироваться на оценке способности искусственного интеллекта к истинному пониманию временных зависимостей в видеоконтенте. Такой отбор примеров, основанный на методе Multi-Model Single-Frame Probing, гарантирует, что оценка сосредоточена именно на тех задачах, где требуется реальное понимание динамики видеоряда, а не просто распознавание объектов или действий в отдельных кадрах.

Для обеспечения достоверной оценки способности искусственного интеллекта к рассуждениям на основе видео, был разработан метод фильтрации примеров с использованием многомодального зондирования отдельных кадров. Этот подход позволяет исключить из набора данных примеры, которые могут быть решены без анализа временной последовательности кадров, то есть без реального понимания развития событий. Суть метода заключается в проверке, может ли модель корректно ответить на вопрос, основываясь исключительно на информации из одного кадра. Если это возможно, пример признается не требующим временного рассуждения и исключается из оценки. Таким образом, VideoKR-Eval концентрируется на задачах, которые действительно требуют от ИИ способности понимать и интегрировать информацию, распределенную во времени, что обеспечивает более точную и надежную оценку его возможностей.

Разработка VideoKR и, как следствие, оценочного набора данных VideoKR-Eval представляет собой значительный шаг на пути к созданию искусственного интеллекта, способного к глубокому пониманию и логическому анализу видеоконтента. Данные инструменты позволяют не просто распознавать объекты и действия в видеоряде, но и выстраивать причинно-следственные связи, делать выводы на основе временных последовательностей и учитывать контекст происходящего. Это открывает возможности для создания систем, способных к решению сложных задач, требующих не только визуального восприятия, но и настоящего понимания динамики и смысловой нагрузки видеоинформации, что является важной вехой в развитии когнитивных способностей искусственного интеллекта.

В ходе оценки, модель Qwen3-VL-8B продемонстрировала передовые результаты среди моделей масштаба 7/8 миллиардов параметров, достигнув средней точности в 51.5% при решении задач, требующих глубокого понимания и анализа видеоконтента. Этот показатель свидетельствует о значительном прогрессе в области видео-рассуждений и указывает на способность модели эффективно извлекать и использовать знания, представленные в видеоряде. Данный результат подтверждает перспективность использования моделей такого масштаба для создания интеллектуальных систем, способных к сложному анализу и интерпретации визуальной информации.

Исследование, представленное в статье, закономерно демонстрирует, что простого увеличения объёма данных недостаточно. Необходимо насыщать эти данные знаниями, заставлять модели рассуждать, а не просто сопоставлять пиксели. Это, конечно, не ново, но удивительно, как долго индустрия упорно игнорировала этот факт, полагаясь на «магию масштаба». Как метко заметила Фэй-Фэй Ли: «Искусственный интеллект должен быть направлен на расширение человеческих возможностей, а не на их замену». В данном контексте, расширение возможностей подразумевает создание систем, способных к глубокому пониманию видео, а не к простому распознаванию объектов. Если баг воспроизводится, значит, у нас стабильная система, способная обрабатывать сложные запросы, требующие рассуждений, а не просто сопоставления шаблонов. Это, разумеется, требует гораздо больше усилий, чем простое скачивание ещё одного терабайта видео с YouTube.

Что дальше?

Представленный корпус данных VideoKR, безусловно, является шагом вперёд в попытке заставить большие языковые модели не просто «видеть» видео, но и хоть как-то осмысливать происходящее. Однако, не стоит обольщаться. Создание набора данных, пусть и насыщенного знаниями, — это лишь временное облегчение симптомов. Проблема в том, что сама концепция «осмысленного» видео понимания — это, скорее, философская задача, чем инженерная. Если система стабильно ошибается в простых логических выводах, значит, она хотя бы последовательна.

В ближайшем будущем можно ожидать лавины аналогичных корпусов, каждый со своими нюансами и «уникальными» метриками. «Cloud-native» видео-рассуждения — это просто то же самое, только дороже. Настоящий прогресс потребует не просто увеличения объёма данных, а принципиально новых подходов к представлению знаний и построению моделей. Ведь в конечном итоге, мы не пишем код — мы просто оставляем комментарии будущим археологам.

Вместо того, чтобы гнаться за «сильным ИИ», возможно, стоит сосредоточиться на создании систем, способных адекватно оценивать свою некомпетентность. Система, которая честно признаёт, что не понимает происходящее, — это уже прогресс. И да, вероятно, потребуется ещё несколько итераций, прежде чем модели смогут отличить кошку от шляпы без помощи Google.

Оригинал статьи: https://arxiv.org/pdf/2606.05259.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-06-06 18:21

🚀 Квантовые новости