Автор: Денис Аветисян
Исследователи представляют DeepEyesV2 – модель, способную решать сложные задачи, объединяя зрение, язык и инструменты.

В статье представлена модель DeepEyesV2, использующая обучение с подкреплением и интеграцию инструментов (выполнение кода и веб-поиск) для достижения передовых результатов в мультимодальных задачах, а также новый бенчмарк RealX-Bench для оценки подобных моделей.
Несмотря на успехи в области обработки изображений и текста, создание действительно автономных мультимодальных агентов требует интеграции внешних инструментов и динамического планирования действий. В данной работе представлена модель DeepEyesV2: Toward Agentic Multimodal Model, исследующая возможности построения агента, способного эффективно использовать инструменты, такие как среды выполнения кода и веб-поиск, для решения сложных задач. Показано, что двухэтапный процесс обучения, сочетающий предварительное установление паттернов использования инструментов и обучение с подкреплением, значительно повышает надежность и адаптивность модели. Вводится новый бенчмарк RealX-Bench для оценки мультимодального рассуждения в реальных условиях, и демонстрируется, что DeepEyesV2 превосходит существующие решения в задачах, требующих интеграции различных способностей – от восприятия и поиска до математических вычислений. Какие новые архитектуры и стратегии обучения позволят в дальнейшем расширить возможности агентов, способных к комплексному мультимодальному взаимодействию с окружающим миром?
За пределами восприятия: необходимость агентивного мышления
Традиционные мультимодальные модели демонстрируют высокие результаты в задачах восприятия, однако испытывают трудности при решении сложных, многошаговых задач, требующих логического вывода и анализа. Ограничения проявляются в реальных условиях, где необходимы последовательное применение знаний и адаптация. Современные подходы часто не обладают способностью к активному поиску информации и использованию внешних инструментов, что препятствует эффективному решению задач. Отсутствие механизмов самообучения снижает производительность в сценариях, требующих итеративного анализа и интеграции данных. Модель, подобно микроскопу, раскрывает скрытые закономерности, если взгляд исследователя направлен вглубь, а не остаётся на поверхности.

DeepEyesV2: Архитектура агента для расширенного мышления
Модель DeepEyesV2 расширяет возможности агентивных мультимодальных моделей за счёт интеграции выполнения кода и веб-поиска в цикл рассуждений, позволяя системе активно взаимодействовать с внешней средой. В основе DeepEyesV2 лежит предобученная модель Qwen2.5-VL, обеспечивающая надёжную базу для анализа данных. Ключевым отличием является не просто осведомлённость о доступных инструментах, а активное их использование, расширяющее возможности системы и позволяющее адаптироваться к новым условиям.

Обучение DeepEyesV2: от контролируемого обучения к обучению с подкреплением
Обучение DeepEyesV2 начинается с контролируемой тонкой настройки для установления базовых паттернов использования инструментов. Этот этап подготавливает модель к более сложным задачам. Последующий этап включает обучение с подкреплением, направленное на оптимизацию способности модели эффективно использовать инструменты для решения комплексных задач. Модель получает вознаграждение за успешное выполнение заданий, что способствует улучшению стратегий. Такой двухэтапный процесс обеспечивает как надёжную базовую функциональность, так и адаптивные возможности решения проблем.

Валидация RealX-Bench: DeepEyesV2 в действии
Модель DeepEyesV2 была протестирована на RealX-Bench, эталонном наборе данных для оценки мультимодального рассуждения. Результаты, полученные на RealX-Bench, демонстрируют эффективность DeepEyesV2 в интеграции визуальной информации, использовании внешних инструментов и решении сложных задач. Дополнительная оценка с использованием MMSearch подтвердила устойчивость и масштабируемость DeepEyesV2. Достигнутая точность составила 63.7%, что на 10.9% превышает показатели MMSearch-R1 (53.8%). Каждое отклонение от нормы – это возможность раскрыть скрытые закономерности, и DeepEyesV2 видит мир в его тончайших нюансах.
Будущее агентивного мультимодального ИИ
DeepEyesV2 представляет собой значительный шаг к созданию интеллектуальных агентов, способных понимать и взаимодействовать с миром более человекоподобно. В дальнейшем планируется сосредоточить усилия на повышении эффективности и надёжности DeepEyesV2, оптимизации вычислительных ресурсов и повышении устойчивости к шумам. Развитие алгоритмов обучения позволит модели адаптироваться к новым условиям и решать более сложные задачи. В перспективе предполагается интеграция агентских мультимодальных моделей, подобных DeepEyesV2, в широкий спектр приложений, включая робототехнику и здравоохранение, что позволит создавать более автономные и интеллектуальные системы.
Исследование, представленное в данной работе, демонстрирует, как интеграция различных инструментов, таких как выполнение кода и веб-поиск, позволяет модели DeepEyesV2 достигать новых высот в решении сложных мультимодальных задач. Этот подход напоминает работу микроскопа: модель, подобно нему, исследует данные, выявляя скрытые закономерности и связи. Как однажды заметил Дэвид Марр: “Визуальная информация не является просто набором признаков, но и структурой, которая представляет мир.” Эта мысль особенно актуальна здесь, поскольку модель не просто обрабатывает визуальные данные, но и активно взаимодействует с внешними инструментами, чтобы построить более полное и точное представление о реальности, что подтверждается внедрением нового бенчмарка RealX-Bench для оценки возможностей таких систем.
Что впереди?
Представленная работа, демонстрируя возможности DeepEyesV2, неизбежно ставит вопрос о границах подобного “агентного” подхода. Успешная интеграция инструментов – кода и поиска – не является самоцелью, а лишь способом приближения к более сложной задаче: построению системы, способной к истинному пониманию. Однако, текущая архитектура, как и большинство её предшественниц, полагается на корреляцию, а не на причинность. Остается открытым вопрос о том, как научить модель не просто выполнять команды, но и формулировать собственные, основанные на глубоком анализе входных данных.
Создание RealX-Bench – ценный шаг, но и он лишь фиксирует текущее состояние проблемы. Настоящий вызов заключается в разработке бенчмарков, способных выявлять не просто способность к решению задач, но и креативность, адаптивность и, самое главное, устойчивость к “шуму” и неполноте информации. Иными словами, необходимо перейти от оценки “что” модель может сделать, к оценке “как” она это делает, и насколько надёжно.
В конечном счете, дальнейшее развитие агентных мультимодальных моделей, вероятно, потребует выхода за рамки чисто поведенческого подхода. Понимание системы — это исследование её закономерностей. Необходимо исследовать возможности интеграции формальной логики, онтологий и, возможно, даже элементов символьного ИИ, чтобы создать системы, способные не просто оперировать данными, но и строить осмысленные модели мира. Иначе, мы рискуем создать лишь очень сложные и эффективные «попугаи», умеющие имитировать интеллект, но лишенные его сущности.
Оригинал статьи: https://arxiv.org/pdf/2511.05271.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Виртуальная примерка без границ: EVTAR учится у образов
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Квантовый скачок: от лаборатории к рынку
- Визуальное мышление нового поколения: V-Thinker
- Почему ваш Steam — патологический лжец, и как мы научили компьютер читать между строк
- LLM: математика — предел возможностей.
- Квантовые эксперименты: новый подход к воспроизводимости
- Симметрия в квантовом машинном обучении: поиск оптимального баланса
- Квантовый скачок из Андхра-Прадеш: что это значит?
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
2025-11-10 12:45