Автор: Денис Аветисян
Новый бенчмарк VTC-Bench позволяет оценить способность мультимодальных моделей к сложному визуальному анализу и последовательному использованию инструментов.

Представлен комплексный бенчмарк VTC-Bench для оценки возможностей мультимодальных больших языковых моделей в построении и применении цепочек визуальных инструментов.
Несмотря на значительный прогресс в области мультимодальных больших языковых моделей, их способность к сложному планированию и эффективному использованию внешних инструментов для решения задач компьютерного зрения остается ограниченной. В данной работе представлена новая методика оценки — VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining — комплексный бенчмарк, предназначенный для строгой оценки навыков использования инструментов в МЛМ на основе 32 операций OpenCV. Эксперименты с 19 ведущими моделями выявили существенные ограничения в адаптации к разнообразным инструментам и составлению многошаговых планов, при этом даже лидирующая модель Gemini-3.0-Pro достигла лишь 51% результата. Сможем ли мы создать более обобщенные и эффективные модели визуального агента, способные к действительно сложному решению задач?
Вызов для Многомодальных Моделей: Преодоление Инструментальной Сложности
Мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющий прогресс в обработке информации, однако их возможности по решению сложных задач, требующих использования внешних инструментов, остаются ограниченными. Несмотря на способность понимать изображения и текст, MLLM часто испытывают трудности в последовательном применении инструментов для достижения конкретной цели. Проблема заключается не в отсутствии знаний, а в неспособности эффективно планировать и координировать действия, необходимые для взаимодействия с внешним миром. Например, модель может распознать объект на изображении и понять запрос пользователя, но не суметь последовательно использовать инструменты для анализа этого объекта, выполнения необходимых вычислений и предоставления осмысленного ответа, требующего нескольких шагов и точного исполнения.
Современные мультимодальные большие языковые модели (MLLM), несмотря на впечатляющий прогресс, часто демонстрируют затруднения при последовательном использовании инструментов для решения задач, требующих нескольких этапов и точного выполнения. Вместо эффективной оркестровки различных утилит, модели нередко допускают ошибки в порядке действий или неправильно интерпретируют результаты промежуточных вычислений. Эта проблема особенно заметна в сценариях, где необходимо не просто распознать объекты на изображении, но и активно использовать специализированные инструменты — например, для визуального программирования, редактирования изображений или анализа данных — чтобы достичь конечной цели. Неспособность MLLM к точному и последовательному использованию инструментов существенно ограничивает их потенциал в решении сложных задач, требующих не только понимания визуальной информации, но и активного взаимодействия с внешними ресурсами.
Оценка способности мультимодальных больших языковых моделей (MLLM) к использованию инструментов требует разработки специализированных тестов, превосходящих стандартные задачи по описанию изображений или ответам на вопросы. Простые бенчмарки не позволяют полноценно оценить способность модели планировать последовательность действий, точно выполнять команды и интерпретировать результаты работы инструментов. Для адекватной проверки необходимо создавать сценарии, требующие многоэтапного решения, где MLLM должна не только «видеть» проблему, но и самостоятельно выбирать и применять соответствующие инструменты для её устранения, например, использовать графический редактор для изменения изображения в соответствии с заданными параметрами или применять специализированные API для получения информации из внешних источников и её последующей обработки. Отсутствие таких комплексных тестов затрудняет объективное сравнение различных MLLM и замедляет прогресс в развитии их способностей к эффективному взаимодействию с внешними инструментами.
Отсутствие надёжных методов оценки значительно затрудняет определение реального прогресса в области использования инструментов мультимодальными большими языковыми моделями. Без чётких критериев и стандартизированных тестов, сложно объективно сравнить различные подходы и определить, какие улучшения действительно способствуют повышению эффективности и надёжности этих систем. Это приводит к ситуации, когда кажущиеся прорывы могут оказаться незначительными, а истинный потенциал новых разработок остаётся нереализованным. В результате, развитие данной области замедляется, поскольку исследователям не хватает возможности точно измерить влияние своих усилий и эффективно направлять дальнейшие исследования. Таким образом, создание всесторонних и объективных оценочных методик является ключевым фактором для стимулирования прогресса в использовании инструментов мультимодальными большими языковыми моделями.

VTC-Bench: Строгий Эталон для Оценки Инструментального Мастерства
VTC-Bench — это новый оценочный набор данных, разработанный для измерения способности больших мультимодальных моделей (MLLM) эффективно использовать инструменты, работающие с изображениями. В отличие от существующих бенчмарков, VTC-Bench фокусируется конкретно на оценке навыков модели в выборе и последовательном применении инструментов для решения задач, требующих анализа визуальной информации. Набор данных предназначен для количественной оценки способности MLLM не просто понимать изображения, но и стратегически использовать внешние инструменты для получения точных результатов, что является ключевым аспектом для создания действительно интеллектуальных систем.
VTC-Bench включает в себя широкий спектр задач, требующих последовательного и продуманного использования инструментов для достижения результатов. Этот набор включает в себя восстановление изображений (Perceptual Restoration), количественный анализ (Counting), решение математических задач (Math Problem Solving), надежное распознавание текста (Robust OCR), анализ графиков (Chart Analysis), измерение объектов на изображениях (Measurement), фокусировку внимания на определенных областях (Attention Focusing), пространственное рассуждение (Spatial Reasoning) и определение цветов (Color Estimation). Каждая задача разработана таким образом, чтобы потребовать не просто использования отдельных инструментов, но и стратегического выбора и последовательности их вызовов для получения корректного ответа.
В VTC-Bench для оценки эффективности моделей используется метрика “Эффективная Цепочка Инструментов” (Effective Toolchain). Она измеряет минимальную последовательность вызовов инструментов, необходимых для получения корректного результата по задаче. Вместо простого подсчета успешных ответов, метрика фокусируется на оптимальности стратегии использования инструментов моделью. Чем меньше шагов требуется для достижения цели, тем выше оценка по данной метрике, что позволяет более точно оценить способность модели к планированию и эффективному решению задач с использованием внешних инструментов.
В качестве основы для оценки и генерации эталонных решений в VTC-Bench используются передовые многомодальные большие языковые модели (MLLM), такие как Gemini-3.0-Pro и GPT-5.2. Применение Gemini-3.0-Pro в качестве модели для оценки показало общий уровень производительности в 51.2% по всему набору задач VTC-Bench, что указывает на значительные трудности, с которыми сталкиваются даже самые современные MLLM при решении задач, требующих стратегического использования инструментов и обработки визуальной информации.
Фундамент VTC-Bench: OpenCV и Надежная Реализация Задач
В качестве основного инструментария VTC-Bench использует библиотеку OpenCV, предоставляя доступ к 32 готовым функциям для обработки и анализа изображений. Этот выбор обусловлен широким спектром возможностей OpenCV в области компьютерного зрения, включая фильтрацию, сегментацию, обнаружение объектов и извлечение признаков. Предоставление готовых инструментов позволяет стандартизировать процесс решения задач и обеспечивает воспроизводимость результатов, а также позволяет исследователям сосредоточиться на оценке возможностей моделей, а не на реализации базовых функций обработки изображений.
Каждая задача в VTC-Bench реализована с использованием OpenCV, что обеспечивает стабильную и предсказуемую производительность. Тщательная реализация с опорой на OpenCV позволяет гарантировать консистентность результатов и воспроизводимость экспериментов. Это означает, что все этапы обработки изображений и анализа данных в каждой задаче опираются на проверенные и оптимизированные функции OpenCV, минимизируя влияние случайных факторов и обеспечивая надежную основу для оценки производительности моделей и алгоритмов.
Архитектура VTC-Bench напрямую зависит от функциональных возможностей OpenCV в области обработки изображений, извлечения признаков и анализа данных. Все задачи в бенчмарке построены на использовании инструментов OpenCV для выполнения операций манипулирования изображениями, таких как фильтрация, преобразование цветового пространства и геометрические трансформации. Извлечение признаков, необходимое для решения задач, осуществляется с помощью алгоритмов, реализованных в OpenCV, включая детекторы углов, дескрипторы текстур и алгоритмы поиска объектов. Анализ данных, полученных в результате обработки изображений и извлечения признаков, также выполняется с использованием функций OpenCV для статистической обработки и классификации.
В ходе тестирования на всем наборе данных было выполнено в общей сложности 3428 вызовов инструментов. Средняя сложность решения задачи составила 5.04 шага, что подразумевает использование последовательности из пяти инструментов для достижения результата. Средняя длина запроса (prompt), инициирующего решение задачи, составила 18.52 слова. Данные показатели отражают характерный уровень сложности и детализации задач, представленных в бенчмарке.
Влияние и Перспективы: Развитие Инструментального Мастерства MLLM
Разработанная платформа VTC-Bench представляет собой стандартизированную среду для оценки и сопоставления различных мультимодальных больших языковых моделей (MLLM) в критически важной области визуального рассуждения с использованием инструментов. Данная платформа позволяет исследователям объективно измерить способность MLLM эффективно взаимодействовать с внешними инструментами — например, калькуляторами, поисковыми системами или API — для решения сложных задач, требующих не только анализа изображений, но и логических выводов, основанных на полученной информации. VTC-Bench предоставляет унифицированный набор тестов и метрик, что обеспечивает сопоставимость результатов, полученных с использованием различных моделей и подходов, тем самым способствуя прогрессу в области искусственного интеллекта и открывая новые возможности для создания более интеллектуальных и полезных систем.
Результаты, полученные в ходе тестирования на VTC-Bench, позволяют четко определить сильные и слабые стороны современных мультимодальных больших языковых моделей (MLLM) в области использования инструментов. Анализ показывает, что некоторые модели превосходно справляются с задачами, требующими точного визуального распознавания и последовательного применения инструментов, в то время как другие испытывают трудности с планированием сложных действий или интерпретацией неоднозначных визуальных подсказок. Эти выводы служат ценным ориентиром для дальнейших исследований, указывая на необходимость совершенствования алгоритмов планирования, улучшения способности к обобщению знаний и разработки более эффективных методов интеграции визуальной информации с языковыми моделями. Выявление конкретных областей, требующих улучшения, позволит исследователям сосредоточить усилия на создании MLLM, способных надежно и эффективно решать широкий спектр задач, требующих совместного использования зрения и языка.
Совершенствование навыков использования инструментов мультимодальными большими языковыми моделями (MLLM) открывает широкие перспективы для различных областей. В робототехнике это позволит создавать более адаптивные и автономные системы, способные выполнять сложные задачи в реальном времени, опираясь на визуальную информацию и внешние инструменты. В сфере автономной навигации улучшенное использование инструментов позволит MLLM более эффективно анализировать окружающую среду, планировать маршруты и избегать препятствий, значительно повышая безопасность и надежность беспилотных транспортных средств. Не менее значим потенциал в области научных открытий: MLLM, умеющие взаимодействовать с научными инструментами и базами данных, смогут автоматизировать анализ сложных данных, выявлять закономерности и генерировать гипотезы, ускоряя тем самым прогресс в различных научных дисциплинах.
Перспективы развития платформы VTC-Bench связаны с расширением набора задач, направленным на проверку возможностей мультимодальных больших языковых моделей (MLLM) в более сложных сценариях. Особое внимание будет уделено интеграции инструментов, требующих более глубокого понимания контекста и более тонкого управления, что предполагает выход за рамки простых API-вызовов. Параллельно ведется изучение новых архитектур для оркестровки этих инструментов, позволяющих MLLM не просто использовать их последовательно, но и динамически выбирать оптимальную комбинацию в зависимости от поставленной задачи и получаемых результатов. Исследования направлены на создание систем, способных к адаптивному использованию инструментов, самообучению и автоматической оптимизации процессов, что откроет путь к разработке более интеллектуальных и автономных систем.
Исследование, представленное в работе, демонстрирует, что современные мультимодальные модели испытывают трудности при построении сложных цепочек инструментов для решения визуальных задач. Это подтверждает необходимость в строгой математической дисциплине при разработке алгоритмов, способных к адаптации и композиции. Кен Томпсон однажды заметил: «Программирование — это больше искусство, чем наука». Данное наблюдение особенно актуально в контексте VTC-Bench, поскольку оценка способности моделей к использованию инструментов требует не только корректной реализации отдельных функций, но и элегантного объединения их в логически выверенные последовательности. Очевидно, что истинная элегантность кода проявляется в его математической чистоте, а не просто в способности «работать на тестах».
Что дальше?
Представленный бенчмарк VTC-Bench, несомненно, выявляет уязвимости в кажущейся «способности к рассуждению» современных мультимодальных больших языковых моделей. Успешное применение инструментов — это не просто выполнение последовательности команд; это доказательство понимания, а не статистическое совпадение. Часто наблюдаемая неспособность к адаптации к новым инструментам или к композиции последовательностей действий говорит о том, что мы имеем дело с системами, умеющими лишь имитировать интеллект, а не обладать им.
Очевидным направлением дальнейших исследований является разработка более строгих метрик оценки, которые бы выходили за рамки простого «правильного ответа». Необходимо оценивать не только конечный результат, но и логику, лежащую в основе выбора инструментов и последовательности их применения. Оптимизация без анализа — это самообман и ловушка для неосторожного разработчика. Следует сосредоточиться на создании моделей, способных к формальной верификации своих действий, а не на увеличении объема данных для обучения.
В конечном счете, истинный прогресс будет достигнут лишь тогда, когда мы сможем создать системы, способные не просто «использовать» инструменты, но и «понимать» принципы их работы и ограничения. Задача не в том, чтобы заставить машину выполнить задание, а в том, чтобы она доказала, что понимает, что делает.
Оригинал статьи: https://arxiv.org/pdf/2603.15030.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Отражения культуры: Как языковые модели рассказывают истории
- Взлом языковых моделей: эволюция атак, а не подсказок
- Визуальный след: Сжатие рассуждений для мощных языковых моделей
- Гармония в коде: Распознавание аккордов с помощью глубокого обучения
- Кванты в Финансах: Не Шутка!
- Квантовый оптимизатор: Новый подход к сложным задачам
- Разделяй и властвуй: Новый подход к классификации текстов
- Врачебные диагнозы и искусственный интеллект: как формируются убеждения?
- Обучение с подкреплением и причинность: как добиться надёжных выводов
- Глубокое обучение на службе обратных задач: новый взгляд на оптимизацию
2026-03-21 22:55