Визуальный интеллект: Когда модели должны спрашивать?

Автор: Денис Аветисян


Новый бенчмарк ProactiveBench выявляет слабость современных мультимодальных моделей в определении необходимости дополнительной визуальной информации для точных ответов.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В рамках исследования предложен ProactiveBench - первый эталон для оценки проактивности многомодальных больших языковых моделей (MLLM), определяемой как их способность запрашивать дополнительные визуальные подсказки при столкновении с неоднозначными запросами; в отличие от реактивных моделей, склонных к воздержанию или галлюцинациям при невозможности ответа, проактивные модели стремятся к уточнению входных данных посредством запроса визуальных уточнений, что позволяет получить корректный ответ.
В рамках исследования предложен ProactiveBench — первый эталон для оценки проактивности многомодальных больших языковых моделей (MLLM), определяемой как их способность запрашивать дополнительные визуальные подсказки при столкновении с неоднозначными запросами; в отличие от реактивных моделей, склонных к воздержанию или галлюцинациям при невозможности ответа, проактивные модели стремятся к уточнению входных данных посредством запроса визуальных уточнений, что позволяет получить корректный ответ.

Исследование представляет ProactiveBench — эталон для оценки способности мультимодальных больших языковых моделей запрашивать уточняющие визуальные данные при неоднозначных запросах.

Несмотря на значительные успехи в области мультимодальных больших языковых моделей (MLLM), их способность к проактивному взаимодействию с пользователем для решения неоднозначных задач остается слабо изученной. В данной работе, представленной в статье ‘ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models’, авторы предлагают новый бенчмарк ProactiveBench для оценки способности MLLM запрашивать дополнительную визуальную информацию при необходимости. Результаты экспериментов с 22 MLLM показали, что текущие модели демонстрируют недостаточный уровень проактивности, а ее развитие не коррелирует напрямую с объемом параметров модели. Возможно ли создание действительно коллаборативных мультимодальных систем, способных самостоятельно определять потребность в дополнительной информации и эффективно ее запрашивать?


Неоднозначность Визуальной Информации и Ограничения Мультимодальных Моделей

Современные мультимодальные большие языковые модели (MLLM) зачастую демонстрируют неустойчивость к неоднозначности или неполноте визуальной информации, что приводит к неточным прогнозам и выводам. В отличие от человеческого восприятия, где при недостатке данных человек инстинктивно стремится уточнить ситуацию или запросить дополнительные сведения, MLLM склонны оперировать имеющимся набором данных, даже если он не позволяет сформировать корректное представление о происходящем. Эта особенность особенно заметна при анализе сложных сцен или изображений с низким разрешением, где отсутствие четких ориентиров может привести к ошибочной интерпретации и, как следствие, к неверным решениям. Данное ограничение существенно влияет на надежность систем, использующих MLLM для визуального анализа, и требует разработки новых подходов к обработке неполной информации.

В отличие от людей, современные мультимодальные большие языковые модели (MLLM) редко проявляют инициативу в запросе дополнительной информации при столкновении с неясными или неполными визуальными данными. Эта особенность существенно ограничивает их способность к надежному рассуждению в реальных условиях. Человек, сталкиваясь с двусмысленностью, инстинктивно задает уточняющие вопросы, чтобы получить более полное представление о ситуации. MLLM же, как правило, пытаются сделать вывод, основываясь на имеющихся данных, даже если они недостаточны, что приводит к ошибкам и неточностям. Отсутствие проактивного поведения в запросе разъяснений является серьезным препятствием для применения этих моделей в задачах, требующих высокой степени надежности, таких как робототехника и системы помощи людям с ограниченными возможностями, где неверная интерпретация визуальной информации может иметь критические последствия.

Отсутствие проактивного поведения у современных мультимодальных больших языковых моделей является существенным препятствием для их применения в областях, требующих надежного визуального понимания. В частности, это критично для робототехники и вспомогательных технологий, где системы должны не только интерпретировать полученные изображения, но и активно запрашивать дополнительную информацию при возникновении неопределенности. Например, робот, столкнувшийся с частично скрытым объектом, не может самостоятельно определить, что это, если не запросит уточнения или не попробует изменить угол обзора. Аналогично, система помощи слабовидящим, полагаясь на неполные визуальные данные, рискует предоставить неверную или опасную информацию. Поэтому развитие способности к проактивному поиску уточнений является ключевым шагом к созданию надежных и безопасных систем искусственного интеллекта, способных эффективно взаимодействовать с реальным миром.

В отличие от моделей LLaVA-OV-7B, InternVL3-8B и LLaVA-NeXT-Mistral-7B, склонных к воздержанию или случайным ответам, остальные модели активно предлагают решения, эффективно используя визуальные подсказки для повышения точности прогнозов.
В отличие от моделей LLaVA-OV-7B, InternVL3-8B и LLaVA-NeXT-Mistral-7B, склонных к воздержанию или случайным ответам, остальные модели активно предлагают решения, эффективно используя визуальные подсказки для повышения точности прогнозов.

ProactiveBench: Строгий Критерий Оценки Проактивности

ProactiveBench представляет собой эталонный набор данных, предназначенный для всесторонней оценки проактивности мультимодальных больших языковых моделей (MLLM). В отличие от традиционных метрик, оценивающих только точность ответов, ProactiveBench фокусируется на способности модели запрашивать дополнительные визуальные данные в ситуациях, когда входные данные неоднозначны или неполны. Оценка проводится путем анализа способности MLLM формулировать релевантные вопросы, направленные на получение недостающей информации, необходимой для корректного выполнения задачи. Это позволяет более точно оценить не только способность модели к рассуждению, но и ее умение осознавать собственные ограничения и активно стремиться к уточнению входных данных для повышения надежности результатов.

В состав ProactiveBench входят разнообразные наборы данных — ROD, VSOD, MVP-N, ImageNet-C, QuickDraw, ChangeIt и MS-COCO — каждый из которых характеризуется специфическими неоднозначностями и требует от модели активного запроса дополнительной информации. Набор ROD содержит изображения с нечетким визуальным разделением объектов, VSOD — сцены с недостаточным визуальным разделением, MVP-N — изображения с множеством перекрывающихся объектов. ImageNet-C включает в себя изображения, подвергшиеся различным искажениям, QuickDraw — эскизы, требующие интерпретации, ChangeIt — изображения с изменениями, которые необходимо обнаружить, а MS-COCO предоставляет сложные сцены с большим количеством объектов. Использование этих разнообразных данных позволяет всесторонне оценить способность модели выявлять неопределенности и запрашивать уточнения для повышения точности.

В рамках ProactiveBench, оценка проактивности мультимодальных больших языковых моделей (MLLM) осуществляется посредством метрики “Коэффициент проактивных запросов” (Proactive Suggestion Rate). Данный показатель количественно оценивает способность модели запрашивать дополнительную визуальную информацию при столкновении со сложными или неоднозначными входными данными. В ходе экспериментов с моделью Qwen2.5-VL-3B после обучения с подкреплением, наблюдались значения коэффициента проактивных запросов в диапазоне от 0.9 до 1.7, что демонстрирует возможность количественной оценки проактивности и дополняет традиционные метрики точности.

ProactiveBench оценивает проактивность агентов в семи различных сценариях, демонстрируя примеры ситуаций и соответствующие статистические данные.
ProactiveBench оценивает проактивность агентов в семи различных сценариях, демонстрируя примеры ситуаций и соответствующие статистические данные.

Оценка Производительности MLLM с Помощью ProactiveBench: Выявление Скрытых Недостатков

В ходе оценки нескольких ведущих мультимодальных больших языковых моделей (MLLM) — LLaVA, Qwen2.5 и InternVL3 — с использованием ProactiveBench, были выявлены значительные различия в их способности к проактивному запросу дополнительной информации. Анализ показал, что модели демонстрируют неодинаковый уровень инициативы в определении необходимости в дополнительных данных для более точного выполнения задачи. Различия в проактивности были зафиксированы даже при сопоставимых показателях общей точности выполнения задач, что указывает на важность специализированных бенчмарков, таких как ProactiveBench, для всесторонней оценки возможностей MLLM.

Традиционные метрики точности, такие как процент правильно предсказанных ответов, не всегда отражают способность модели к проактивному поведению — то есть, к самостоятельному запросу дополнительной информации, необходимой для решения задачи. Наши исследования показали, что модели с сопоставимыми показателями общей точности могут демонстрировать существенно различающиеся частоты проактивных предложений (suggestion rates). Это указывает на то, что для адекватной оценки моделей, способных к проактивному взаимодействию, необходимы специализированные бенчмарки, учитывающие именно эту способность, а не только способность правильно отвечать на поставленные вопросы при заданном вводе.

Результаты наших исследований показали, что высокие показатели моделей в задачах zero-shot обучения не гарантируют их превосходство в проактивном поведении. В частности, при оценке с использованием ProactiveBench наблюдался разрыв в производительности, превышающий 60%, в сценариях, требующих проактивного запроса дополнительной информации, по сравнению с ситуациями, где модели используют предоставленные эталонные изображения. Это подчеркивает необходимость специализированных бенчмарков, таких как ProactiveBench, для адекватной оценки способности моделей к проактивному взаимодействию и выявлению моделей, способных эффективно запрашивать уточнения для повышения точности и полноты ответов.

В процессе постобучения с использованием обучения с подкреплением модель Qwen2.5-VL-3B достигла точности в 37.4% на наборах данных QuickDraw и MS-COCO. Анализ показал, что применение данной методики позволило добиться повышения точности на 6-10% в различных наборах данных не только для Qwen2.5-VL-3B, но и для модели LLaVA-NeXT-Mistral-8B, что свидетельствует об эффективности постобучения с подкреплением для улучшения производительности мультимодальных больших языковых моделей.

Модели демонстрируют снижение производительности более чем на 60% в задачах, требующих проактивности, по сравнению с эталонными показателями в ProactiveBench.
Модели демонстрируют снижение производительности более чем на 60% в задачах, требующих проактивности, по сравнению с эталонными показателями в ProactiveBench.

Усиление Проактивности посредством Обучения с Подкреплением: Формирование Интеллектуальной Инициативы

Исследования показали, что тонкая настройка мультимодальных больших языковых моделей (MLLM) с использованием алгоритма обучения с подкреплением, Group-Relative Policy Optimization (GRPO), значительно повышает их проактивность при работе с набором данных ProactiveBench. Данный подход позволяет моделям не просто отвечать на поставленные вопросы, но и активно выявлять недостающую информацию, задавая уточняющие вопросы для более точного понимания ситуации. Эксперименты продемонстрировали, что применение GRPO приводит к существенному улучшению способности модели проявлять инициативу и предвидеть потребности пользователя, что, в свою очередь, положительно сказывается на качестве и полноте предоставляемых ответов и решений.

В основе повышения инициативности мультимодальных больших языковых моделей (MLLM) лежит алгоритм обучения с подкреплением Group-Relative Policy Optimization (GRPO), который эффективно направляет процесс обучения посредством вознаграждения за задавание уместных уточняющих вопросов. Данный подход позволяет модели не просто генерировать ответы, но и активно выявлять недостающую информацию, необходимую для более точного и полного понимания задачи. Вознаграждение за релевантные вопросы формирует у модели привычку к проактивному поведению, стимулируя её к самостоятельной инициации диалога для уточнения деталей. В результате, модель учится не пассивно реагировать на входные данные, а активно взаимодействовать с окружением для достижения оптимального результата, что подтверждается улучшением показателей в сложных задачах визуального рассуждения.

Исследования показали, что применение метода обучения с подкреплением не только увеличивает частоту выдачи полезных предложений моделями, но и существенно повышает их общую эффективность в решении сложных задач визуального мышления. Данный эффект обусловлен синергией между проактивным поведением — способностью модели запрашивать уточняющую информацию — и точностью предсказаний. В результате, модель, активно стремящаяся к прояснению ситуации, демонстрирует более высокие результаты в понимании изображений и решении связанных с ними задач, что указывает на важность проактивности как неотъемлемой части интеллектуальной деятельности.

Распределения действий с использованием случайных проактивных опций демонстрируют вариативность стратегий, предложенных различными моделями.
Распределения действий с использованием случайных проактивных опций демонстрируют вариативность стратегий, предложенных различными моделями.

Исследование, представленное в статье, подчеркивает недостаток проактивности у современных мультимодальных больших языковых моделей (MLLM). Они часто не запрашивают дополнительную визуальную информацию при неоднозначности входных данных, что препятствует достижению истинно коллаборативного поведения. Это подтверждает слова Дэвида Марра: «Математическая чистота — основа элегантного кода». В данном контексте, ‘чистота’ проявляется в способности модели корректно оценивать свою потребность в данных и запрашивать их, а не полагаться на неполную информацию. Отсутствие этой способности указывает на необходимость дальнейшей разработки алгоритмов, обеспечивающих более глубокий анализ и проактивное поведение моделей в условиях неопределенности.

Что дальше?

Представленная работа выявила закономерность, которую можно было предвидеть с математической точностью: современные мультимодальные большие языковые модели (MLLM) демонстрируют тревожную неспособность к проактивному поведению. Неспособность запросить дополнительную визуальную информацию при неоднозначности входных данных — это не просто недостаток, а фундаментальное ограничение в понимании задачи. Модели, по сути, оперируют с тем, что им дано, не стремясь к уточнению — подход, достойный лишь наивного автоматического устройства, а не интеллектуального агента.

Следующим шагом видится не просто повышение производительности на существующем бенчмарке ProactiveBench, а разработка формальной теории проактивности. Необходимо определить аксиомы, описывающие оптимальное поведение агента в условиях неопределенности, и доказать, что разработанные алгоритмы им соответствуют. Интуитивные улучшения, основанные на эмпирических данных, не имеют ценности, если не подкреплены математической строгостью. Иначе это всего лишь случайные колебания вокруг истинного решения.

В конечном счете, истинный прогресс в области человеко-машинного взаимодействия потребует от моделей не просто ответов на вопросы, а способности задавать правильные вопросы. И это, несомненно, потребует от исследователей не только инженерного мастерства, но и глубокого философского осмысления природы познания.


Оригинал статьи: https://arxiv.org/pdf/2603.19466.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-23 13:43