Автор: Денис Аветисян
Новое исследование показывает, что современные модели, объединяющие зрение и язык, часто полагаются на языковые подсказки, а не на фактическое распознавание объектов при подсчете.

Работа посвящена выявлению недостатков в способности моделей «зрение-язык» к объективному счету и предложению метода улучшения согласованности между визуальной и языковой информацией.
Несмотря на впечатляющие успехи в решении сложных мультимодальных задач, современные модели «зрение-язык» (VLM) испытывают трудности даже с простым подсчетом объектов. В работе ‘Counting to Four is still a Chore for VLMs’ представлено эмпирическое исследование поведения VLM при подсчете, выявляющее склонность моделей полагаться на языковые априорные знания, а не на визуальные доказательства. Анализ показал, что значимость визуальной информации снижается в более поздних языковых слоях сети, что приводит к ошибкам. Возможно ли улучшить производительность VLM в задачах пространственного рассуждения за счет более эффективного использования визуальной информации на этапах генерации ответа?
Визуально-языковые модели: между потенциалом и ограничениями
Визуально-языковые модели (ВЯМ) представляют собой многообещающий подход к объединению понимания визуальной и текстовой информации, стремясь создать системы, способные обрабатывать данные из обоих источников одновременно. Однако, несмотря на значительные успехи, ВЯМ часто демонстрируют ограниченные возможности при решении сложных задач, требующих глубокого анализа и интеграции различных типов данных. Проблемы возникают при обработке неоднозначных изображений или сложных текстовых описаний, где модели могут допускать ошибки в интерпретации или упускать важные детали. Несмотря на впечатляющую способность генерировать описания к изображениям или отвечать на вопросы о них, ВЯМ все еще далеки от достижения истинного «понимания» и часто полагаются на поверхностные корреляции, а не на глубокое семантическое восприятие, что ограничивает их надежность и применимость в критически важных сценариях.
Существенная проблема в работе мультимодальных моделей, объединяющих зрение и язык, заключается в неравномерном распределении внимания между визуальными и текстовыми данными. Исследования показывают, что модели часто демонстрируют тенденцию к чрезмерной ориентации на текстовые подсказки и априорные знания, даже в ситуациях, когда визуальная информация является доминирующей и определяющей. Этот дисбаланс внимания приводит к снижению производительности в сложных задачах, требующих интеграции и сопоставления данных из разных источников. Неспособность модели адекватно взвешивать вклад каждого типа информации ограничивает ее способность к истинному пониманию и обобщению, подрывая потенциал мультимодальных систем.
Существующие модели, объединяющие зрение и язык, зачастую демонстрируют склонность к чрезмерному доверию текстовым вводным данным, даже когда визуальная информация является определяющей. Это означает, что при анализе изображений и сопутствующих описаний, модель может игнорировать очевидные визуальные подсказки, полагаясь вместо этого на предварительные знания, заложенные в текстовых данных. Например, при определении объекта на изображении, модель может ошибочно идентифицировать его, если текстовое описание содержит неточность или двусмысленность, даже если визуально объект совершенно очевиден. Такая предвзятость ограничивает способность моделей к надежному и точному пониманию окружающего мира, особенно в сложных и неоднозначных ситуациях, где визуальная информация должна превалировать над текстовой.

Слабые места в подсчете объектов: взгляд на пространственное рассуждение
Визуально-языковые модели (VLM) демонстрируют неожиданную слабость в задаче подсчета объектов, которая, несмотря на кажущуюся простоту, требует развитых навыков пространственного рассуждения. Исследования показывают, что модели испытывают трудности с определением количества объектов даже в относительно простых сценах, что указывает на недостаточное понимание взаимосвязей между объектами и их взаимного расположения в пространстве. Данный недостаток проявляется в неспособности адекватно учитывать перекрытия, частичную видимость и плотность объектов, что существенно ограничивает их возможности в задачах, требующих точного количественного анализа визуальной информации.
Недостатки визуальных языковых моделей (VLM) в задачах подсчета объектов особенно ярко проявляются в сложных сценах, требующих точного определения местоположения и взаимосвязи объектов. Сложность возникает из-за необходимости не просто обнаружить отдельные экземпляры, но и учитывать их пространственное расположение и близость друг к другу. В ситуациях, когда объекты частично перекрываются, расположены близко или имеют сложную конфигурацию, модели испытывают затруднения в их точном подсчете, что свидетельствует об ограничениях в понимании сцены и способности к пространственному рассуждению.
Оценка производительности визуальных языковых моделей (VLM) с использованием бенчмарка CountingTricks показала среднюю точность определения количества объектов на уровне 50.52%. Данный результат указывает на существенные ограничения в способности моделей к точному подсчету объектов в изображениях и подчеркивает необходимость дальнейших исследований и улучшений в алгоритмах обработки изображений и количественной оценки объектов. Низкая точность демонстрирует, что VLM испытывают трудности даже с базовыми задачами визуального анализа, требующими точного определения и подсчета отдельных объектов на изображении.

«Визуальный провал внимания»: узкое место в архитектуре моделей
Анализ карт внимания выявил феномен, названный нами “Визуальный Провал Внимания” (Visual Attention Sink), заключающийся в том, что модели склонны уделять приоритетное внимание текстовым токенам в ущерб визуальным признакам. Данное явление проявляется в неравномерном распределении внимания, где вес, придаваемый визуальной информации, существенно ниже по сравнению с текстовой. Это указывает на то, что модель в большей степени полагается на текстовый ввод при принятии решений, что может приводить к потере важной пространственной информации, содержащейся в визуальных данных.
Несбалансированность между обработкой визуальных и текстовых данных усугубляется архитектурой модели, где большая языковая модель (LLM) оказывает доминирующее влияние на распределение внимания. В процессе обработки мультимодальной информации, LLM имеет тенденцию превалировать в механизмах внимания, что приводит к приоритезации текстовых токенов над визуальными признаками. Это означает, что значительная часть вычислительных ресурсов и внимания направляется на обработку текста, в то время как визуальные данные получают меньше внимания, что негативно сказывается на точности пространственного анализа и способности модели использовать визуальную информацию для решения задач.
Наблюдения показали, что средняя точность (Average Precision, AP) на этапе проекции (Projector Tap) достигает 0.705 при использовании модели Qwen3-VL, однако значительно снижается до 0.372 на этапе взаимодействия с языковой моделью (LLM tap). Данное снижение демонстрирует существенную потерю пространственной информации при передаче данных от визуального энкодера к языковой модели, что указывает на узкое место в архитектуре, ограничивающее способность модели эффективно использовать визуальные признаки.

Регуляризация внимания: путь к улучшению производительности
Метод “Modality Attention Share” представляет собой способ регуляризации перераспределения внимания между визуальными и текстовыми модальностями. Он заключается в модификации механизма внимания, чтобы контролировать, какая доля внимания уделяется каждой модальности в процессе мультимодальной обработки. Данный подход позволяет целенаправленно влиять на вклад визуальных и текстовых признаков, что потенциально улучшает качество представления и интеграции информации из различных источников. Реализация предполагает добавление регуляризирующего члена в функцию потерь, который штрафует дисбаланс в распределении внимания между модальностями, стимулируя более равномерное использование визуальных и текстовых данных.
Метод регуляризации внимания направлен на достижение более сбалансированного распределения внимания между визуальными и текстовыми модальностями. Целевым значением для доли внимания, уделяемого визуальной информации, установлено 40%. Это позволяет смягчить проблему “Визуального Поглощения Внимания” (Visual Attention Sink), при которой модель чрезмерно фокусируется на визуальных данных в ущерб текстовому контексту. Регуляризация способствует улучшению визуального заземления (visual grounding), позволяя модели более точно соотносить текстовые описания с соответствующими областями на изображении.
Для оценки эффективности предложенного метода регуляризации внимания, использовался алгоритм обнаружения объектов YOLO в качестве инструмента для анализа представлений, формируемых визуальным энкодером. YOLO применялся для выявления объектов на изображениях, а изменения в производительности YOLO, связанные с регуляризацией внимания, служили индикатором качества визуальных представлений. Улучшение показателей YOLO свидетельствует о том, что регуляризация внимания позволяет визуальному энкодеру формировать более информативные и точные представления об изображении, что, в свою очередь, положительно сказывается на задачах визуального обоснования и общей производительности модели.

Улучшение подсчета объектов с помощью обучения с инструкциями
Дополнительное обучение модели с использованием инструкций, в частности, на наборах данных, таких как FSC-147, позволяет существенно повысить точность подсчета объектов на сложных изображениях. Этот метод предполагает не просто распознавание объектов, но и понимание поставленной задачи в виде инструкции, что позволяет модели более эффективно фокусироваться на релевантных деталях сцены. В результате, модель не только идентифицирует объекты, но и учитывает их количество, значительно улучшая результаты в задачах, требующих точного подсчета, даже при высокой плотности объектов и сложном визуальном окружении. Такой подход демонстрирует перспективность использования инструкций для улучшения способности моделей к визуальному пониманию и решению сложных задач компьютерного зрения.
Внедрение метода обучения с инструкциями в сочетании с технологией “Modality Attention Share” демонстрирует стабильное повышение точности на ключевых бенчмарках до 1%. Данный подход позволяет модели более эффективно распределять внимание между различными модальностями данных — например, между визуальной информацией и текстовыми инструкциями — что приводит к улучшению результатов в задачах, требующих точного подсчета объектов. Повышение точности, пусть и умеренное, является значимым, поскольку указывает на потенциал оптимизации Vision-Language Models за счет более сбалансированного использования доступных данных и более точной визуальной привязки к инструкциям.
Исследование выявило отрицательную корреляцию (-0.78) между фактическим количеством объектов на изображении и точностью их подсчета моделью, что указывает на возрастающие трудности при увеличении числа объектов в сцене. Данный факт подчеркивает необходимость более глубокой работы над устранением дисбаланса между различными модальностями данных и улучшением процесса визуального связывания. Повышение точности и надежности моделей, работающих с визуальной информацией и естественным языком, требует совершенствования способности модели к точному определению и интерпретации объектов, особенно в сложных и насыщенных сценах, что является ключевым шагом к созданию действительно интеллектуальных систем.

Исследование, представленное в данной работе, подчеркивает сложность для современных Vision-Language Models (VLMs) выполнения даже базовых задач, таких как подсчет объектов. Авторы выявляют тенденцию моделей опираться на лингвистические предубеждения, а не на визуальные доказательства, что приводит к неточностям. Это особенно заметно в ситуациях, когда визуальная информация неоднозначна или требует пространственного рассуждения. Как заметил Ян Лекун: «Машинное обучение — это прежде всего изучение представлений». В контексте данной статьи, это означает, что создание более эффективных VLMs требует улучшения способов представления и интеграции визуальной информации, чтобы модель могла более надежно опираться на фактические данные, а не на языковые шаблоны.
Куда же дальше?
Несмотря на кажущуюся простоту задачи — сосчитать до четырех — исследование выявляет удивительную склонность современных мультимодальных моделей к лингвистическим подсказкам, а не к визуальному анализу. Элегантность решения, как всегда, кроется в простоте: заставить модель действительно видеть, а не просто интерпретировать запрос. Однако, настоящая сложность заключается не в улучшении текущих метрик, а в понимании того, что значит «понимание» для искусственного интеллекта. Достаточно ли корректного ответа, или требуется внутренняя согласованность, гармония между визуальным вводом и лингвистическим выводом?
В перспективе, необходимо отойти от оценки исключительно количественных показателей. Истинным вызовом является разработка методов, позволяющих оценить степень обоснованности рассуждений модели. Как убедиться, что модель считает объекты не просто потому, что «так сказано», а потому, что она действительно их обнаружила и интерпретировала? Анализ механизмов внимания, безусловно, важен, но этого недостаточно. Требуется более глубокое понимание того, как модель формирует свои внутренние представления о мире.
Будущие исследования должны сосредоточиться на разработке архитектур, способных к более гибкому и контекстуальному рассуждению. Модели должны уметь не только считать объекты, но и понимать их взаимосвязи, свойства и роль в общей картине. В конечном итоге, цель состоит не в том, чтобы создать машины, которые умеют считать, а в том, чтобы создать машины, которые умеют видеть мир таким же образом, как и мы — с его сложностью, неоднозначностью и красотой.
Оригинал статьи: https://arxiv.org/pdf/2604.10039.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Язык тела под присмотром ИИ: архитектура и гарантии
- Квантовый импульс для несбалансированных данных
- Безопасность генерации изображений: новый вектор управления
- Пространственная Архитектура для Эффективного Ускорения Нейросетей
- Разбираемся с разреженными автокодировщиками: Действительно ли они учатся?
- Видеовопросы и память: Искусственный интеллект на грани
- Редактирование изображений по запросу: новый уровень точности
- Искусственный интеллект в университете: кто за кого работу делает?
- Искусственный интеллект в разговоре: что обсуждают друг с другом AI?
- Очарование в огненном вихре: Динамика очарованных кварков в столкновениях тяжелых ионов
2026-04-14 17:29