Иллюзии восприятия: Как формулировка вопроса влияет на зрение нейросетей

Автор: Денис Аветисян

Новое исследование показывает, что даже незначительные изменения в формулировке вопроса могут кардинально менять фокус внимания визуальных моделей.

Формулировка вопроса оказывает влияние на предсказания модели посредством визуального внимания: изменение акцентирования внимания (от формулировки вопроса к вниманию) приводит к снижению качества предсказаний (от внимания к результату).

Работа демонстрирует влияние эффектов фрейминга на механизмы внимания в моделях, объединяющих зрение и язык, и предлагает метод настройки промптов для повышения устойчивости к различным форматам вопросов.

Несмотря на успехи в области мультимодального обучения, модели «зрение-язык» часто демонстрируют избирательную слепоту к визуальным данным, даже когда визуальное рассуждение необходимо. В работе ‘Tinted Frames: Question Framing Blinds Vision-Language Models’ показано, что формат вопроса — например, открытый или с множественным выбором — существенно влияет на распределение внимания модели к изображению. Авторы обнаружили, что ограничения в формулировке вопроса приводят к снижению внимания к релевантным областям изображения и смещению его на неинформативные элементы, что напрямую влияет на точность ответа. Возможно ли разработать методы, которые позволят моделям сохранять визуальную осведомленность независимо от способа подачи вопроса и повысить их устойчивость к различным форматам?

Визуальные модели: между иллюзией и реальностью

Визуальные языковые модели демонстрируют впечатляющую способность сопоставлять изображения и текст, однако их возможности в области тонкого рассуждения и точного визуального внимания остаются ограниченными. Несмотря на успехи в распознавании объектов и общих сцен, модели часто сталкиваются с трудностями при решении задач, требующих детального анализа и понимания сложных визуальных взаимосвязей. Эта неспособность к нюансированному восприятию может приводить к ошибкам в ответах на вопросы, требующие точного определения местоположения объектов или понимания их контекста, что указывает на необходимость дальнейших исследований в области улучшения механизмов внимания и рассуждения в визуальных языковых моделях.

Визуальные языковые модели, несмотря на впечатляющую способность связывать изображения и текст, часто сталкиваются с проблемой систематических ошибок в определении областей внимания на изображении — явление, известное как пространственная предвзятость. Данная предвзятость проявляется в том, что модель не всегда фокусируется на релевантных объектах или деталях, необходимых для точного ответа на вопрос, а вместо этого концентрируется на определенных областях изображения, даже если они не имеют прямого отношения к задаче. Это приводит к снижению способности модели к детальному визуальному пониманию и может приводить к неверным ответам, особенно в ситуациях, требующих точного анализа конкретных элементов изображения.

Исследования показывают, что предвзятость внимания в визуальных языковых моделях (ВЯМ) существенно ограничивает их способность к точному визуальному пониманию. В ходе тестирования моделей Qwen2.5-VL, Gemma3 и GLM4.1V было выявлено, что приблизительно в 15-20% случаев ответы на вопросы, требующие детального анализа изображения, оказываются неверными из-за неспособности модели корректно сфокусироваться на релевантных объектах. Данная проблема, известная как «перекрестная фокусировка», указывает на систематическую ошибку в механизме внимания ВЯМ, что снижает надежность этих моделей в задачах, где критически важна точность визуальной интерпретации и анализ конкретных деталей изображения.

Анализ карт внимания показывает, что модель Qwen2.5-VL-7B активно фокусируется на целевом объекте при открытой генерации, но теряет концентрацию и ошибочно распределяет внимание при использовании вопросов в формате «да/нет» или с множественным выбором, что выявляется посредством рекурсивного распространения внимания от входных слоев к выходным эмбеддингам.

Как формулировка вопроса искажает визуальное внимание

Формулировка вопроса, или его фрейминг (например, открытый вопрос против вопроса с ответом «да/нет»), напрямую влияет на распределение внимания в визуальной языковой модели (VLM), приводя к явлению, которое называется “Сдвиг внимания, вызванный фреймингом” (Framing-Induced Attention Shift). Этот эффект демонстрирует, что способ представления запроса к модели определяет, на какие области изображения она будет концентрировать свое внимание при поиске ответа. Изменение фрейминга приводит к перераспределению внимания модели, что может существенно повлиять на точность и релевантность полученных результатов.

Исследования показывают, что даже при сохранении сути вопроса, различная формулировка — в частности, переход от открытого вопроса к вопросам с вариантами ответов (да/нет или множественный выбор) — приводит к перераспределению внимания визуальной языковой модели (VLM) и, как следствие, к снижению показателя Visual Energy до 40%. Это означает, что VLM фокусируется на иных областях изображения в зависимости от способа постановки вопроса, несмотря на то, что требуемая информация остается неизменной. Уменьшение Visual Energy указывает на снижение интенсивности внимания к релевантным областям изображения при использовании более ограничивающих формулировок вопроса.

Чувствительность визуальных языковых моделей (ВЯМ) к формулировкам вопросов выявляет уязвимость, которая может быть использована злоумышленниками или смягчена путем улучшения архитектуры модели. В частности, при переходе к более ограниченным формулировкам вопросов (например, вопросы с вариантами ответов или вопросы, требующие ответа «да/нет») наблюдается снижение внимания к ограничивающим рамкам (Bounding Box Attention) на 12-19%. Это указывает на то, что ВЯМ могут чрезмерно полагаться на поверхностные сигналы в формулировке вопроса, что влияет на распределение внимания и, как следствие, на точность ответов. Понимание этой уязвимости критически важно для разработки более надежных и устойчивых ВЯМ.

Закрытые вопросы и вопросы с множественным выбором значительно снижают визуальную энергию, перенаправляя внимание с объекта интереса на «пустые» токены, как демонстрируется на примере модели Qwen2.5-VL-7B, работающей с датасетом GQAF $^{\text{F}}$ .

Тонкая настройка промптов: контроль над вниманием

Тонкая настройка промптов (Prompt Tuning) представляет собой метод корректировки поведения визуальных языковых моделей (VLM) путем оптимизации небольшого набора так называемых “мягких токенов”, добавляемых к входному промпту. В отличие от стандартной разработки промптов, этот подход позволяет добиться более точного контроля над распределением внимания модели. В процессе обучения изменяются параметры этих “мягких токенов”, а не параметры самой VLM, что значительно снижает вычислительные затраты и позволяет адаптировать модель к конкретным задачам без полной переподготовки.

В отличие от стандартной настройки запросов, метод тонкой настройки запросов (Prompt Tuning) позволяет более точно управлять распределением внимания визуальной языковой модели (VLM). Это достигается за счет корректировки небольшого набора “мягких токенов”, добавленных к входному запросу, что позволяет снизить влияние эффекта смещения внимания, вызванного формулировкой вопроса (Framing-Induced Attention Shift). Вместо простой адаптации запроса, данный подход обеспечивает непосредственный контроль над тем, какие области изображения привлекают наибольшее внимание модели, обеспечивая более стабильные и предсказуемые результаты независимо от способа формулировки вопроса.

Метод точной настройки подсказок (Prompt Tuning) позволяет направлять внимание визуальной языковой модели (VLM) на наиболее релевантные области изображения посредством добавления и оптимизации небольшого набора “мягких токенов”. В отличие от простого изменения формулировки запроса, эта техника обеспечивает более точное управление распределением внимания модели, снижая влияние эффекта смещения внимания, вызванного формулировкой вопроса. На практике, применение этой методики при использовании модели Qwen2.5-VL-7B привело к улучшению результатов на бенчмарке V* (HRBench8k) до 2.5%.

Обучение перенаправлению внимания позволяет выравнивать распределение внимания большой языковой модели (LLM) между исходными и перефразированными вопросно-ответными парами за счет добавления обученных токенов к ограниченным формулировкам и оптимизации внимания на этапе обучения.

Предотвращение утечки информации: каузальные маски внимания

Каузальные маски внимания представляют собой технику, направленную на предотвращение утечки информации при вычислении механизмов внимания в моделях. Суть подхода заключается в ограничении доступа модели к будущим токенам при обработке последовательности. В процессе вычислений маски блокируют “взгляд” модели на последующие элементы, позволяя ей учитывать исключительно текущий и предыдущие токены. Такой подход гарантирует, что при принятии решений модель опирается только на уже обработанную информацию, что особенно важно для задач, требующих последовательной обработки данных и предотвращения предвзятости, вызванной “заглядыванием в будущее”. Это обеспечивает более реалистичное моделирование процессов восприятия и принятия решений, а также способствует повышению надежности и предсказуемости результатов.

Применение каузальных масок внимания напрямую решает проблему пространственного смещения в визуальных языковых моделях (VLM). Эти маски эффективно ограничивают область внимания модели, заставляя её концентрироваться исключительно на уже обработанных и текущих регионах изображения. Таким образом, исключается влияние будущей информации, которая в противном случае могла бы неправомерно влиять на текущие выводы. Этот подход позволяет VLM более точно интерпретировать визуальные данные, избегая «подглядывания» в будущее и формируя более надежные и обоснованные ответы на поставленные вопросы. В результате, модель демонстрирует улучшенную способность к обобщению и адаптации к новым, ранее не встречавшимся изображениям и вопросам.

Применение каузальных масок внимания не ограничивается лишь повышением точности ответов модели. Существенно улучшается её способность к обобщению — то есть, к успешной работе с принципиально новыми изображениями и вопросами, которые не встречались в процессе обучения. Это достигается за счет того, что модель, лишенная возможности “подглядывать” в будущее, вынуждена более глубоко анализировать доступную информацию и выстраивать логические связи, опираясь исключительно на контекст, сформированный прошлыми и настоящими данными. В результате, даже при столкновении с незнакомыми ситуациями, модель демонстрирует более устойчивые и предсказуемые результаты, что крайне важно для практического применения в реальных условиях.

Исследование влияния формулировки вопроса на поведение моделей, анализирующих изображения и текст, закономерно выявляет уязвимость даже самых передовых систем. Внимательный взгляд на механизмы внимания показывает, что кажущаяся объективность алгоритмов — иллюзия, а способ подачи информации критически влияет на результат. Как однажды заметил Джеффри Хинтон: «Я думаю, что мы находимся в опасности слишком быстрого принятия этих моделей». Это наблюдение особенно актуально в контексте данной работы, демонстрирующей, что даже незначительные изменения в формулировке вопроса могут существенно исказить области внимания модели, приводя к ошибочным ответам. Элегантная теория машинного зрения сталкивается с суровой реальностью продакшена, где формулировка вопроса становится новым вектором атаки.

Что дальше?

Представленная работа, безусловно, добавляет ещё один слой сложности к пониманию того, как модели «зрение-язык» принимают решения. Очевидно, что даже незначительные изменения в формулировке вопроса могут существенно сместить фокус внимания модели, что, впрочем, мало кого удивит. Всё это уже было, просто раньше называлось «смещением выборки» и лечилось увеличением датасета. Однако, заманчивая идея о «выравнивании внимания» через prompt-tuning, вероятно, потребует дальнейшей проверки. Ведь, как показывает опыт, каждое элегантное решение порождает два новых, ещё более изощрённых бага.

Очевидным направлением дальнейших исследований представляется изучение устойчивости предложенного метода к «враждебным» вопросам — специально сконструированным запросам, призванным максимально исказить внимание модели. Или, что ещё более вероятно, к вопросам, которые просто сформулированы немного иначе, чем в обучающей выборке. Если тесты зелёные — значит, они ничего не проверяют. И, конечно, необходимо помнить, что «бесконечная масштабируемость» — это лишь красивая фраза, пока кто-нибудь не попробует запустить эту систему в продакшене.

В конечном счёте, данная работа напоминает о том, что мы по-прежнему находимся на начальном этапе понимания того, как машины «видят» и «думают». Каждая «революционная» технология завтра станет техдолгом. И, скорее всего, все эти красивые диаграммы внимания неизбежно превратятся в монолит, который никто не сможет поддерживать.

Оригинал статьи: https://arxiv.org/pdf/2603.19203.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-20 23:24

🚀 Квантовые новости