Иллюзии зрения для искусственного интеллекта: Как отвлекающие детали влияют на сложные задачи

Автор: Денис Аветисян


Новое исследование показывает, что современные модели, объединяющие зрение и язык, могут ошибаться в простых вопросах из-за нерелевантных визуальных элементов.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
По мере удлинения цепочек рассуждений, у визуально-языковых моделей наблюдается закономерность обратной зависимости: незначительные отвлекающие факторы вызывают умеренное снижение точности, в то время как противоречивые отвлекающие факторы приводят к наиболее резкому падению производительности, демонстрируя уязвимость моделей к помехам по мере усложнения задач.
По мере удлинения цепочек рассуждений, у визуально-языковых моделей наблюдается закономерность обратной зависимости: незначительные отвлекающие факторы вызывают умеренное снижение точности, в то время как противоречивые отвлекающие факторы приводят к наиболее резкому падению производительности, демонстрируя уязвимость моделей к помехам по мере усложнения задач.

Работа посвящена изучению влияния отвлекающих визуальных деталей на производительность моделей, способных к рассуждениям, и выявлению корреляции между вниманием к нерелевантным атрибутам и снижением точности ответов.

Несмотря на успехи моделей «зрение-язык» в решении сложных задач, влияние отвлекающих факторов на процесс рассуждений остаётся малоизученным. В работе «Do Reasoning Vision-Language Models Inversely Scale in Test-Time Compute? A Distractor-centric Empirical Analysis» авторы исследуют, как визуальные отвлекающие факторы влияют на масштабируемость и эффективность моделей при решении задач визуального вопросно-ответного анализа. Полученные результаты показывают, что добавление визуальных отвлекающих элементов снижает точность, не увеличивая при этом длину рассуждений, и связано с повышенным вниманием к атрибутам, связанным с отвлекающими факторами. Как можно использовать эти знания для создания более устойчивых и надежных моделей «зрение-язык», способных игнорировать нерелевантную информацию?


Визуальные иллюзии: Почему модели «видят» то, чего нет

Несмотря на значительный прогресс в области разработки моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), они по-прежнему подвержены визуальным искажениям, что приводит к ненадежным выводам. Данные модели, обученные на больших объемах визуальной информации, могут демонстрировать предвзятость, полагаясь на поверхностные визуальные характеристики вместо реального понимания сцены. Это означает, что даже при правильной идентификации объектов, модель может делать ошибочные заключения, если визуальный контекст отличается от того, на котором она обучалась. Такая подверженность визуальным искажениям ставит под сомнение надежность VLMs в критически важных приложениях, где требуется точная и объективная оценка визуальной информации, например, в автономных транспортных средствах или медицинских диагностических системах.

Набор данных Waterbirds ярко демонстрирует склонность современных моделей, работающих с изображениями и текстом, к эксплуатации ложных корреляций между визуальными признаками и метками. Исследование показывает, что модели часто фокусируются на несущественных деталях изображения — например, на фоне или случайных объектах — вместо того, чтобы выделять действительно важные характеристики для определения класса объекта. Это приводит к тому, что модель успешно справляется с данными, на которых она обучалась, но её способность к обобщению на новые, незнакомые изображения значительно снижается. Фактически, модель учится ассоциировать определенные визуальные «шумы» с определенными классами, а не понимать суть объекта, что делает её уязвимой к даже незначительным изменениям в изображении или контексте.

Исследования показывают, что предвзятость в моделях, работающих с изображениями и текстом, усугубляется присутствием визуальных отвлекающих факторов — незначимых элементов на изображении, которые вводят модель в заблуждение. Эти отвлекающие факторы могут быть любыми объектами или деталями, не имеющими отношения к основной задаче, но способными привлечь внимание модели и повлиять на её рассуждения. Например, модель, обученная определять вид птицы, может ошибочно классифицировать изображение, если на нём присутствует яркий, но нерелевантный объект, привлекающий её внимание. Такая чувствительность к посторонним деталям снижает надежность моделей и ограничивает их способность к обобщению, подчеркивая необходимость разработки методов, позволяющих отсеивать нерелевантную информацию и сосредотачиваться на существенных признаках.

Добавление визуальных отвлекающих элементов снижает точность моделей визуального рассуждения, не влияя на длину цепочки рассуждений.
Добавление визуальных отвлекающих элементов снижает точность моделей визуального рассуждения, не влияя на длину цепочки рассуждений.

Idis: Разоблачение отвлекающих факторов в визуальном анализе

Набор данных Idis был специально разработан для анализа влияния визуальных отвлекающих факторов на процесс рассуждений в визуальных языковых моделях (VLM) при решении задач визуального вопросно-ответного взаимодействия (VQA). Целью создания Idis является количественная оценка способности моделей отличать релевантную информацию от нерелевантной в визуальном контексте, выявляя случаи, когда модели полагаются на поверхностные визуальные признаки вместо глубокого понимания содержания изображения и вопроса. Набор данных позволяет контролируемо изучать, как наличие и характеристики отвлекающих элементов влияют на точность ответов моделей VQA.

Набор данных Idis использует модель Language Segment Anything для точного определения и изоляции отвлекающих элементов на изображениях. Этот подход позволяет создавать контролируемые эксперименты, в ходе которых можно целенаправленно манипулировать наличием и характеристиками отвлекающих объектов. Благодаря автоматизированной сегментации, процесс создания набора данных масштабируем и воспроизводим, что обеспечивает возможность детального анализа влияния отвлекающих факторов на производительность визуальных моделей. Использование Language Segment Anything гарантирует, что отвлекающие элементы выделяются на основе семантического понимания изображения, а не только на основе низкоуровневых визуальных признаков.

Анализ результатов работы моделей на наборе данных Idis позволяет количественно оценить степень их зависимости от поверхностных визуальных признаков, а не от реального понимания изображения и вопроса. В частности, снижение производительности на изображениях с добавленными отвлекающими элементами указывает на то, что модель, вероятно, использует эти элементы для ответа на вопрос, вместо того чтобы опираться на семантически значимые объекты и их взаимосвязи. Измеряя падение точности при увеличении количества или сложности отвлекающих элементов, исследователи могут получить данные о том, насколько устойчивы модели к визуальному шуму и насколько они полагаются на глубокое понимание визуальной сцены для решения задач визуального вопросно-ответного анализа (VQA).

Анализ показывает, что Qwen3-VL-Thinking склонен к семантическим ошибкам в изображениях с отвлекающими элементами, когда атрибуты этих элементов преобладают над атрибутами целевого объекта, особенно если отвлекающие элементы занимают большую часть изображения.
Анализ показывает, что Qwen3-VL-Thinking склонен к семантическим ошибкам в изображениях с отвлекающими элементами, когда атрибуты этих элементов преобладают над атрибутами целевого объекта, особенно если отвлекающие элементы занимают большую часть изображения.

Цепочки рассуждений и извлечение атрибутов: Разбираем «мышление» моделей

В современных визуальных языковых моделях (VLM) наблюдается прогресс в использовании цепочки рассуждений (Chain-of-Thought, CoT), позволяющей моделям не только выдавать ответ, но и представлять последовательность логических шагов, приведших к этому ответу. В отличие от традиционных моделей, которые оперируют непосредственно с входными данными и выдают результат, CoT позволяет модели “объяснить” свой ход мысли, что делает процесс принятия решений более прозрачным и позволяет анализировать его логику. Это достигается за счет обучения моделей генерировать промежуточные рассуждения, описывающие визуальные характеристики и их взаимосвязи, прежде чем сформулировать окончательный ответ. Подобный подход значительно улучшает интерпретируемость и отладочность VLM.

Извлечение атрибутов заключается в автоматическом определении и количественной оценке визуальных характеристик, упоминаемых в процессе логического вывода модели (reasoning trace). Этот процесс предполагает анализ текстового описания, генерируемого моделью при анализе изображения, с целью выявления конкретных атрибутов, таких как цвет, форма, размер, текстура и их взаимосвязи. Количественная оценка атрибутов позволяет определить, какие визуальные признаки оказывают наибольшее влияние на принятие решений моделью, и оценить значимость каждого признака в контексте конкретной задачи. Результаты извлечения атрибутов представляются в виде структурированных данных, пригодных для статистического анализа и визуализации.

Анализ количества выделенных визуальных атрибутов в процессе логических рассуждений визуальных языковых моделей (VLM) позволяет определить, какие характеристики изображения оказывают наибольшее влияние на принимаемые моделью решения. Подсчет атрибутов, упомянутых в следе рассуждений, предоставляет данные о том, какие визуальные признаки модель считает релевантными для ответа. Выявление повышенного количества атрибутов, относящихся к отвлекающим элементам (дистракторам), указывает на потенциальную зависимость модели от нерелевантных признаков и, как следствие, на возможность ошибочных выводов. Количественная оценка атрибутов, таким образом, является важным инструментом для оценки надежности и интерпретируемости VLM.

Для автоматизации процесса извлечения атрибутов из трасс рассуждений, исследователи используют модели, такие как DeepSeek-V3.2-Exp. Данные модели позволяют выполнять парсинг визуальных атрибутов в больших объемах, что существенно ускоряет анализ и количественную оценку факторов, влияющих на принятие решений визуальными языковыми моделями (VLM). Автоматизация извлечения атрибутов позволяет проводить статистический анализ и выявлять закономерности в использовании визуальных признаков, а также оценивать роль отвлекающих факторов в процессе рассуждений без необходимости ручной обработки данных.

Анализ длины цепочки рассуждений в визуальных языковых моделях показал, что введение отвлекающих элементов (дистракторов) не приводит к увеличению общей длины рассуждений. Вместо этого, наблюдается сохранение относительной постоянности длины, что указывает на то, что дистракторы не заставляют модель генерировать более длинные объяснения. Данный факт свидетельствует о том, что влияние дистракторов проявляется не в количестве шагов рассуждений, а в направлении и корректности логической цепочки, приводя к ошибочным, хотя и лаконичным, выводам. Это позволяет предположить, что ключевой проблемой является не объем рассуждений, а их качество и релевантность визуальным данным.

Увеличение размера отвлекающих объектов приводит к увеличению доли отвлекающих атрибутов в составе признаков, что указывает на повышенное внимание моделей к более крупным отвлекающим элементам.
Увеличение размера отвлекающих объектов приводит к увеличению доли отвлекающих атрибутов в составе признаков, что указывает на повышенное внимание моделей к более крупным отвлекающим элементам.

Обратное масштабирование и перспективы развития: Куда движется визуальный интеллект

Несмотря на значительные улучшения в производительности визуально-языковых моделей (VLM), предназначенных для рассуждений, наблюдается явление, известное как “обратное масштабирование” (Inverse Scaling). Это означает, что по мере увеличения вычислительных затрат на этапе тестирования — то есть, при попытке выполнить более сложные или продолжительные цепочки рассуждений — качество выдаваемых результатов, напротив, снижается. Вместо ожидаемого улучшения точности, увеличение вычислительной мощности может приводить к ухудшению ответов, что указывает на фундаментальные ограничения текущих подходов к построению VLM. Данное противоречие подчеркивает, что простое увеличение размера модели или глубины рассуждений не является устойчивым решением, и требует поиска новых стратегий оптимизации, направленных на повышение эффективности процесса рассуждений и смягчение негативных эффектов обратного масштабирования.

Исследования показывают, что простое увеличение масштаба языковых моделей или углубление процессов рассуждения не является долгосрочным решением для повышения их эффективности. Напротив, подобный подход может оказаться даже контрпродуктивным, поскольку наблюдается тенденция к снижению качества ответов при увеличении вычислительных затрат на этапе тестирования. Данный феномен, известный как обратное масштабирование, указывает на необходимость поиска альтернативных стратегий, направленных на оптимизацию эффективности рассуждений и смягчение негативного влияния увеличения сложности модели. Вместо бездумного наращивания параметров, следует сосредоточиться на разработке более рациональных и целенаправленных алгоритмов рассуждения, способных извлекать максимум пользы из имеющихся ресурсов.

Перспективные исследования в области визуально-языковых моделей (VLM) должны быть направлены на оптимизацию эффективности рассуждений и смягчение последствий проблемы обратного масштабирования. Наблюдаемое снижение качества ответов при увеличении вычислительных затрат во время работы модели указывает на необходимость поиска альтернативных подходов, отличных от простого увеличения размера или глубины модели. Ключевым направлением представляется разработка алгоритмов, позволяющих более эффективно использовать доступные вычислительные ресурсы, например, за счет оптимизации последовательности рассуждений или применения методов отсечения нерелевантной информации. Особое внимание следует уделить стратегиям, направленным на снижение влияния отвлекающих факторов и устранение предвзятостей, которые могут усугубляться при увеличении сложности рассуждений. Успешное решение этой задачи позволит создавать VLM, способные демонстрировать стабильно высокое качество ответов даже при ограниченных вычислительных ресурсах и сложных сценариях.

Дальнейшее изучение взаимосвязи между длиной цепочки рассуждений, пространственным масштабом отвлекающих элементов и семантической связью между ними представляется крайне важным. Исследования показывают, что способность визуальных языковых моделей (VLM) к рассуждениям подвержена влиянию не только количества шагов, но и характеристик отвлекающих объектов на изображении. В частности, чем больше пространственное расстояние между целевым объектом и отвлекающими элементами, и чем сложнее семантические отношения между ними, тем труднее модели приходит к правильному решению. Понимание этих факторов позволит разработать более эффективные стратегии для улучшения качества рассуждений, возможно, путем динамической адаптации глубины рассуждений или применения механизмов внимания, направленных на фильтрацию нерелевантной информации. Выявление точных закономерностей, связывающих длину рассуждений, пространственный масштаб и семантику отвлекающих элементов, может стать ключевым шагом к преодолению ограничений современных VLM и повышению их надежности.

Наблюдения показали, что снижение точности моделей визуального рассуждения особенно выражено в случаях, когда отвлекающие элементы не просто отличаются от целевого объекта, но и негативно коррелируют с ним — то есть, наличие отвлекающего элемента статистически связано с отсутствием целевого. Данный феномен подчеркивает важность решения проблемы ложных корреляций в обучающих данных. Модели, неспособные распознать и игнорировать такие предвзятости, склонны делать ошибочные выводы, даже при увеличении вычислительных ресурсов или масштаба модели. Устранение подобных искажений требует разработки новых методов обучения и оценки, направленных на повышение устойчивости моделей к спонтанным, но нерелевантным связям между объектами на изображениях.

Исследование продемонстрировало, что применение тщательно сформулированной подсказки, а именно, побуждение модели рассуждать поэтапно, опираясь на характеристики птицы, находящейся на переднем плане изображения, позволяет существенно снизить влияние предвзятости и повысить точность ответов. В ходе экспериментов с набором данных Waterbirds, данная стратегия смягчения предвзятости привела к заметному улучшению результатов, что указывает на перспективность направленного подхода к управлению процессом рассуждения модели. Такой метод позволяет не просто увеличить вычислительную мощность, но и целенаправленно фокусировать внимание модели на релевантных признаках, минимизируя влияние ложных корреляций и повышая надежность принимаемых решений.

В то время как языковые модели демонстрируют снижение точности при увеличении текстовых отвлекающих факторов, сохраняя общую зависимость длины рассуждений от точности, визуальные модели испытывают падение точности без увеличения длины рассуждений, причем негативно коррелирующие визуальные отвлекающие факторы оказывают особенно сильное влияние.
В то время как языковые модели демонстрируют снижение точности при увеличении текстовых отвлекающих факторов, сохраняя общую зависимость длины рассуждений от точности, визуальные модели испытывают падение точности без увеличения длины рассуждений, причем негативно коррелирующие визуальные отвлекающие факторы оказывают особенно сильное влияние.

Исследование показывает, что современные vision-language модели, несмотря на впечатляющие результаты, уязвимы к визуальным отвлекающим факторам. Модели склонны извлекать атрибуты, связанные с этими отвлекающими элементами, даже когда они нерелевантны для задачи, что приводит к снижению точности без увеличения длины рассуждений. Как точно заметил Джеффри Хинтон: «Я думаю, что мы сейчас находимся в ситуации, когда люди слишком сильно сосредоточены на получении лучшего результата на тестовом наборе, и недостаточно внимания уделяют тому, что модель на самом деле делает». Это особенно верно в контексте отвлекающих факторов, где модель может демонстрировать кажущуюся способность к рассуждению, но на самом деле фокусироваться на несущественных деталях, что подтверждает тенденцию к созданию «дорогих способов всё усложнить» вместо решения реальной проблемы.

Что дальше?

Представленные результаты, как обычно, лишь аккуратно подсвечивают глубину проблемы. Модели, претендующие на «рассуждение», оказываются удивительно восприимчивы к визуальному шуму. И, разумеется, сейчас это назовут «проблемой атрибутов» и найдут инвесторов для очередного «дебайсинга». Но не стоит обольщаться: сложные системы всегда сводятся к простым уязвимостям. Когда-то эта архитектура была элегантным bash-скриптом, а теперь… теперь она просто больше тратит электричество, чтобы повторять модные слова.

Очевидно, что простого увеличения вычислительных ресурсов недостаточно. Модели будут «рассуждать» дольше, но это лишь маскирует фундаментальную неспособность к абстракции. Вместо этого, следует обратить внимание на методы, которые заставляют модель игнорировать несущественное, а не пытаться «обмануть» её, заставляя фокусироваться на правильных атрибутах. Впрочем, документация снова соврет, и все начнут гоняться за параметрами.

В конечном итоге, технический долг — это просто эмоциональный долг с коммитами. Каждый «прорыв» — это лишь отсрочка неизбежного столкновения с реальностью. И когда очередной «революционный» VLM рухнет под градом визуальных отвлекающих факторов, не стоит удивляться. Это не ошибка — это закономерность.


Оригинал статьи: https://arxiv.org/pdf/2511.21397.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-30 23:43