Иллюзии Разума: Как Модели Визуального Восприятия Застревают в Смысловых Ловушках

Автор: Денис Аветисян

Новое исследование показывает, что современные модели, объединяющие зрение и язык, склонны к семантической фиксации — неспособности пересмотреть решения, даже когда задача требует иного восприятия визуальной информации.

В исследовании демонстрируется, что даже незначительные изменения в семантическом оформлении текстовых запросов, при сохранении базового логического правила (в данном случае, игры Реверси), приводят к различным визуальным интерпретациям, что подтверждается тремя вариантами рендеринга - базовым, глифическим и шахматным - используемыми в качестве эталонных для оценки. — В исследовании демонстрируется, что даже незначительные изменения в семантическом оформлении текстовых запросов, при сохранении базового логического правила (в данном случае, игры Реверси), приводят к различным визуальным интерпретациям, что подтверждается тремя вариантами рендеринга — базовым, глифическим и шахматным — используемыми в качестве эталонных для оценки.

Работа посвящена выявлению и анализу феномена семантической фиксации в больших моделях, объединяющих зрение и язык, и предлагает подходы к повышению их надежности и адаптивности.

Несмотря на впечатляющие успехи больших мультимодальных моделей, их способность к гибкому рассуждению часто ограничивается заложенными априорными знаниями. В работе ‘Beyond Perception Errors: Semantic Fixation in Large Vision-Language Models’ исследуется феномен семантической фиксации — тенденция моделей сохранять интерпретацию визуальных данных, даже когда контекст задачи требует альтернативного, равноправного подхода. Авторы демонстрируют, что модели последовательно предпочитают стандартные правила интерпретации, даже при наличии идентичных визуальных состояний, сформулированных под противоположные правила, что указывает на устойчивый разрыв в рассуждениях. Возможно ли преодолеть эту семантическую фиксацию и научить модели адаптироваться к новым условиям, не теряя при этом обобщающую способность?

Разгадывая Головоломку Семантической Фиксации в Визуально-Языковых Моделях

Несмотря на впечатляющие возможности, современные большие визуально-языковые модели (ВЯМ) нередко демонстрируют хрупкость рассуждений и неожиданные сбои в работе. Они способны успешно выполнять сложные задачи, требующие анализа изображений и понимания языка, однако зачастую оказываются неспособны к гибкому мышлению при столкновении с незнакомыми ситуациями или небольшими изменениями в условиях. Эта уязвимость проявляется в неспособности адекватно адаптироваться к новым правилам или нестандартным запросам, что указывает на поверхностное понимание принципов, лежащих в основе их работы, а не на глубокое логическое мышление. Такая «хрупкость» ограничивает применение ВЯМ в критически важных областях, требующих надежности и предсказуемости.

В современных больших визуально-языковых моделях (ВЯМ) наблюдается интересное ограничение, известное как семантическая фиксация. Это явление проявляется в склонности моделей полагаться на ранее усвоенные знания и шаблоны, даже когда они препятствуют решению новых задач. Вместо того, чтобы гибко адаптироваться к изменяющимся условиям, ВЯМ могут “застревать” на привычных ассоциациях, что приводит к ошибкам и неэффективным решениям. По сути, модели демонстрируют трудности в отходе от устоявшихся семантических рамок, предпочитая опираться на знакомые концепции, даже если это противоречит текущей логике задачи. Данное поведение указывает на необходимость разработки методов, позволяющих ВЯМ более эффективно отключаться от предшествующего опыта и усваивать новые правила и концепции.

Особенно ярко данная тенденция проявляется в абстрактных стратегических играх, где большие языково-визуальные модели демонстрируют удивительную неспособность адаптироваться к измененным правилам, несмотря на полное понимание базовых принципов игрового процесса. Исследования показывают, что модели склонны применять ранее усвоенные стратегии, даже если они приводят к неоптимальным или ошибочным решениям в новых условиях. Это свидетельствует о том, что модели не просто «играют» в игру, а скорее воспроизводят заученные паттерны, что ограничивает их способность к гибкому мышлению и решению нестандартных задач. Неспособность отбросить устаревшие представления и адаптироваться к перевернутой логике указывает на фундаментальное ограничение в способности моделей к истинному пониманию и применению абстрактных правил.

На представленных примерах из четырех игр демонстрируется влияние различных вариантов промптов (Base, Alias, SemAlias) на визуальное качество рендеринга, переходящего от базового изображения к вариантам с глифами и шахматной доской.

VLM-Fix: Новый Эталон для Оценки Надежности Рассуждений

VLM-Fix — это синтетический бенчмарк, использующий абстрактные стратегические игры — крестики-нолики, крестики-нолики с подключением, реверси и точки и квадраты — для оценки семантической фиксации в визуальных языковых моделях (VLM). Бенчмарк предназначен для выявления склонности моделей к применению заранее заданных знаний и шаблонов, даже когда это не соответствует текущей задаче. Использование абстрактных игр позволяет контролировать сложность и сосредоточиться исключительно на способности модели к семантическому рассуждению, исключая влияние внешних факторов, таких как визуальная сложность или контекст реального мира. Это достигается путем представления игровых состояний в виде изображений, служащих входными данными для VLM, что позволяет количественно оценить способность модели адаптироваться к новым правилам и условиям.

В основе VLM-Fix лежит использование игр с абстрактной стратегией, представленных как в стандартной, так и в инвертированной версии правил. Инверсия правил подразумевает изменение логики игры, например, изменение условий победы или хода. Такой подход позволяет выявить склонность моделей к «семантической фиксации» — зависимости от заученных паттернов и неспособности адаптироваться к новым, хотя и логически сопоставимым, условиям. Разница в производительности между стандартными и инвертированными играми служит количественным показателем степени этой фиксации, демонстрируя способность модели к обобщению и решению задач вне рамок привычных данных.

Тест VLM-Fix предоставляет четкий индикатор способности модели обобщать знания за пределы обучающих данных посредством измерения производительности в стандартных и инвертированных условиях игры. Суть подхода заключается в оценке разницы в точности между этими двумя сценариями: значительное снижение точности при инвертированных правилах указывает на то, что модель испытывает трудности с адаптацией к новым, но логически эквивалентным задачам, что свидетельствует о наличии семантической фиксации и ограниченной способности к обобщению. Таким образом, VLM-Fix позволяет количественно оценить, насколько хорошо модель способна применять полученные знания в новых контекстах, не полагаясь на заученные шаблоны.

Первоначальные результаты тестирования на VLM-Fix показали точность в 67.1% при стандартных правилах игры, однако при инвертированных правилах точность снизилась до 52.5%. Разница в 14.6 процентных пункта указывает на наличие семантической фиксации у протестированных моделей, то есть на их неспособность эффективно адаптироваться к незначительным изменениям в правилах, отличным от тех, на которых они обучались. Данный разрыв демонстрирует, что модели склонны полагаться на предвзятые представления, сформированные в процессе обучения, вместо того чтобы применять логическое мышление для решения задач.

Визуальные состояния игр генерируются посредством Image Rendering для обеспечения единообразного ввода для визуально-языковых моделей (VLM). Данный процесс заключается в программном создании изображений игровых досок и фигур, что позволяет стандартизировать визуальное представление данных и исключить вариативность, возникающую при использовании реальных изображений или ручном создании игровых сцен. Это обеспечивает контролируемый ввод, позволяющий точно оценить способность модели к рассуждению, а не её способность интерпретировать шум или артефакты в изображениях. Все визуальные состояния генерируются с использованием единых параметров рендеринга, включая разрешение, цветовую схему и перспективу, что гарантирует согласованность входных данных для всех игр и правил.

Модель InternVL3.5-4B демонстрирует возможность послойного управления активациями для успешного решения задач в играх Tic-Tac-Toe, Reversi, Connect Four и Dots and Boxes.

Методы Пост-Обучения: Гармонизация Моделей с Новыми Правилами

Для улучшения производительности визуально-языковых моделей (VLM) в задачах, связанных с обратными правилами, применялись методы пост-обучения, такие как контролируемая тонкая настройка (Supervised Fine-Tuning) и обучение с подкреплением с использованием проверяемых наград (Reinforcement Learning with Verifiable Rewards). Контролируемая тонкая настройка подразумевает обучение модели на размеченных данных, специфичных для обратного правила, в то время как обучение с подкреплением использует систему вознаграждений, основанную на правильности ответа, для оптимизации поведения модели. Оба подхода направлены на адаптацию модели к новым правилам, позволяя ей более эффективно решать задачи, требующие применения обратной логики.

Применение методов пост-обучения, таких как контролируемая тонкая настройка и обучение с подкреплением, направленное на повышение производительности визуально-языковых моделей (VLM) в задачах инверсных правил, часто приводит к эффекту выравнивания правил — улучшению показателей на обученном правиле. Однако, наряду с этим, наблюдается явление отрицательного переноса, заключающееся в снижении производительности модели при решении задач, основанных на стандартном, исходном правиле. Данный эффект указывает на то, что специализация модели на новом правиле может приводить к ухудшению ее способности обобщать знания и применять их к ранее усвоенным задачам, демонстрируя компромисс между адаптацией к новым условиям и сохранением общих знаний.

Применение техники Alias Prompt позволило исследователям снизить разницу в точности между стандартными и обратными правилами на 2,29 процентных пункта. Данный результат демонстрирует смягчение семантической фиксации — тенденции модели к предпочтению первоначального понимания задачи, даже когда это противоречит новым инструкциям. Техника Alias Prompt предполагает использование альтернативных формулировок и перефразировок правил, что способствует более гибкому пониманию задачи моделью и снижает негативное влияние предварительного обучения на новые данные.

В ходе исследования применялись методы Chain-of-Thought Prompting (CoT) и тщательная разработка промптов (Prompt Engineering) с целью улучшения способности моделей следовать правилам в задачах, требующих логического вывода. CoT Prompting предполагает предоставление модели не только запроса, но и промежуточных этапов рассуждений, что позволяет ей более эффективно анализировать задачу и формировать ответ. В то же время, разработка промптов включала в себя оптимизацию формулировок и структуры запросов для минимизации неоднозначности и направления модели к корректным решениям. Эксперименты показали, что грамотно разработанные промпты и использование CoT Prompting могут повысить точность ответов моделей, хотя и не всегда полностью устраняют проблему негативного переноса знаний, возникающую при обучении новым правилам.

Применение методов пост-обучения, таких как контролируемая тонкая настройка и обучение с подкреплением, демонстрирует компромисс между специализацией и обобщением в контексте визуально-языковых моделей (ВЯМ). В то время как эти методы позволяют ВЯМ успешно осваивать новые правила, наблюдается тенденция к ухудшению производительности на стандартных, ранее усвоенных правилах — явление, известное как негативный перенос. Это указывает на то, что углубленное изучение нового правила может приводить к частичной потере знаний о старых правилах, что требует разработки стратегий для балансировки между приобретением новых навыков и сохранением существующих.

Результаты пост-тренировки моделей Molmo2-4B и InternVL3.5-4B на трех наборах данных VLM-Fix (D1-D3) демонстрируют их способность к обобщению как на прямых, так и на обратных правилах в задачах, включая Connect Four и Dots and Boxes.

Проверка Надежности на Внешних Эталонах: Подтверждение Эффективности Подхода

Для оценки применимости результатов, полученных в рамках VLM-Fix, использовался специализированный бенчмарк VLMBias, предназначенный для проверки производительности в задачах Counterfactual Counting. Этот подход позволил оценить, насколько эффективно разработанные методы коррекции семантической фиксации способны обобщаться на новые, внешние данные, не использовавшиеся в процессе обучения модели. Тесты на VLMBias демонстрируют способность модели к корректному подсчету объектов при внесении небольших изменений в визуальный контекст, что является важным шагом на пути к созданию более надежных и устойчивых визуальных языковых моделей.

Первоначальная оценка точности модели на бенчмарке VLMBias в задаче распознавания животных составила лишь 3.62%. Однако, применение комбинированной стратегии, включающей как возмущение входного изображения (Flip), так и замену слов в запросе (Alias), позволило значительно повысить этот показатель до 22.17%. Данное увеличение свидетельствует о том, что предложенные методы эффективно справляются с устранением семантической фиксации и улучшают способность модели к обобщению, позволяя ей более корректно интерпретировать визуальную информацию и текстовые запросы.

Проверка на внешних эталонах подтверждает, что улучшения, достигнутые в рамках VLM-Fix, не являются случайными или специфичными для конкретного набора данных. Наблюдаемый рост производительности на VLMBias, особенно в задачах на контрфактическое подсчёта, демонстрирует корреляцию между устранением семантической фиксации и общим повышением способности модели к рассуждениям. Это указывает на то, что предложенные методы способствуют не просто улучшению показателей на отдельных тестах, но и реальному снижению предвзятости и повышению надёжности визуально-языковых моделей. В результате, можно предположить, что работа над устранением семантической фиксации представляет собой важный шаг к созданию более объективных и заслуживающих доверия систем искусственного интеллекта.

Исследования показали, что методы управления активациями демонстрируют перспективные результаты в непосредственной коррекции ошибок, зависящих от определенных правил, внутри внутренних представлений визуально-языковой модели. Вместо того чтобы полагаться исключительно на модификацию входных данных или обучение на новых примерах, данный подход позволяет целенаправленно изменять активность нейронов в модели, тем самым исправляя логические несоответствия и улучшая способность к рассуждению. Это достигается путем идентификации и корректировки определенных паттернов активации, связанных с ошибочными выводами, что позволяет модели более эффективно применять известные правила и избегать семантической фиксации. Подобный механизм позволяет не только улучшить производительность на существующих задачах, но и потенциально повысить надежность и предсказуемость модели в целом.

Полученные результаты указывают на то, что борьба с семантической фиксацией — это не просто улучшение показателей на конкретном тестовом наборе данных, а важный шаг к созданию более надёжных и заслуживающих доверия визуально-языковых моделей. Устранение тенденции модели сосредотачиваться исключительно на поверхностных визуальных признаках и игнорировать контекст или логику, позволяет ей формировать более устойчивые и точные представления о мире. Это, в свою очередь, способствует повышению общей способности модели к обобщению и решению разнообразных задач, что крайне важно для её применения в реальных условиях и для обеспечения предсказуемости её поведения. Таким образом, преодоление семантической фиксации представляет собой фундаментальный прогресс в направлении создания искусственного интеллекта, который можно считать не просто эффективным, но и надёжным и заслуживающим доверия.

Активационное управление слоями позволяет модели Qwen2.5-VL-7B успешно решать задачи в играх «Крестики-нолики», «Реверси», «Крестики-нолики с соединением» и «Точки и квадраты», как показано на иллюстрации.

Исследование демонстрирует, что современные vision-language модели, несмотря на впечатляющую производительность, подвержены феномену семантической фиксации. Они склонны полагаться на усвоенные априорные знания, что препятствует адаптации к новым задачам, даже если визуальный ввод остается неизменным. Как точно заметил Дэвид Марр: «Понимание — это построение моделей». В данном контексте, модели, создаваемые этими системами, оказываются недостаточно гибкими и не способны переосмыслить восприятие в свете меняющихся целей. Это подчеркивает важность разработки методов, способных стимулировать более глубокое и контекстуально-зависимое рассуждение, чтобы преодолеть ограничения, связанные с жесткой привязкой к первоначальным семантическим представлениям.

Куда же дальше?

Представленные наблюдения относительно “семантической фиксации” в больших языково-визуальных моделях заставляют задуматься не столько о недостатках архитектур, сколько о природе самого “понимания”. Модели демонстрируют удивительную способность экстраполировать знания, но при этом оказываются неспособны к гибкой переоценке, когда задача требует иного взгляда на уже увиденное. Это не ошибка восприятия в прямом смысле, а скорее нежелание отступать от укоренившихся семантических рамок — элегантность решения оказывается важнее соответствия истинному состоянию вещей.

Будущие исследования должны сосредоточиться на разработке механизмов, позволяющих моделям не просто обрабатывать визуальную информацию, а активно “забывать” устаревшие интерпретации. Интересно исследовать подходы, имитирующие процессы “контекстуальной ревизии” в человеческом сознании — способность к переосмыслению в свете новых данных. Необходимо понимать, как обуздать эту склонность к “семантической инерции”, не лишая модель при этом способности к обобщению и переносу знаний.

Пожалуй, наиболее сложной задачей станет создание метрик, способных адекватно оценивать не только точность ответов, но и степень “гибкости” мышления модели. Потому что, в конечном счете, истинное понимание заключается не в том, что мы видим, а в том, как мы можем изменить свой взгляд на увиденное.

Оригинал статьи: https://arxiv.org/pdf/2604.12119.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-15 08:36

🚀 Квантовые новости