Иллюзии зрения для искусственного интеллекта: как обмануть модели, понимающие изображения и текст

Автор: Денис Аветисян


Новое исследование выявляет уязвимость современных моделей, объединяющих зрение и язык, к вводящим в заблуждение визуальным данным.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
На основе анализа шести категорий вводящих в заблуждение примеров, представленных в MVI-Bench, исследование демонстрирует уязвимость систем компьютерного зрения к манипуляциям и неточностям в данных, что подчеркивает необходимость разработки более надежных и устойчивых алгоритмов.
На основе анализа шести категорий вводящих в заблуждение примеров, представленных в MVI-Bench, исследование демонстрирует уязвимость систем компьютерного зрения к манипуляциям и неточностям в данных, что подчеркивает необходимость разработки более надежных и устойчивых алгоритмов.

Представлен MVI-Bench — комплексный бенчмарк для оценки устойчивости больших визуально-языковых моделей к обманчивым визуальным входным данным.

Несмотря на значительный прогресс в области больших визуально-языковых моделей (LVLM), их устойчивость к вводящим в заблуждение визуальным данным остаётся недостаточно изученной. В настоящей работе представлена MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs — первая комплексная методика оценки устойчивости LVLM к манипуляциям с визуальной информацией. Исследование выявило существенные уязвимости современных моделей к искажённым визуальным примитивам, концепциям и отношениям, что подчеркивает критическую важность разработки более надежных механизмов визуального восприятия. Как можно улучшить устойчивость LVLM к вводящим в заблуждение визуальным данным и обеспечить их безопасное применение в реальных условиях?


Хрупкость зрения: Когда большие визуально-языковые модели (LVLM) ошибаются

Современные большие визуально-языковые модели (LVLM) демонстрируют впечатляющие результаты в решении мультимодальных задач, таких как визуальный вопрос-ответ (VQA). Однако, несмотря на кажущуюся надежность, их производительность оказывается удивительно хрупкой. Модели способны эффективно отвечать на вопросы, связанные с изображениями, в стандартных условиях, но даже незначительные изменения во входных данных, например, добавление небольшого отвлекающего объекта или изменение освещения, могут привести к резкому снижению точности. Эта уязвимость подчеркивает, что модели часто полагаются на поверхностные корреляции в данных, а не на глубокое понимание визуальной сцены и ее семантического содержания. Таким образом, кажущийся интеллект LVLM может быть обманчив, поскольку они легко поддаются манипуляциям и не демонстрируют надежной работы в нестандартных ситуациях.

Несмотря на впечатляющие результаты, демонстрируемые большими визуально-языковыми моделями (LVLM) в стандартных тестах, исследования показывают их удивительную хрупкость. Даже незначительные, едва заметные изменения в визуальном вводе способны существенно повлиять на точность ответов. Например, добавление небольшого, нерелевантного объекта на изображение или едва различимая модификация текстуры может привести к ошибочным выводам, несмотря на кажущуюся безошибочность модели в других сценариях. Этот феномен указывает на то, что LVLM часто полагаются на поверхностные закономерности в данных, а не на глубокое понимание содержания изображения, что делает их уязвимыми к намеренным или случайным искажениям.

Уязвимость больших визуально-языковых моделей (LVLM) кроется не в недостатке данных или вычислительных мощностей, а в особенностях самого подхода к обработке визуальной информации. Вместо того, чтобы формировать истинное концептуальное понимание сцены, модели часто полагаются на ложные корреляции — случайные связи между объектами и их атрибутами, которые присутствуют в обучающем наборе данных. Например, модель может научиться ассоциировать определенный тип фона с конкретным ответом, не понимая сути вопроса. В результате, даже незначительные изменения в изображении, которые не влияют на реальное содержание сцены, способны привести к серьезным ошибкам, демонстрируя хрупкость «зрения» этих систем и указывая на необходимость разработки более надежных методов обучения, ориентированных на формирование глубокого семантического понимания.

В режиме
В режиме «размышления» (think) модель SAIL-VL, опираясь на предыдущие рассуждения, склонна уделять чрезмерное внимание мелким деталям, в отличие от режима «прямого ответа» (non-think), когда ответы формируются исключительно на основе визуальных данных.

MVI-Bench: Новый эталон для оценки устойчивости

Представляем MVI-Bench — новый эталонный набор данных для оценки устойчивости мультимодальных больших языковых моделей (LVLM) к вводящим в заблуждение визуальным данным. MVI-Bench представляет собой набор пар изображений, используемых в задачах визуального вопросно-ответного взаимодействия (VQA). Каждая пара состоит из исходного изображения и его модифицированной версии, содержащей тонкие изменения, призванные ввести модель в заблуждение и проверить её способность к истинному пониманию, а не просто к сопоставлению шаблонов. Набор данных разработан для количественной оценки способности LVLM сохранять точность ответов при наличии таких вводящих в заблуждение визуальных элементов.

MVI-Bench использует пары изображений, созданные с применением тонких, но вводящих в заблуждение изменений. Эти изменения намеренно вводят несоответствия между визуальной информацией и ожидаемым ответом, что требует от моделей визуального вопросно-ответного типа (LVLM) полагаться не на поверхностное сопоставление признаков, а на реальное понимание сцены и взаимосвязей между объектами. Цель этого подхода — выявить способность моделей к критическому анализу визуальных данных и отсеиванию ложной информации, а не просто к запоминанию паттернов.

Для количественной оценки устойчивости LVLM к вводящим в заблуждение визуальным данным в MVI-Bench используется новая метрика — MVI-чувствительность. Результаты тестирования современных LVLM показывают, что при воздействии на модель незначительных, но искажающих изображение изменений, наблюдается среднее снижение производительности более чем на 20% в различных категориях вопросов. Данный показатель отражает степень влияния вводящих в заблуждение визуальных элементов на способность модели к корректному ответу, демонстрируя уязвимость даже передовых LVLM к манипуляциям с входными данными.

Процесс создания MVI-Bench включает сбор изображений, аннотацию вопросов и ответов, фильтрацию данных и обязательную проверку человеком на каждом этапе для обеспечения высокого качества и устранения неоднозначности.
Процесс создания MVI-Bench включает сбор изображений, аннотацию вопросов и ответов, фильтрацию данных и обязательную проверку человеком на каждом этапе для обеспечения высокого качества и устранения неоднозначности.

Разоблачение обмана: Категории визуальных искажений

Анализ выявил три основные категории визуального обмана: обман концепции, обман атрибутов и обман отношений. Обман концепции включает в себя изображения, в которых объекты представлены в неправдоподобных или невозможных контекстах, заставляя модель ошибочно интерпретировать их природу. Обман атрибутов манипулирует визуальными характеристиками объектов, такими как цвет, текстура или форма, приводя к неверному распознаванию. Наконец, обман отношений искажает пространственные или причинно-следственные связи между объектами, что также приводит к ошибкам в интерпретации изображения. Каждая из этих категорий использует различные уязвимости в процессе визуального восприятия и обработки информации моделями.

В рамках выделенных категорий визуального обмана, нами были идентифицированы конкретные подкатегории, эксплуатирующие различные уязвимости восприятия. Материальная путаница (Material Confusion) возникает из-за несоответствия между визуально воспринимаемым материалом объекта и его фактической текстурой или составом. Отражение в зеркале (Mirror Reflection) использует симметрию и обратное отображение для создания иллюзии, вводящей в заблуждение относительно ориентации или положения объекта. Наконец, Путаница из-за перекрытия (Occlusion Confusion) возникает, когда части объекта скрыты другими объектами, что приводит к неверной интерпретации его формы или структуры. Каждая из этих подкатегорий использует специфические особенности зрительного восприятия для создания иллюзий и снижения точности распознавания.

Анализ точности моделей машинного зрения показал, что на изображениях, содержащих визуальные искажения, средний показатель составляет от 40% до 60%, в зависимости от конкретной модели и категории искажения. Это значительно ниже, чем точность распознавания на обычных изображениях. Важно отметить, что в 4% случаев правильных ответов на вводящие в заблуждение изображения, модели пришли к верному решению случайно, основываясь на ложных признаках и не на реальном содержании изображения.

Набор примеров из шести категорий вводящих в заблуждение изображений в MVI-Bench демонстрирует пары нормальных изображений и их вводящих в заблуждение аналогов, объединенных общим вопросом с правильным ответом, при этом для вводящих в заблуждение изображений добавлен отвлекающий вариант ответа.
Набор примеров из шести категорий вводящих в заблуждение изображений в MVI-Bench демонстрирует пары нормальных изображений и их вводящих в заблуждение аналогов, объединенных общим вопросом с правильным ответом, при этом для вводящих в заблуждение изображений добавлен отвлекающий вариант ответа.

За пределами эталона: Влияние на будущее проектирование LVLM

Результаты, полученные в ходе тестирования MVI-Bench, демонстрируют, что современные мультимодальные языковые модели (LVLM) зачастую полагаются на примитивные визуальные признаки, а не на глубокое концептуальное понимание изображений. Вместо анализа сцены как совокупности взаимосвязанных объектов и их атрибутов, модели склонны реагировать на поверхностные детали, такие как цвет, текстура или простые формы. Это приводит к тому, что даже незначительные визуальные искажения или отвлекающие факторы могут существенно повлиять на точность ответов, подчеркивая недостаточную устойчивость к вариациям в визуальном представлении. Таким образом, MVI-Bench выявил тенденцию к «поверхностному зрению» у LVLM, указывая на необходимость разработки моделей, способных к более абстрактному и контекстуальному анализу визуальной информации.

Исследования показали, что современные визуальные языковые модели (LVLM) часто полагаются на низкоуровневые визуальные подсказки вместо глубокого концептуального понимания. В связи с этим, ключевым направлением развития становится внедрение механизмов кодирования изображений и внимания, позволяющих модели фокусироваться на релевантных признаках. Эффективное кодирование изображений позволяет преобразовывать визуальную информацию в компактное и значимое представление, а механизмы внимания — динамически выделять наиболее важные области изображения для последующей обработки. Это позволяет не только повысить устойчивость модели к отвлекающим факторам, но и улучшить ее способность к обобщению и решению сложных задач, требующих понимания семантики изображений и взаимосвязей между объектами.

Перспективные исследования в области визуальных языковых моделей (LVLM) должны быть направлены на разработку архитектур, способных явно моделировать взаимосвязи между объектами и их атрибутами. Такой подход позволит снизить уязвимость моделей к обманчивым визуальным сигналам, которые могут приводить к ошибочным выводам. Вместо простой идентификации объектов, будущие LVLM должны стремиться к пониманию как эти объекты взаимодействуют друг с другом и какие характеристики определяют их роль в сцене. Это требует внедрения механизмов, способных представлять знания о физических свойствах, причинно-следственных связях и общих знаниях о мире, что, в свою очередь, позволит более эффективно использовать возможности больших языковых моделей (LLM) для рассуждений и генерации осмысленных ответов. Усиление акцента на моделировании отношений между объектами представляется ключевым шагом на пути к созданию действительно интеллектуальных и надежных LVLM.

В режиме «размышления» модель SAIL-VL, опираясь на предыдущие рассуждения, склонна уделять чрезмерное внимание мелким деталям, в отличие от режима прямого ответа на основе визуальных данных.
В режиме «размышления» модель SAIL-VL, опираясь на предыдущие рассуждения, склонна уделять чрезмерное внимание мелким деталям, в отличие от режима прямого ответа на основе визуальных данных.

Исследование, представленное в данной работе, подчеркивает уязвимость больших визуально-языковых моделей к обманчивой визуальной информации. Это закономерно, поскольку, как отмечал Дэвид Марр: «Представление мира — это построение моделей, а не просто копирование сенсорных данных». MVI-Bench, введенный в статье, выступает инструментом для проверки этих моделей на устойчивость к манипуляциям с визуальными данными. По сути, это попытка оценить, насколько хорошо модели способны строить инвариантные представления, а не просто реагировать на поверхностные характеристики изображения. Выявление этих уязвимостей — важный шаг к созданию более надежных и интеллектуальных систем искусственного зрения.

Что дальше?

Представленная работа, подобно тщательно настроенному микроскопу, позволила рассмотреть уязвимости больших визуально-языковых моделей (LVLM) к обманчивой визуальной информации. Однако, сама природа обмана — это постоянно меняющийся ландшафт. MVI-Bench — это не финальная точка, а скорее отправная площадка для разработки более изощренных стратегий оценки. Необходимо углубленное исследование принципов, лежащих в основе визуального восприятия, и их реализации в искусственных системах.

Очевидно, что текущие метрики и подходы к обучению недостаточно учитывают контекстуальную зависимость и многозначность визуальной информации. Подобно тому, как художник стремится уловить нюансы света и тени, будущие исследования должны сосредоточиться на создании моделей, способных к более тонкому и гибкому анализу визуальных данных. Вопрос в том, способна ли машина действительно “видеть”, или она лишь умело манипулирует пикселями.

Следующим шагом представляется создание динамических бенчмарков, способных адаптироваться к постоянно меняющимся техникам обмана. Иначе говоря, необходимо создать “эволюционирующую” среду тестирования, в которой модели будут вынуждены постоянно совершенствовать свои навыки визуального восприятия. В конечном счете, истинный прогресс будет достигнут лишь тогда, когда модели смогут не просто распознавать объекты, но и понимать их значение в контексте реального мира.


Оригинал статьи: https://arxiv.org/pdf/2511.14159.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-19 22:37