Иллюзии мультимодальных моделей: как они ошибаются, сопоставляя изображения

Автор: Денис Аветисян


Новый бенчмарк выявил существенные ограничения в способности современных моделей рассуждать о динамических сценах, несмотря на успехи в распознавании образов.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Современные мультимодальные модели сталкиваются с фундаментальными ограничениями в логических рассуждениях, переходящих от одной сцены к другой, что проявляется в насыщении результатов на задачах восприятия даже при использовании передовых решений, демонстрируемых на бенчмарках вроде MMBench и Open VLM.
Современные мультимодальные модели сталкиваются с фундаментальными ограничениями в логических рассуждениях, переходящих от одной сцены к другой, что проявляется в насыщении результатов на задачах восприятия даже при использовании передовых решений, демонстрируемых на бенчмарках вроде MMBench и Open VLM.

Исследователи представили Common-O Bench – новый инструмент для оценки мультимодальных моделей, демонстрирующий их склонность к галлюцинациям при анализе последовательных изображений.

Несмотря на впечатляющие успехи в распознавании объектов, современные мультимодальные модели демонстрируют склонность к галлюцинациям при рассуждениях о динамичных сценах. В работе ‘What’s in Common? Multimodal Models Hallucinate When Reasoning Across Scenes’ представлен новый бенчмарк Common-O, предназначенный для оценки способности моделей к рассуждениям на основе нескольких изображений. Результаты показывают, что даже лучшие модели испытывают значительные трудности в понимании связей между объектами в различных сценах, несмотря на высокие показатели в задачах визуального восприятия. Какие подходы к обучению и архитектуре мультимодальных моделей позволят преодолеть проблему галлюцинаций и добиться более надежных рассуждений о реальном мире?


Визуальное Мышление: Пределы Современного ИИ

Современные модели искусственного интеллекта испытывают трудности в решении задач, требующих комплексного визуального мышления, особенно при анализе нескольких изображений. Способность устанавливать взаимосвязи и отслеживать объекты в последовательности изображений остается серьезным препятствием для практических приложений. Существующие эталоны оценки часто не отражают глубины понимания, необходимого для работы с многоизображенческими данными. Модели достигают лишь 35% точности на Common-O Bench, что указывает на значительный разрыв между возможностями и требуемым уровнем производительности. Подобные ограничения – не преграда, а приглашение к эксперименту, открывающее горизонты понимания и возможности переосмысления искусственного зрения.

Модели демонстрируют высокую точность в распознавании объектов на отдельных изображениях, однако испытывают трудности при анализе взаимосвязей между объектами в многоизображенческих сценах, о чем свидетельствуют усредненные показатели точности, представленные пунктирными линиями.
Модели демонстрируют высокую точность в распознавании объектов на отдельных изображениях, однако испытывают трудности при анализе взаимосвязей между объектами в многоизображенческих сценах, о чем свидетельствуют усредненные показатели точности, представленные пунктирными линиями.

Подобные ограничения – не преграда, а приглашение к эксперименту, открывающее горизонты понимания и возможности переосмысления искусственного зрения.

Common-O Complex: Усложнение Задачи

Common-O Complex расширяет Common-O Bench, увеличивая сложность сцен – до 8-16 взаимодействующих объектов. Это разработано для более строгой оценки способности моделей отслеживать объекты и понимать взаимосвязи в загроможденных средах. Исследования показали, что при повышении сложности сцен производительность существенно снижается: модели достигают менее 1% точности на Common-O Complex, что указывает на значительные ограничения в обработке сцен с большим количеством взаимодействующих объектов.

Тестовый набор Common-O Bench включает 10 000 реальных и синтетических изображений, сложность сцен в которых варьируется от трех до семи объектов.
Тестовый набор Common-O Bench включает 10 000 реальных и синтетических изображений, сложность сцен в которых варьируется от трех до семи объектов.

Подобное снижение производительности указывает на существенные ограничения в обработке сложных визуальных сцен.

Синтетические Данные: Расширение Горизонтов Оценки

Для масштабируемого создания сложных сцен активно используется генерация синтетических данных. Инструменты, такие как Unreal Engine, позволяют создавать разнообразные и контролируемые окружения, что особенно важно для оценки обобщающей способности моделей. Каталог 3D-активов Aria Digital Twin предоставляет богатый источник реалистичных моделей, ускоряя процесс создания окружений. Такой подход позволяет избежать ограничений, связанных с получением и аннотацией больших объемов реальных данных.

На подмножестве Common-O Bench наблюдается тенденция к более высокой производительности моделей на реальных изображениях (отображается зеленой областью на столбчатой диаграмме) по сравнению с синтетическими (синяя область), однако разница в производительности между этими подмножествами уменьшается с понижением общей точности, что особенно заметно на моделях DeepSeek-VL2, PerceptionLM, Llama 3.2 Instruct 11B и Llava-OneVision 7B.
На подмножестве Common-O Bench наблюдается тенденция к более высокой производительности моделей на реальных изображениях (отображается зеленой областью на столбчатой диаграмме) по сравнению с синтетическими (синяя область), однако разница в производительности между этими подмножествами уменьшается с понижением общей точности, что особенно заметно на моделях DeepSeek-VL2, PerceptionLM, Llama 3.2 Instruct 11B и Llava-OneVision 7B.

Возможность точного контроля над параметрами сцены позволяет создавать тестовые примеры, нацеленные на проверку конкретных аспектов рассуждений моделей, обеспечивая более целенаправленную и эффективную оценку.

Пределы Восприятия: Объекты-Галлюцинации и Цепочка Рассуждений

Даже мощные модели, такие как GPT-4o, демонстрируют феномен «объектных галлюцинаций» – ложного определения объектов, отсутствующих на изображении, особенно при анализе нескольких изображений. Это указывает на существенное ограничение в способности моделей сопоставлять рассуждения с визуальными данными: частота обнаружения хотя бы одного галлюцинированного объекта достигает 53%.

Исследование фокусируется на моделях, использующих цепочку рассуждений (CoT).
Исследование фокусируется на моделях, использующих цепочку рассуждений (CoT).

Ученые изучают методы, такие как цепочка рассуждений (Chain-of-Thought, CoT), чтобы побудить модели более явно формулировать ход своих мыслей. Применение данного подхода позволяет снизить частоту галлюцинаций до 23%, когда модель определяет два или более несуществующих объекта. Понимание границ визуального восприятия искусственного интеллекта – это взлом самой основы его «видения», позволяющий увидеть, что скрывается за иллюзией.

Исследование демонстрирует, что современные мультимодальные модели, несмотря на кажущуюся способность к визуальному восприятию, испытывают трудности при построении логических связей между динамически изменяющимися сценами. Данный аспект, подчеркнутый в работе через представленный Common-O Bench, подтверждает давнюю мысль Марвина Минского: “Искусственный интеллект – это не создание машин, думающих как люди, а создание машин, думающих.” Очевидно, что модели успешно “видят”, но им катастрофически не хватает способности к причинно-следственному мышлению, необходимому для полноценного понимания происходящего. Они оперируют данными, но не выстраивают целостную картину мира, что и демонстрирует представленный бенчмарк, выявляя склонность к галлюцинациям при попытке рассуждать о событиях.

Что дальше?

Представленный анализ возможностей мультимодальных моделей в сопоставлении динамических сцен обнажил любопытную закономерность: кажущийся успех в перцептивных задачах не гарантирует надежности рассуждений. Common-O Bench не просто выявил слабые места, он продемонстрировал, что существующие системы склонны к галлюцинациям при попытке осмыслить последовательность событий. Это не ошибка в коде, а фундаментальное ограничение текущего подхода к искусственному интеллекту.

Вместо того, чтобы стремиться к созданию все более сложных моделей, способных «видеть» и «понимать», возможно, стоит переосмыслить саму концепцию «понимания». Необходимо разработать методы, позволяющие моделям не просто оперировать данными, но и осознавать границы собственной компетенции, признавать неопределенность и активно искать недостающую информацию. Ведь истинное знание – это не столько обладание ответами, сколько умение задавать правильные вопросы.

В перспективе, исследования должны быть направлены на создание систем, способных к самокоррекции и адаптации, моделей, которые не боятся признавать собственные ошибки и извлекать из них уроки. Common-O Bench – это не финальная точка, а лишь отправная. Задача состоит не в том, чтобы «починить» существующие модели, а в том, чтобы построить принципиально новые, основанные на более глубоком понимании природы интеллекта.


Оригинал статьи: https://arxiv.org/pdf/2511.03768.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-08 22:06