Автор: Денис Аветисян
Новый бенчмарк выявил существенные ограничения в способности современных моделей рассуждать о динамических сценах, несмотря на успехи в распознавании образов.

Исследователи представили Common-O Bench – новый инструмент для оценки мультимодальных моделей, демонстрирующий их склонность к галлюцинациям при анализе последовательных изображений.
Несмотря на впечатляющие успехи в распознавании объектов, современные мультимодальные модели демонстрируют склонность к галлюцинациям при рассуждениях о динамичных сценах. В работе ‘What’s in Common? Multimodal Models Hallucinate When Reasoning Across Scenes’ представлен новый бенчмарк Common-O, предназначенный для оценки способности моделей к рассуждениям на основе нескольких изображений. Результаты показывают, что даже лучшие модели испытывают значительные трудности в понимании связей между объектами в различных сценах, несмотря на высокие показатели в задачах визуального восприятия. Какие подходы к обучению и архитектуре мультимодальных моделей позволят преодолеть проблему галлюцинаций и добиться более надежных рассуждений о реальном мире?
Визуальное Мышление: Пределы Современного ИИ
Современные модели искусственного интеллекта испытывают трудности в решении задач, требующих комплексного визуального мышления, особенно при анализе нескольких изображений. Способность устанавливать взаимосвязи и отслеживать объекты в последовательности изображений остается серьезным препятствием для практических приложений. Существующие эталоны оценки часто не отражают глубины понимания, необходимого для работы с многоизображенческими данными. Модели достигают лишь 35% точности на Common-O Bench, что указывает на значительный разрыв между возможностями и требуемым уровнем производительности. Подобные ограничения – не преграда, а приглашение к эксперименту, открывающее горизонты понимания и возможности переосмысления искусственного зрения.

Подобные ограничения – не преграда, а приглашение к эксперименту, открывающее горизонты понимания и возможности переосмысления искусственного зрения.
Common-O Complex: Усложнение Задачи
Common-O Complex расширяет Common-O Bench, увеличивая сложность сцен – до 8-16 взаимодействующих объектов. Это разработано для более строгой оценки способности моделей отслеживать объекты и понимать взаимосвязи в загроможденных средах. Исследования показали, что при повышении сложности сцен производительность существенно снижается: модели достигают менее 1% точности на Common-O Complex, что указывает на значительные ограничения в обработке сцен с большим количеством взаимодействующих объектов.

Подобное снижение производительности указывает на существенные ограничения в обработке сложных визуальных сцен.
Синтетические Данные: Расширение Горизонтов Оценки
Для масштабируемого создания сложных сцен активно используется генерация синтетических данных. Инструменты, такие как Unreal Engine, позволяют создавать разнообразные и контролируемые окружения, что особенно важно для оценки обобщающей способности моделей. Каталог 3D-активов Aria Digital Twin предоставляет богатый источник реалистичных моделей, ускоряя процесс создания окружений. Такой подход позволяет избежать ограничений, связанных с получением и аннотацией больших объемов реальных данных.

Возможность точного контроля над параметрами сцены позволяет создавать тестовые примеры, нацеленные на проверку конкретных аспектов рассуждений моделей, обеспечивая более целенаправленную и эффективную оценку.
Пределы Восприятия: Объекты-Галлюцинации и Цепочка Рассуждений
Даже мощные модели, такие как GPT-4o, демонстрируют феномен «объектных галлюцинаций» – ложного определения объектов, отсутствующих на изображении, особенно при анализе нескольких изображений. Это указывает на существенное ограничение в способности моделей сопоставлять рассуждения с визуальными данными: частота обнаружения хотя бы одного галлюцинированного объекта достигает 53%.

Ученые изучают методы, такие как цепочка рассуждений (Chain-of-Thought, CoT), чтобы побудить модели более явно формулировать ход своих мыслей. Применение данного подхода позволяет снизить частоту галлюцинаций до 23%, когда модель определяет два или более несуществующих объекта. Понимание границ визуального восприятия искусственного интеллекта – это взлом самой основы его «видения», позволяющий увидеть, что скрывается за иллюзией.
Исследование демонстрирует, что современные мультимодальные модели, несмотря на кажущуюся способность к визуальному восприятию, испытывают трудности при построении логических связей между динамически изменяющимися сценами. Данный аспект, подчеркнутый в работе через представленный Common-O Bench, подтверждает давнюю мысль Марвина Минского: “Искусственный интеллект – это не создание машин, думающих как люди, а создание машин, думающих.” Очевидно, что модели успешно “видят”, но им катастрофически не хватает способности к причинно-следственному мышлению, необходимому для полноценного понимания происходящего. Они оперируют данными, но не выстраивают целостную картину мира, что и демонстрирует представленный бенчмарк, выявляя склонность к галлюцинациям при попытке рассуждать о событиях.
Что дальше?
Представленный анализ возможностей мультимодальных моделей в сопоставлении динамических сцен обнажил любопытную закономерность: кажущийся успех в перцептивных задачах не гарантирует надежности рассуждений. Common-O Bench не просто выявил слабые места, он продемонстрировал, что существующие системы склонны к галлюцинациям при попытке осмыслить последовательность событий. Это не ошибка в коде, а фундаментальное ограничение текущего подхода к искусственному интеллекту.
Вместо того, чтобы стремиться к созданию все более сложных моделей, способных «видеть» и «понимать», возможно, стоит переосмыслить саму концепцию «понимания». Необходимо разработать методы, позволяющие моделям не просто оперировать данными, но и осознавать границы собственной компетенции, признавать неопределенность и активно искать недостающую информацию. Ведь истинное знание – это не столько обладание ответами, сколько умение задавать правильные вопросы.
В перспективе, исследования должны быть направлены на создание систем, способных к самокоррекции и адаптации, моделей, которые не боятся признавать собственные ошибки и извлекать из них уроки. Common-O Bench – это не финальная точка, а лишь отправная. Задача состоит не в том, чтобы «починить» существующие модели, а в том, чтобы построить принципиально новые, основанные на более глубоком понимании природы интеллекта.
Оригинал статьи: https://arxiv.org/pdf/2511.03768.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Виртуальная примерка без границ: EVTAR учится у образов
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Квантовый скачок: от лаборатории к рынку
- Визуальное мышление нового поколения: V-Thinker
- Почему ваш Steam — патологический лжец, и как мы научили компьютер читать между строк
- LLM: математика — предел возможностей.
- Квантовые эксперименты: новый подход к воспроизводимости
- Симметрия в квантовом машинном обучении: поиск оптимального баланса
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Разделяй и властвуй: Новый подход к классификации текстов
2025-11-08 22:06