Автор: Денис Аветисян
Исследователи представляют MIRA – комплексную платформу для оценки способности ИИ к визуальному рассуждению и генерации промежуточных визуальных представлений.

Представлен MIRA, новый бенчмарк, позволяющий оценить возможности мультимодальных больших языковых моделей в задачах визуального рассуждения и выявить ограничения текущих систем.
Несмотря на успехи больших языковых моделей, их способность к рассуждениям, требующим промежуточных визуальных представлений, остается недостаточно изученной. В данной работе представлена новая методика оценки – ‘When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought’ – предназначенная для тестирования мультимодальных моделей в задачах, где генерация и использование промежуточных изображений критически важна. Эксперименты с MIRA показали, что существующие модели демонстрируют низкую эффективность при решении задач, требующих визуальных рассуждений, но значительно улучшают свои результаты при предоставлении промежуточных визуальных подсказок. Подтверждает ли это, что визуализация действительно является ключевым этапом в процессе рассуждения, и какие архитектурные решения необходимы для создания моделей, способных эффективно использовать визуальную информацию?
Пределы Мультимодального Рассуждения
Современные мультимодальные системы испытывают трудности в решении сложных задач, требующих интеграции визуальной и текстовой информации. Несмотря на прогресс в обработке естественного языка и компьютерном зрении, способность к комплексному рассуждению, основанному на объединении различных модальностей, остается ограниченной. Существующие подходы часто рассматривают визуальные данные лишь как набор признаков, игнорируя их внутреннюю структуру. Это приводит к низкой точности на задачах, требующих истинного визуального рассуждения, как демонстрирует результат GPT-5 на бенчмарке MIRA – всего 16.5%.

Подобно тому, как геометрия требует визуализации пространства, так и искусственный интеллект нуждается в способности оперировать взаимосвязями данных, чтобы выйти за рамки поверхностного понимания.
MIRA: Испытательный Полигон для Рассуждений
Бенчмарк MIRA разработан для оценки мультимодальных больших языковых моделей в задачах, требующих промежуточных визуальных представлений. Он проверяет способность моделей к рассуждениям, основанным на визуальной информации, выходящим за рамки простого сопоставления входных и выходных данных. MIRA включает разнообразные задачи – от причинно-следственных преобразований до абстрактных пространственных головоломок и физического моделирования – обеспечивая комплексную оценку визуального мышления и решения проблем.

Особенностью MIRA является акцент на процессе рассуждения, а не только на конечном результате. Это позволяет выявить слабые места в логике модели и оценить её способность к обобщению и адаптации.
Цепи Рассуждений: Визуальные и Текстовые Подходы
В рамках MIRA активно внедряются методы Text-CoT и Visual-CoT, направленные на повышение способности моделей к рассуждениям. Эти подходы моделируют процесс мышления, способствуя более эффективному решению сложных задач. Visual-CoT использует промежуточные визуальные сигналы, а Text-CoT генерирует рациональные объяснения на естественном языке, раскрывая ход принятия решений. Оба метода подчеркивают важность последовательной проработки задачи.

Результаты показывают, что применение Visual-CoT приводит к среднему относительному улучшению точности на 33%, что свидетельствует об эффективности использования визуальных подсказок в процессе рассуждения.
Оценка Рассуждений: Pass@K и Сравнение Моделей
Для оценки качества моделей в задачах рассуждения используется метрика Pass@K, определяющая вероятность получения корректного ответа при заданном количестве выборок. Такой подход позволяет более детально оценить производительность моделей, чем простые показатели точности. В ходе исследований с использованием MIRA были протестированы как закрытые модели (GPT-5, Gemini 2.5 Pro), так и модели с открытым весом. Такое разнообразие позволяет провести сравнительный анализ различных архитектур и подходов к решению задач рассуждения.
Сравнение результатов демонстрирует существенные различия в сильных и слабых сторонах различных моделей. В частности, модель GPT-5-mini с применением Visual-CoT показала прирост точности от 13.7% до 23.2%, в то время как модели Gemini 2.5 Pro и o3 продемонстрировали снижение точности на 18.3% и 14.0% соответственно при использовании Text-CoT. Истинное величие алгоритма проявляется не в его способности работать, а в возможности доказать его корректность.
Представленный труд демонстрирует необходимость более глубокого анализа способностей современных многомодальных моделей к визуальному рассуждению. Авторы подчеркивают, что простое ‘рабочее’ решение недостаточно, если отсутствует возможность генерации и использования промежуточных визуальных представлений – ключевого аспекта, определяющего истинный прогресс в области искусственного интеллекта. Как заметила Фэй-Фэй Ли: «Искусственный интеллект должен быть не просто умным, но и понятным». Этот принцип особенно важен при разработке систем визуального мышления, где прозрачность и объяснимость процесса рассуждения имеют первостепенное значение. Бенчмарк MIRA, представленный в статье, служит ценным инструментом для выявления слабых мест существующих моделей и стимулирования разработки более эффективных алгоритмов.
Что впереди?
Представленный набор данных MIRA, несомненно, обнажил существенные недостатки в текущих мультимодальных языковых моделях. Способность генерировать промежуточные визуальные представления, необходимые для последовательного рассуждения, оказалась далека от идеала. Иронично, но стремление к «интеллекту», имитирующему человеческое зрение и логику, сталкивается с фундаментальными ограничениями в области формализации визуального мышления. Простое увеличение масштаба моделей, без глубокого понимания принципов визуальной дедукции, представляется бесплодной тратой вычислительных ресурсов.
Будущие исследования должны быть сосредоточены не на достижении «человеческой» производительности, а на разработке формальных, доказуемо корректных алгоритмов визуального рассуждения. Необходимо перейти от эмпирической оценки «работоспособности» к математической строгости. Асимптотическая сложность алгоритмов, гарантии сходимости и устойчивость к возмущениям – вот те параметры, которые должны определять прогресс в данной области.
Следующим шагом представляется создание формальных языков для описания визуальных аргументов. Необходима система, позволяющая не только генерировать визуальные представления, но и доказывать их корректность, верифицировать логическую последовательность шагов. И только тогда, возможно, удастся создать искусственный интеллект, способный действительно рассуждать с помощью зрения, а не просто имитировать этот процесс.
Оригинал статьи: https://arxiv.org/pdf/2511.02779.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Виртуальная примерка без границ: EVTAR учится у образов
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Почему ваш Steam — патологический лжец, и как мы научили компьютер читать между строк
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Память как основа разума: новый подход к генерации ответов
- Квантовый скачок из Андхра-Прадеш: что это значит?
- Разделяй и властвуй: Новый подход к классификации текстов
- Симметрия в квантовом машинном обучении: поиск оптимального баланса
- LLM: математика — предел возможностей.
- Квантовый прыжок: сможем ли мы наконец разгадать тайну сворачивания белков?
2025-11-05 12:26