Визуальный интеллект машин: новый тест на сообразительность

Автор: Денис Аветисян


Исследователи представляют сложный набор задач для оценки способности мультимодальных моделей понимать и рассуждать о визуальной информации.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Таксономия задач MME-CC выделяет три ключевые категории рассуждений — пространственное, геометрическое и основанное на визуальных знаниях — каждая из которых иллюстрируется конкретными подзадачами и примерами входных данных, демонстрируя структурированный подход к оценке многомерных мультимодальных способностей.
Таксономия задач MME-CC выделяет три ключевые категории рассуждений — пространственное, геометрическое и основанное на визуальных знаниях — каждая из которых иллюстрируется конкретными подзадачами и примерами входных данных, демонстрируя структурированный подход к оценке многомерных мультимодальных способностей.

Представлен MME-CC – эталонный набор данных для всесторонней оценки когнитивных способностей мультимодальных больших языковых моделей в области пространственного, геометрического и визуального знания.

Несмотря на стремительное развитие мультимодальных больших языковых моделей, оценка их когнитивных способностей, особенно в области визуального мышления, остается сложной задачей. В данной работе представлен ‘MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity’ – новый бенчмарк, предназначенный для всесторонней оценки визуальных навыков моделей, включая пространственное, геометрическое и основанное на знаниях рассуждение. Анализ 16 современных моделей показал, что, несмотря на лидерство закрытых систем, слабые места сохраняются в задачах, требующих пространственного и геометрического мышления. Сможет ли MME-CC стимулировать разработку более интеллектуальных и надежных мультимодальных систем, способных к глубокому пониманию визуальной информации?


Иллюзии Разума: Ограничения Мультимодальных Моделей

Мультимодальные большие языковые модели (MLLM) демонстрируют значительный потенциал, однако надежное рассуждение остается ключевой проблемой. Несмотря на успехи в обработке различных типов данных, текущие MLLM часто испытывают трудности в задачах, требующих сложных пространственных, геометрических и визуальных знаний.

В задаче сопоставления спутниковых снимков модель не учитывает важные визуальные признаки, такие как ступени и входы, концентрируясь вместо этого на несущественных деталях.
В задаче сопоставления спутниковых снимков модель не учитывает важные визуальные признаки, такие как ступени и входы, концентрируясь вместо этого на несущественных деталях.

Оценка этих моделей требует разработки эталонных тестов, выходящих за рамки простой идентификации объектов и направленных на проверку истинных когнитивных способностей. Существующие бенчмарки часто не отражают сложности реальных сценариев, где требуется интеграция визуальной информации с логическими рассуждениями и знаниями о мире.

MME-CC: Испытание для Когнитивных Способностей MLLM

MME-CC представляет собой мультимодальный бенчмарк, разработанный для оценки когнитивных способностей больших мультимодальных моделей (MLLM). В отличие от существующих наборов данных, MME-CC акцентирует внимание на оценке рассуждений по трём ключевым измерениям: пространственное, геометрическое и визуальное знание.

Бенчмарк использует разнообразный набор задач, включая сопоставление спутниковых снимков и понимание интерьерных сцен, обеспечивая комплексную оценку. Результаты тестирования показали, что Gemini-2.5-Pro достигает общей точности в 42.66% на MME-CC, демонстрируя превосходную производительность. В частности, точность модели в области визуального знания и рассуждений (VKR) составляет 74.63%.

Детальный анализ хода рассуждений (CoT) модели Doubao-Seed-1.6-vision-0815 в задаче сопоставления спутниковых снимков выявил три ключевых аспекта: иерархическое рассуждение с четкими фазами, непрерывное и зависящее от задачи извлечение визуальной информации и частые самопрерывания, снижающие эффективность рассуждений.
Детальный анализ хода рассуждений (CoT) модели Doubao-Seed-1.6-vision-0815 в задаче сопоставления спутниковых снимков выявил три ключевых аспекта: иерархическое рассуждение с четкими фазами, непрерывное и зависящее от задачи извлечение визуальной информации и частые самопрерывания, снижающие эффективность рассуждений.

Создание MME-CC: Надежный Конвейер Данных

Создание MME-CC опирается на надёжный конвейер построения данных, включающий итеративное определение, сбор, обработку и фильтрацию данных. Этот процесс направлен на формирование высококачественного набора данных, пригодного для обучения и оценки больших мультимодальных моделей (MLLM). Особое внимание уделяется обеспечению репрезентативности и разнообразия данных для повышения обобщающей способности моделей.

Процесс построения и контроля качества данных включает четыре этапа: определение задач и предварительную оценку, сбор данных и ручную проверку, постобработку для унификации формата и фильтрацию на основе производительности MLLM для удаления излишне простых, избыточных или неоднозначных элементов, в результате чего формируется окончательный эталонный набор данных.
Процесс построения и контроля качества данных включает четыре этапа: определение задач и предварительную оценку, сбор данных и ручную проверку, постобработку для унификации формата и фильтрацию на основе производительности MLLM для удаления излишне простых, избыточных или неоднозначных элементов, в результате чего формируется окончательный эталонный набор данных.

Ключевым компонентом данного конвейера является аннотация с участием человека (Human-in-the-Loop), сочетающая автоматизированные процессы с ручной верификацией. Для обеспечения объективности оценки ответов MLLM используется другая большая языковая модель, DeepSeek-V3-0324. Данный подход позволяет минимизировать субъективные факторы и обеспечить более последовательную и надёжную оценку качества генерируемых ответов.

Скрытые Слабости MLLM, Разоблаченные MME-CC

Оценка моделей MLLM с использованием MME-CC выявила повторяющиеся шаблоны ошибок, в частности, трудности с ориентацией и поддержанием идентичности объектов. Данные ошибки часто связаны с базовыми процессами рассуждений типа Chain-of-Thought, применяемыми этими моделями.

В лабиринте наблюдается ошибка в процессе решения.
В лабиринте наблюдается ошибка в процессе решения.

Отмечается, что задачи, требующие пространственного и геометрического рассуждения, демонстрируют точность не более 30% для всех протестированных моделей, что указывает на значительную область для улучшения. Применение стратегий промптинга, таких как детальное описание содержимого изображения, последовательно приводит к повышению производительности в различных задачах.

Каждая «революционная» технология завтра станет долгом, который придётся расплачивать. Производство всегда найдёт способ сломать элегантную теорию.

Представленный труд, оценивающий возможности мультимодальных больших языковых моделей посредством MME-CC, неизбежно напоминает попытку построить идеальную башню из песка. Авторы тщательно исследуют пространственное, геометрическое и визуальное рассуждение, выявляя слабые места текущих систем. Однако, как показывает опыт, любая элегантная теория рано или поздно сталкивается с суровой реальностью продакшена. Марвин Минский заметил: “В большинстве случаев люди думают, что решение проблемы – это просто обнаружение правильного ответа. Но в реальности, самая сложная часть – это определение правильного вопроса.”. Именно поэтому, несмотря на все усилия по созданию всеобъемлющего бенчмарка, всегда найдутся краевые случаи и неожиданные ошибки, демонстрирующие, что даже самые продвинутые модели далеки от истинного когнитивного понимания.

Что дальше?

Представленный бенчмарк MME-CC, как и любой другой, неизбежно станет лишь временным ориентиром. Уже сейчас можно предположить, что достаточно скоро появятся модели, способные демонстрировать впечатляющие результаты и на этих задачах. Однако, не стоит обольщаться. Опыт подсказывает, что «продвинутое» решение часто сводится к запоминанию паттернов и ловкому обходу ограничений, а не к реальному пониманию пространственных и геометрических зависимостей. Полагать, что модель, успешно решающая задачи из MME-CC, обладает «когнитивными способностями» – наивно. Скорее, это просто более изощрённый bash-скрипт, замаскированный под нейронную сеть.

Истинный вызов заключается не в увеличении размера моделей или создании новых архитектур, а в разработке методов, позволяющих оценить обобщающую способность систем. Проверка на нетривиальных, «зашумленных» данных, где пространственные отношения намеренно искажены или замаскированы – вот где кроется истинная проблема. Иначе мы получим очередную систему, блестяще решающую академические задачи, но беспомощно рушащуюся при столкновении с реальностью. Начинаю подозревать, что сейчас это назовут «мультимодальным AI» и получат инвестиции.

В конечном итоге, стоит помнить: технический долг – это просто эмоциональный долг с коммитами. И чем сложнее система, тем быстрее накапливается этот долг. Документация снова соврала, и мы неизбежно столкнемся с ситуацией, когда даже понимание принципов работы собственной модели станет непосильной задачей. Поэтому, прежде чем строить грандиозные планы, стоит задаться вопросом: а действительно ли нам нужен еще один «революционный» инструмент, который через год потребует полной переработки?


Оригинал статьи: https://arxiv.org/pdf/2511.03146.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-06 12:42