Искусственный разум на испытании: новая платформа для визуального мышления

Автор: Денис Аветисян


Представлена Sphinx — среда для генерации задач на визуальное рассуждение, позволяющая оценить и улучшить способности современных моделей искусственного интеллекта.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Иллюстрации к задаче
Иллюстрации к задаче «Сфинкс» демонстрируют подход к визуализации и решению сложных логических головоломок, требующих от испытуемого установления закономерностей и построения дедуктивных цепочек рассуждений.

Исследование демонстрирует, что обучение с подкреплением может значительно повысить эффективность моделей в задачах, требующих абстрактного визуального мышления и обнаружения симметрии.

Несмотря на значительный прогресс в области мультимодальных моделей, задачи визуального мышления по-прежнему представляют серьезную проблему. В данной работе представлена среда SPHINX: A Synthetic Environment for Visual Perception and Reasoning, предназначенная для генерации задач, требующих понимания визуальной информации и логических рассуждений. Показано, что даже самые современные большие языковые модели демонстрируют лишь умеренные результаты в решении этих задач, однако обучение с подкреплением, использующее верифицируемые награды, существенно повышает их точность. Какие новые подходы к обучению мультимодальных моделей позволят преодолеть ограничения текущих систем и приблизиться к человеческому уровню визуального мышления?


Основы Визуального Мышления: За Пределами Простого Распознавания

Для надежного визуального мышления недостаточно просто распознавать объекты; необходим анализ пространственных взаимосвязей и понимание абстрактных концепций. Исследования показывают, что способность устанавливать отношения между элементами изображения — например, определять, находится ли один объект над другим, слева или справа — является критически важной для решения сложных визуальных задач. Это выходит за рамки простого выделения форм и текстур; требуется построение когнитивной модели, способной интерпретировать расположение объектов в пространстве и выводить из этого логические заключения. Такое понимание позволяет системе не только идентифицировать объекты, но и предсказывать их поведение, планировать действия и решать проблемы, требующие абстрактного мышления и визуального воображения.

Основополагающие навыки, такие как распознавание симметрии, ментальная ротация и выявление закономерностей, представляют собой критически важные строительные блоки для решения сложных визуальных задач. Исследования показывают, что способность эффективно анализировать пространственные отношения и абстрактные концепции является ключевым фактором в развитии полноценного визуального интеллекта. Эти базовые компетенции позволяют не просто идентифицировать объекты, но и понимать их взаимосвязь, прогнозировать изменения и решать проблемы, требующие абстрактного мышления. Без развитых навыков распознавания симметрии, например, система не сможет отличить зеркальное отражение от оригинала, что критически важно для многих задач, от навигации до распознавания лиц. Аналогично, ментальная ротация позволяет представить объект в различных ориентациях, а выявление закономерностей — предсказывать последующие элементы в последовательности, что необходимо для анализа данных и прогнозирования.

Задачи, связанные с подсчетом объектов, заполнением пространств плиткой и анализом диаграмм Венна, ярко демонстрируют необходимость в системах, способных к точному перечислению и рассуждениям, основанным на теории множеств. Несмотря на значительный прогресс в области мультимодальных моделей, объединяющих зрение и язык, современные системы демонстрируют лишь 55.2% точности при определении количества фигур, существенно уступая человеческим возможностям. Это указывает на фундаментальные ограничения в способности искусственного интеллекта к абстрактному мышлению и точному количественному анализу визуальной информации, подчеркивая потребность в разработке новых подходов к построению систем, способных к более надежному и эффективному решению задач, требующих точного перечисления и логического анализа.

Изображения демонстрируют способность модели решать задачи, требующие геометрического мышления и интерпретации графиков.
Изображения демонстрируют способность модели решать задачи, требующие геометрического мышления и интерпретации графиков.

Синтетические Среды для Визуального Рассуждения: Контролируемые Условия для Обучения

Среда ‘Sphinx’ разработана для генерации наборов данных, ориентированных на симметрию, преобразования и связанные с ними пространственные операции. Она обеспечивает контролируемые условия для создания изображений и задач, позволяя систематически варьировать параметры, такие как типы симметрии (например, отражения, вращения), сложность преобразований (например, масштабирование, сдвиг) и количество объектов в сцене. Это позволяет создавать большие объемы данных с точной разметкой, необходимые для обучения и оценки моделей компьютерного зрения, специализирующихся на понимании и анализе пространственных отношений и геометрических свойств изображений. Контролируемый характер среды позволяет исключить факторы, не связанные с целевыми навыками, и обеспечить надежную оценку производительности алгоритмов.

Среда Sphinx предоставляет возможность систематической оценки больших визуально-языковых моделей (LVLM) в задачах, требующих визуального рассуждения. В рамках эталонного теста Sphinx, модель GPT-5 демонстрирует точность в 76%. Эта оценка проводится по широкому спектру задач, позволяя количественно оценить способность моделей к решению проблем, требующих анализа и интерпретации визуальной информации. Систематический подход к оценке, реализованный в Sphinx, обеспечивает воспроизводимость результатов и позволяет отслеживать прогресс в развитии LVLM в области визуального интеллекта.

Несмотря на обнадеживающие результаты, продемонстрированные GPT-5, его точность в решении задачи о группах Фриза составляет 76%, что ниже показателя человеческой точности в 86.4%. Платформа Sphinx позволяет целенаправленно обучать и оценивать системы искусственного интеллекта, стремящиеся к воспроизведению человеческого визуального интеллекта, акцентируя внимание на конкретных навыках, таких как распознавание симметрии и преобразований, что обеспечивает более точную и эффективную разработку моделей.

Результаты оценки точности моделей LVLM и людей показывают их сравнимые возможности в решении широкого спектра задач Sphinx.
Результаты оценки точности моделей LVLM и людей показывают их сравнимые возможности в решении широкого спектра задач Sphinx.

Улучшение LVLM с помощью Обучения с Подкреплением: Поиск Оптимальных Стратегий

Обучение с подкреплением с верифицируемыми наградами (RLVR) расширяет возможности больших визуальных языковых моделей (LVLM) за счет предоставления более надежного сигнала обучения. Традиционные методы обучения LVLM часто полагаются на большие объемы размеченных данных, что может быть дорогостоящим и трудоемким. RLVR, напротив, позволяет модели учиться путем проб и ошибок, получая награду за каждое действие, которое приближает ее к правильному ответу. Верификация наград гарантирует, что модель получает вознаграждение только за обоснованные и подтверждаемые решения, что способствует более эффективному и точному обучению. Это позволяет LVLM решать сложные задачи визуального рассуждения, требующие не только распознавания объектов, но и понимания их взаимосвязей и логических выводов.

Интеграция обучения с подкреплением с верифицируемыми наградами (RLVR) позволяет большим визуальным языковым моделям (LVLM) осваивать решение сложных задач визуального рассуждения посредством итеративного процесса проб и ошибок. В отличие от традиционных методов обучения, RLVR предоставляет четкий и проверяемый сигнал обратной связи в виде наград, определяющих успешность или неудачу предпринятого действия. Модель, взаимодействуя со средой и получая эти награды, оптимизирует свою стратегию для максимизации общей награды, что приводит к улучшению способности к логическому выводу и решению задач, требующих анализа визуальной информации.

Применение обучения с подкреплением с верифицируемыми наградами (RLVR) демонстрирует неоднородные улучшения производительности на различных задачах, однако стабильно повышает результаты на бенчмарке Sphinx. В частности, модели Qwen3-VL показывают компромисс между длиной ответа и точностью: более длинные ответы не всегда превосходят более короткие, что указывает на возможность оптимизации стратегий генерации для достижения оптимального баланса между этими показателями. Анализ этого компромисса позволяет выявить направления для дальнейшего улучшения моделей и повышения их эффективности в решении задач визуального рассуждения.

В ходе обучения с подкреплением для RLVR наблюдается различная динамика вознаграждений для каждой из четырех моделей.
В ходе обучения с подкреплением для RLVR наблюдается различная динамика вознаграждений для каждой из четырех моделей.

Последствия для Искусственного Общего Интеллекта: Шаг к Машинному Разуму

Способность к сложному визуальному рассуждению, продемонстрированная языко-визуальными моделями (LVLMs), обученными с использованием RLVR, представляет собой значительный шаг на пути к созданию искусственного общего интеллекта (AGI). В отличие от систем, специализирующихся на узких задачах, умение анализировать визуальную информацию и делать логические выводы на ее основе приближает машины к пониманию мира подобно человеку. Обучение моделей не просто распознаванию объектов, а и пониманию их взаимосвязей, причинно-следственных связей и скрытых закономерностей, позволяет им решать сложные проблемы, требующие не только зрительного восприятия, но и абстрактного мышления. Данный прогресс подчеркивает важность разработки систем, способных к комплексному визуальному анализу, как ключевому компоненту будущего AGI, способного к адаптации и решению широкого спектра задач.

Принципы, лежащие в основе систем Sphinx и RLVR — использование синтетических сред и чётких, верифицируемых вознаграждений — представляют собой перспективный шаблон для обучения искусственного интеллекта в самых разных когнитивных областях. Данный подход позволяет создавать контролируемые условия для развития навыков, избегая сложностей, связанных с реальными данными и субъективной оценкой. Вместо обучения на огромных массивах неструктурированной информации, система получает чёткие сигналы, подтверждающие правильность действий, что значительно ускоряет процесс обучения и повышает его эффективность. Этот метод, доказавший свою состоятельность в области визуального рассуждения, может быть адаптирован для развития других ключевых способностей, таких как планирование, решение проблем и понимание языка, открывая путь к созданию более гибких и интеллектуальных систем искусственного интеллекта.

Подход к обучению искусственного интеллекта, основанный на развитии базовых навыков и предоставлении чётких, целенаправленных сигналов вознаграждения, открывает путь к раскрытию его полного потенциала. Вместо попыток сразу создать сложные системы, способные решать широкий спектр задач, данный метод предполагает постепенное освоение фундаментальных умений, таких как визуальное рассуждение или пространственное планирование. Предоставляя системе конкретные сигналы, указывающие на успешное выполнение этих базовых задач, можно эффективно направлять процесс обучения и формировать глубокое понимание окружающего мира. Этот принцип, успешно реализованный в моделях вроде RLVR, позволяет создавать ИИ, способный не просто распознавать объекты, но и понимать их взаимосвязи, причинно-следственные связи и логику происходящего, что является ключевым шагом на пути к созданию действительно разумных систем.

Результаты тестирования четырех моделей RLVR на бенчмарке Sphinx показывают, что средняя длина и точность ответа варьируются в зависимости от задачи.
Результаты тестирования четырех моделей RLVR на бенчмарке Sphinx показывают, что средняя длина и точность ответа варьируются в зависимости от задачи.

Исследование, представленное в статье, акцентирует внимание на сложности визуального рассуждения для современных моделей. Создание синтетической среды Sphinx позволяет не только генерировать задачи, проверяющие способность к абстрактному мышлению, но и выявляет слабые места в архитектуре существующих систем. Как заметила Фэй-Фэй Ли: «Искусственный интеллект должен быть способен не просто видеть, но и понимать то, что он видит». Данное утверждение особенно актуально в контексте Sphinx, поскольку среда призвана оценить, насколько хорошо модели способны к симметрии, обнаружению объектов и другим формам визуального мышления, выходящим за рамки простого распознавания образов. Успех обучения с подкреплением в этой среде демонстрирует потенциал для развития более интеллектуальных и гибких систем.

Куда двигаться дальше?

Представленная среда Sphinx, безусловно, выявляет уязвимости современных визуально-языковых моделей. Однако, простое улучшение показателей в синтетической среде не является самоцелью. Более глубокий анализ ошибок, допущенных моделями при решении задач на симметрию и абстрактное визуальное рассуждение, открывает перспективные направления исследований. Важно понимать, что каждое изображение скрывает структурные зависимости, которые необходимо выявить, а интерпретация моделей важнее красивых результатов.

Очевидным шагом является расширение спектра генерируемых задач. Создание более сложных и разнообразных сценариев, требующих не только распознавания объектов, но и понимания их взаимосвязей, позволит проверить границы возможностей существующих алгоритмов. Кроме того, представляется плодотворным исследование возможности переноса навыков, приобретенных в синтетической среде, на реальные изображения. Ведь истинное понимание системы проявляется в её способности адаптироваться к новым условиям.

Наконец, не стоит забывать о фундаментальной проблеме: текущие модели часто демонстрируют поверхностное понимание визуальных данных. Настоящий прогресс требует разработки алгоритмов, способных к причинно-следственному анализу и построению абстрактных моделей мира. В конечном итоге, задача состоит не в создании искусственного интеллекта, способного решать конкретные задачи, а в приближении к пониманию принципов, лежащих в основе самого познания.


Оригинал статьи: https://arxiv.org/pdf/2511.20814.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-27 13:28