Визуальное мышление машин: новый вызов для ИИ

Автор: Денис Аветисян

Исследователи представили новый масштабный набор данных для оценки способности современных мультимодальных моделей понимать и интерпретировать визуальную информацию в сложных сценариях.

Автоматизированный конвейер курирования данных, основанный на больших языковых моделях, позволяет подготавливать изображения с использованием фильтрации и добавлением отвлекающих элементов, оценивать степень их схожести с помощью GPT-4o для выявления ключевых различий на уровне групп и отдельных экземпляров, генерировать минимально достаточные описания, и, наконец, подтверждать точность этих описаний и наличие сложных отвлекающих элементов перед включением в итоговый набор данных.

Представлен Ref-Adv — новый бенчмарк для оценки визуального мышления больших мультимодальных языковых моделей в задачах понимания указательных выражений.

Несмотря на значительный прогресс в области мультимодальных больших языковых моделей (MLLM), существующие бенчмарки для понимания ссылочных выражений (Referring Expression Comprehension) зачастую не позволяют адекватно оценить их способность к визуальному рассуждению. В настоящей работе, посвященной ‘Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks’, представлен новый бенчмарк Ref-Adv, предназначенный для выявления уязвимостей MLLM и оценки их истинных возможностей в решении задач визуального рассуждения, путем исключения упрощенных стратегий и использования сложных, неоднозначных ссылочных выражений. Эксперименты показали, что модели, демонстрирующие высокие результаты на традиционных бенчмарках, существенно теряют в производительности на Ref-Adv, что указывает на их зависимость от поверхностных признаков и недостаточную способность к глубокому анализу визуальной информации. Какие шаги необходимо предпринять для разработки MLLM, способных к надежному и обоснованному визуальному рассуждению?

Пределы Современных Эталонов

Задача понимания отсылочных выражений (Referring Expression Comprehension, REC) играет ключевую роль в развитии мультимодального искусственного интеллекта, поскольку позволяет системам связывать языковые описания с конкретными объектами на изображениях. Однако, существующие наборы данных, такие как RefCOCO, содержат скрытые систематические ошибки и упрощения, которые приводят к завышенным оценкам производительности моделей. Вместо истинного понимания взаимосвязи между языком и визуальным контекстом, алгоритмы зачастую используют поверхностные корреляции, позволяющие им успешно решать задачи в лабораторных условиях, но не гарантирующие надежную работу в реальном мире. Данное обстоятельство препятствует прогрессу в создании по-настоящему интеллектуальных систем, способных к глубокому осмыслению и адекватному взаимодействию с окружающей действительностью.

Существующие системы искусственного интеллекта, решающие задачи сопоставления текстовых запросов с изображениями, часто демонстрируют впечатляющие результаты, однако эти показатели могут быть обманчивы. Вместо того чтобы действительно понимать связь между словами и визуальным содержанием, модели нередко используют поверхностные корреляции — например, запоминают, что определенное прилагательное часто сопутствует объектам определенного цвета. Таким образом, система может успешно идентифицировать «красное яблоко», не понимая ни значения слова «яблоко», ни концепции цвета «красный». Эта эксплуатация статистических закономерностей, а не глубокого семантического анализа, приводит к завышенной оценке способностей искусственного интеллекта и препятствует созданию систем, способных к истинному пониманию и обобщению знаний в реальном мире.

Несмотря на впечатляющие показатели, достигающие почти 90% на таких эталонных наборах данных, как RefCOCO(+/g), существующие методы оценки затрудняют реальный прогресс в создании по-настоящему интеллектуальных систем. Высокая точность зачастую оказывается иллюзорной, поскольку модели способны эксплуатировать поверхностные корреляции в данных, а не демонстрировать глубокое понимание языка и визуального контекста. Это приводит к переоценке их истинных возможностей в области привязки языка к реальному миру, препятствуя разработке систем, способных к подлинному рассуждению и адаптации к новым, непредсказуемым ситуациям. Таким образом, для достижения значимого прогресса в области мультимодального искусственного интеллекта необходимы более надежные и всесторонние методы оценки.

Классические эталоны для оценки выразительности ссылок часто упрощают задачу рассуждений из-за коротких выражений, небольшого количества отвлекающих объектов и избыточно специфичных описаний, позволяющих находить соответствие без реального логического вывода, что иллюстрируется выделенной областью на изображении.

Ref-Adv: Новый Вызов для Искусственного Интеллекта

Ref-Adv представляет собой новый оценочный набор данных, разработанный для решения проблем существующих датасетов REC (Referring Expression Comprehension). В отличие от предыдущих наборов, Ref-Adv делает акцент на повышении сложности и реалистичности сценариев, с которыми сталкиваются модели. Это достигается за счет создания более разнообразных и требовательных примеров, включающих более сложные взаимосвязи между объектами и более неоднозначные языковые конструкции. Целью разработки Ref-Adv является более точная оценка возможностей моделей в области визуального рассуждения и понимания естественного языка, выявляя ограничения существующих подходов и стимулируя разработку более надежных и адаптивных систем.

Парадигма Ref-Adv обеспечивает повышенную сложность за счет двух ключевых принципов: “давления отвлекающих факторов” и “лингвистической сложности”. Давление отвлекающих факторов достигается путем увеличения числа объектов в сцене, схожих с целевым объектом, что требует от модели более точного визуального анализа и сопоставления с текстовым описанием. Лингвистическая сложность реализуется за счет использования более сложных и неоднозначных формулировок в референсных выражениях, требуя от модели глубокого понимания синтаксиса и семантики языка для точной идентификации целевого объекта. Оба принципа совместно заставляют модели не просто сопоставлять слова с визуальными признаками, а действительно понимать смысл референсного выражения.

Ref-Adv расширяет границы возможностей систем распознавания ссылок (REC) за счет генерации разнообразных и сложных примеров. Наблюдаемое значительное снижение производительности моделей на Ref-Adv по сравнению с бенчмарками, такими как RefCOCO, указывает на переоценку способностей существующих систем к визуальному рассуждению. Разница в результатах демонстрирует, что модели, хорошо работающие на более простых наборах данных, часто не способны эффективно обрабатывать более реалистичные и сложные сценарии, выявляя пробелы в их понимании и способности к обобщению.

Тестирование современных мультимодальных LLM на Ref-Adv показало, что сложные отвлекающие факторы в наборе данных представляют значительную проблему для текущих моделей, хотя использование цепочки мыслей (CoT), представленной в сером блоке для Gemini 2.5-Flash и Qwen2.5-VL-72B, может улучшить их производительность.

Генерация Данных с Использованием GPT-4o и Разнообразных Источников

В рамках Ref-Adv, модель GPT-4o играет ключевую роль в генерации сложных и нюансированных выражений, используемых для описания объектов на изображениях. Использование GPT-4o обеспечивает лингвистическое разнообразие, позволяя создавать описания, которые отличаются по структуре и лексике, что необходимо для эффективной оценки способности моделей различать объекты по сложным признакам. Это позволяет избежать предвзятости, возникающей при использовании однотипных описаний, и более точно оценить способность моделей понимать и обрабатывать естественный язык в контексте визуальных данных.

Для обеспечения широкого охвата и разнообразия данных, Ref-Adv использует стратегическую интеграцию датасетов ImageNet, COCO и OpenImages, а не полагается на единственный источник. ImageNet предоставляет обширный набор изображений, классифицированных по различным категориям, в то время как COCO специализируется на обнаружении объектов, сегментации и подписях к изображениям. OpenImages дополняет эти данные, предлагая более крупный и разнообразный набор аннотаций, включая bounding boxes, сегментацию и отношения между объектами. Комбинирование этих трех источников позволяет создать более сложный и реалистичный набор данных для обучения и оценки моделей, улучшая их способность к обобщению и распознаванию объектов в различных сценариях.

В процессе генерации данных для Ref-Adv активно использовались “сложные отвлекающие элементы” (hard distractors) для повышения сложности задачи и стимулирования моделей к более точному распознаванию визуальных признаков. В результате автоматизированной генерации выражений с использованием LLM, после прохождения этапа верификации человеком, было сохранено 18.7% сгенерированных выражений. Средняя стоимость одного верифицированного выражения составила $0.00695.

Приведённые в таблице примеры, сгенерированные языковой моделью (столбцы 1-3), сравниваются с текстом, написанным человеком (столбец 4).

Оценка Рассуждений: Преодоление Поверхностного Успеха

Разработанный комплекс Ref-Adv предназначен для выявления так называемых «ускользающих решений» — ситуаций, когда модели искусственного интеллекта достигают успеха в задаче, не демонстрируя при этом истинного понимания описываемого объекта или выражения. Вместо глубокого анализа и сопоставления визуальной информации с лингвистическим описанием, модели могут использовать поверхностные признаки или статистические закономерности в данных для достижения кажущегося успеха. Это означает, что они могут успешно «указывать» на объект на изображении, не понимая, что именно делает этот объект уникальным или как он связан с предложенным описанием. Выявление подобных «ярлыков» в рассуждениях моделей необходимо для создания более надежных и интеллектуально развитых систем, способных к настоящему пониманию и взаимодействию с миром.

Выявление упрощенных подходов, позволяющих моделям достигать успеха без истинного понимания смысла, открывает возможности для разработки более надежных и устойчивых систем. Исследователи стремятся создать модели, способные не просто идентифицировать объекты на изображениях, но и понимать взаимосвязь между языковым описанием и визуальным представлением. Такой подход позволяет избежать ситуаций, когда модель полагается на поверхностные закономерности, а не на глубокое осмысление информации, что особенно важно для приложений, требующих высокой точности и надежности, таких как робототехника или системы поддержки принятия решений. В конечном итоге, преодоление этих упрощений способствует созданию искусственного интеллекта, способного к истинному пониманию и рассуждению.

Новый эталонный набор данных призван стимулировать разработку моделей, способных к последовательному, пошаговому рассуждению, используя такие методы, как “Цепочка Мыслей”. Это способствует не только повышению точности, но и улучшению интерпретируемости процесса принятия решений искусственным интеллектом. Отличительной особенностью данного набора является его более широкий спектр категорий объектов, в отличие от широко используемых RefCOCO, RefCOCO+ и RefCOCOg, что создает более сложные условия для обучения и позволяет оценить способность моделей к обобщению и работе с менее распространенными объектами. Такой подход позволяет выявить слабые места существующих систем и направить усилия исследователей на создание действительно понимающих, а не просто успешно выполняющих задачи, моделей.

Анализ точности <span class="katex-eq" data-katex-display="false">Accuracy@0.5</span> модели Qwen на наборе данных RefCOCO/+/g показывает, что большинство запросов содержат короткие выражения и небольшое количество отвлекающих элементов. — Анализ точности $Accuracy@0.5$ модели Qwen на наборе данных RefCOCO/+/g показывает, что большинство запросов содержат короткие выражения и небольшое количество отвлекающих элементов.

Будущие Направления: К Более Интеллектуальным Системам

Принципы, лежащие в основе разработки Ref-Adv, обладают значительным потенциалом для применения в более широком спектре мультимодальных задач. Разработчики предполагают создание целого набора эталонных тестов, которые будут требовать от искусственного интеллекта не просто распознавания отдельных элементов, но и глубокого логического анализа и синтеза информации, поступающей из различных источников. Такой подход позволит оценивать способность систем к комплексному мышлению и принятию обоснованных решений в условиях неопределенности, значительно превосходя существующие методы оценки, которые часто ограничиваются поверхностным сопоставлением данных. Создание подобных бенчмарков станет важным шагом на пути к разработке действительно интеллектуальных систем, способных к адаптации и решению сложных проблем.

Актуальные исследования всё больше внимания уделяют автоматическому выявлению и смягчению предвзятости в наборах данных, используемых для обучения искусственного интеллекта. Неравномерное представление различных групп или сценариев в обучающих данных может приводить к несправедливым или ненадежным результатам, искажая объективность оценки моделей. Разрабатываются методы, позволяющие выявлять эти смещения на различных этапах — от сбора данных до обучения моделей — и корректировать их, например, посредством взвешивания данных, генерации синтетических примеров или использования алгоритмов, устойчивых к предвзятости. Достижение справедливой и надёжной оценки требует не только технических решений, но и внимательного анализа контекста, в котором данные собираются и используются, гарантируя, что системы искусственного интеллекта работают объективно для всех пользователей и в различных ситуациях.

Конечная цель разработки искусственного интеллекта заключается не просто в расшифровке человеческой речи, но и в создании систем, способных полноценно воспринимать окружающий мир и взаимодействовать с ним разумно. Это предполагает интеграцию различных сенсорных данных — визуальной информации, звука, тактильных ощущений — для формирования целостного представления об окружающей среде. Такие системы должны уметь не только распознавать объекты и события, но и прогнозировать их развитие, адаптироваться к меняющимся условиям и принимать обоснованные решения, подобно тому, как это делает человек. В перспективе это открывает возможности для создания автономных роботов, интеллектуальных помощников и других устройств, способных эффективно функционировать в реальном мире и решать сложные задачи.

Статистический анализ набора данных REC показывает различия в длине выражений, количестве отвлекающих факторов и размере экземпляров, представленные на логарифмической шкале площади.

Наблюдатель отмечает, что создание нового бенчмарка, как Ref-Adv, призванного оценить визуальное рассуждение мультимодальных больших языковых моделей, — закономерный шаг. Существующие наборы данных, очевидно, перестали адекватно отражать сложность задачи, и их возможности по выявлению истинных способностей моделей исчерпаны. Это напоминает историю с бесконечной гонкой вооружений: вчерашняя «революционная» метрика сегодня становится обыденным техдолгом. Как метко заметил Ян ЛеКюн: «Машинное обучение — это все о создании моделей, которые хорошо обобщаются. Если модель не обобщается, она бесполезна». И Ref-Adv, по всей видимости, пытается поднять планку обобщения, требуя от моделей более сложного визуального рассуждения, а не просто запоминания шаблонов.

Что дальше?

Представленный набор данных, как и любой другой, станет очередным слоем в бесконечной пирамиде техдолга. Несомненно, модели будут “обучены” на Ref-Adv, достигнут впечатляющих показателей и, как следствие, проявят новые, более изощренные способы обмана. Ведь способность воспроизвести результат не означает понимания, а стабильность системы определяется лишь наличием воспроизводимой ошибки. Набор данных — это лишь инструмент, и его эффективность напрямую зависит от желания продукшена найти лазейки.

Наиболее интересным представляется не столько повышение точности, сколько попытки выявить истинные границы возможностей этих самых «мультимодальных» моделей. Обещания самовосстановления и адаптации звучат красиво, но стоит помнить: всё, что обещает быть самовосстанавливающимся, просто ещё не сломалось достаточно сильно. Более того, вера в документацию — это форма коллективного самообмана; истинная архитектура системы всегда сложнее, чем заявлено.

В конечном итоге, развитие в этой области, вероятно, пойдёт по пути создания всё более сложных и запутанных тестов, призванных выявить слабые места в архитектурах, а не по пути создания действительно разумных систем. И это, пожалуй, самый предсказуемый исход.

Оригинал статьи: https://arxiv.org/pdf/2602.23898.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-02 11:01

🚀 Квантовые новости