Искусственный интеллект, который понимает и текст, и картинки: новый эталон оценки

Автор: Денис Аветисян


Исследователи представили Multimodal RewardBench 2 — комплексный инструмент для оценки моделей, способных генерировать и анализировать как текстовый, так и визуальный контент.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В исследовании представлены примеры пар предпочтений в мультимодальном наборе данных MMRB2, охватывающие четыре задачи - генерацию изображений по тексту, взаимоперемежающуюся генерацию, редактирование изображений и мультимодальное рассуждение - демонстрируя сопоставление оценок человека и модели на сложных запросах.
В исследовании представлены примеры пар предпочтений в мультимодальном наборе данных MMRB2, охватывающие четыре задачи — генерацию изображений по тексту, взаимоперемежающуюся генерацию, редактирование изображений и мультимодальное рассуждение — демонстрируя сопоставление оценок человека и модели на сложных запросах.

Multimodal RewardBench 2 (MMRB2) — это новый стандарт для оценки моделей вознаграждения, используемых в омни-моделях, работающих с текстом и изображениями.

Несмотря на значительные успехи в области больших языковых моделей, оценка качества генерации контента, особенно в мультимодальном формате, остается сложной задачей. В работе ‘Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image’ представлена новая комплексная методика — Multimodal RewardBench 2 (MMRB2) — для оценки моделей вознаграждения, работающих с последовательностями текста и изображений. Полученные результаты демонстрируют, что современные модели, включая Gemini 3 Pro и Qwen3-VL-32B, хотя и превосходят GPT-4o, все еще значительно уступают человеческой оценке, особенно в задачах, требующих комплексного мультимодального понимания. Какие направления исследований позволят создать более надежные и эффективные модели вознаграждения для генеративных систем будущего?


Открытие Эры Омнимаделей: Преодолевая Границы Традиционного ИИ

Современные системы искусственного интеллекта зачастую испытывают трудности при одновременной обработке и интеграции информации из разных источников, таких как текст и изображения. Эта проблема заключается в том, что большинство моделей обучены анализировать каждый тип данных отдельно, не устанавливая глубоких связей между ними. В результате, даже простые задачи, требующие понимания взаимосвязи между визуальным контентом и текстовым описанием, могут оказаться сложными. Например, система может распознать объекты на изображении, но не сможет корректно интерпретировать их роль в контексте, описанном в тексте, или наоборот. Преодоление этого ограничения является ключевой задачей для создания действительно интеллектуальных систем, способных к комплексному пониманию окружающего мира.

Традиционные подходы к искусственному интеллекту зачастую рассматривают различные типы данных — текст, изображения, звук — как отдельные сущности. Это разделение препятствует построению полноценного понимания, поскольку лишает систему возможности находить и использовать взаимосвязи между ними. Например, для ответа на вопрос о конкретном объекте на фотографии, система должна сначала обработать изображение, а затем, отдельно, сопоставить полученные данные с текстовой информацией. Такая последовательность действий снижает эффективность и точность, особенно в сложных задачах, требующих интегрального анализа и генерации контента. В результате, даже самые продвинутые модели испытывают трудности при решении задач, требующих одновременного понимания и обработки информации из разных источников, что ограничивает их возможности в областях, таких как создание креативного контента или решение проблем, требующих контекстуального понимания.

Омни-модели знаменуют собой принципиально новый подход в области искусственного интеллекта, стремясь к объединению обработки различных потоков данных для достижения целостного понимания. В отличие от традиционных систем, которые рассматривают текстовую и визуальную информацию как отдельные сущности, омни-модели стремятся к их одновременному и взаимосвязанному анализу. Такой подход позволяет не просто распознавать объекты на изображении или понимать смысл текста, но и устанавливать сложные взаимосвязи между ними, что открывает возможности для решения задач, требующих глубокого контекстного понимания. Например, модель может не только идентифицировать предмет на фотографии, но и объяснить его значение в контексте сопроводительного текста, или же генерировать описание изображения, учитывая скрытые смыслы и нюансы. Данный сдвиг парадигмы позволяет создавать более гибкие, адаптивные и интеллектуальные системы, способные к комплексному анализу и генерации информации, приближая искусственный интеллект к человеческому уровню познания.

Интерфейс аннотации позволяет решать задачи мультимодального рассуждения.
Интерфейс аннотации позволяет решать задачи мультимодального рассуждения.

MMRB2: Строгий Фреймворк для Оценки Мультимодальных Моделей

MMRB2 представляет собой комплексную систему оценки, предназначенную для строгой проверки моделей вознаграждения в мультимодальных задачах, объединяющих текст и изображения. В отличие от существующих методик, MMRB2 фокусируется на оценке способности модели корректно ранжировать результаты генерации и редактирования изображений на основе текстовых запросов. Это достигается путем использования разнообразного набора задач, охватывающих генерацию изображений по тексту, редактирование существующих изображений и смешанную генерацию, что позволяет всесторонне оценить мультимодальные возможности искусственного интеллекта и выявить слабые места существующих моделей вознаграждения.

В состав эталонного набора MMRB2 входят задачи, охватывающие генерацию изображений по текстовому описанию, редактирование существующих изображений и последовательную генерацию (interleaved generation), требующие от моделей комплексных мультимодальных возможностей. Задачи генерации изображений по тексту оценивают способность модели создавать визуальный контент, соответствующий заданному описанию. Редактирование изображений проверяет способность модели точно изменять существующие изображения в соответствии с текстовыми инструкциями. Последовательная генерация, в свою очередь, оценивает способность модели поддерживать согласованность и когерентность в процессе генерации, объединяя текст и изображение в единый, осмысленный результат. Такое разнообразие задач обеспечивает всестороннюю оценку мультимодальных способностей моделей, выходящую за рамки оценки только отдельных аспектов.

Результаты тестирования в рамках MMRB2 показали, что модель Gemini 3 Pro демонстрирует наивысшее соответствие оценкам, данным людьми, в различных мультимодальных задачах. Общая точность модели составляет 74-80% при оценке генерации изображений по текстовому описанию, редактировании изображений и задачах, требующих последовательной генерации контента. Данный показатель свидетельствует о высокой степени согласованности автоматических оценок Gemini 3 Pro с субъективными предпочтениями человека в сложных мультимодальных сценариях.

Интерфейс аннотирования для задачи MMRB2 'текст в изображение' предоставляет более детализированные вопросы для редактирования изображений и выполнения смешанных задач.
Интерфейс аннотирования для задачи MMRB2 ‘текст в изображение’ предоставляет более детализированные вопросы для редактирования изображений и выполнения смешанных задач.

Обратная Связь от Пользователя и Настройка Модели Вознаграждения

Сбор данных о предпочтениях пользователей является ключевым этапом обучения моделей вознаграждения, необходимых для соответствия искусственного интеллекта человеческим ценностям и ожиданиям. Этот процесс предполагает получение оценок от людей относительно различных вариантов ответов или действий, генерируемых моделью. Полученные данные используются для обучения модели вознаграждения, которая, в свою очередь, используется для корректировки поведения основной модели, направляя ее к генерации результатов, более соответствующих человеческим предпочтениям. Точность и качество этих аннотаций напрямую влияют на способность модели понимать и воспроизводить сложные нюансы человеческих оценок, обеспечивая более безопасное и полезное взаимодействие.

Метод ансамблевой фильтрации (Ensemble Filtering) оптимизирует процесс сбора аннотаций предпочтений человека, повышая эффективность обучения моделей вознаграждения. Вместо случайного выбора пар для сравнения, этот метод фокусируется на наиболее информативных сравнениях — тех, которые с наибольшей вероятностью приведут к существенному улучшению модели. Это достигается за счет использования ансамбля моделей для оценки неопределенности и выбора сравнений, в которых модели наиболее расходятся во мнениях. Такой подход позволяет снизить количество необходимых аннотаций, сохраняя при этом или даже улучшая качество обучения и, как следствие, согласованность модели с человеческими предпочтениями.

Согласно данным MMRB2, модель Gemini 3 Pro демонстрирует точность в 79.7% при решении задач генерации изображений. Для сравнения, наиболее производительная модель с открытым исходным кодом, Qwen3-VL-32B, достигает показателя точности в диапазоне от 64.1% до 70.5% в тех же задачах. Данные свидетельствуют о значительном превосходстве Gemini 3 Pro в данной области по сравнению с текущими решениями с открытым исходным кодом.

Конвейер MMRB2 обеспечивает получение высококачественных пар предпочтений, основанных на рассуждениях, благодаря комбинации оценок ансамбля больших многомодальных моделей, проверки человеком и многоступенчатой фильтрации.
Конвейер MMRB2 обеспечивает получение высококачественных пар предпочтений, основанных на рассуждениях, благодаря комбинации оценок ансамбля больших многомодальных моделей, проверки человеком и многоступенчатой фильтрации.

Агентные Системы и Реализация Модели: Расширяя Границы Возможностей

Агентные системы, основанные на больших языковых моделях, таких как GPT-5, GPT-4.1 и o3, открывают новые возможности для сложных мультимодальных взаимодействий. Эти системы способны не просто обрабатывать текст, но и интегрировать различные типы данных, включая изображения, аудио и видео, для создания более естественных и интуитивно понятных интерфейсов. Благодаря этому, становится возможным создание интеллектуальных помощников, способных понимать контекст запроса и предоставлять информацию в наиболее подходящей форме, учитывая предпочтения пользователя. Такие системы демонстрируют впечатляющие результаты в решении задач, требующих комплексного анализа данных и творческого подхода, существенно расширяя границы взаимодействия человека и искусственного интеллекта.

Современные агентские системы, использующие большие языковые модели, значительно расширяют свои возможности благодаря инструментам вроде Multimodal Sketchpad. Этот инструмент позволяет агентам не просто обрабатывать визуальную информацию, но и активно создавать и изменять изображения напрямую, что открывает новые горизонты в решении сложных задач. Агенты, оснащенные подобными средствами, способны визуализировать абстрактные концепции, генерировать наглядные примеры и даже взаимодействовать с окружающим миром посредством изображений, значительно повышая эффективность и гибкость их работы в различных областях, от обучения и проектирования до научного моделирования и креативных индустрий.

Исследования показали, что оценка ответов, полученных от различных моделей искусственного интеллекта, позволяет экспертам повысить точность своих суждений на 5-13 процентных пунктов, что подчеркивает значимость разнообразия в подходах к решению задач. Примечательно, что наблюдается выраженная тенденция к предпочтению ответов, содержащих изображения — в задачах, требующих мультимодального рассуждения, эксперты демонстрируют на 27.7-49.3% большее доверие к визуально дополненным ответам. Данный факт указывает на важность интеграции визуальной информации в процессы принятия решений и необходимость учитывать эту особенность при разработке и оценке систем искусственного интеллекта.

Агент, использующий GPT-5, продемонстрировал более полное и обоснованное мультимодальное рассуждение по сравнению с агентом на базе o3, поскольку последний упустил анализ одного из изображений.
Агент, использующий GPT-5, продемонстрировал более полное и обоснованное мультимодальное рассуждение по сравнению с агентом на базе o3, поскольку последний упустил анализ одного из изображений.

Представленное исследование демонстрирует необходимость тщательной оценки моделей вознаграждения, особенно в контексте омнимадальных систем, способных генерировать и понимать как текст, так и изображения. Акцент на выявлении несоответствий в существующих методах оценки подчеркивает важность создания надежных критериев для выравнивания моделей с человеческими предпочтениями. В этой связи, слова Алана Тьюринга: «Можно считать, что машина думает, если она может имитировать человека настолько хорошо, что не может быть отличима от него» — приобретают особую актуальность. Данная работа, подобно стремлению Тьюринга к созданию искусственного интеллекта, направлена на повышение способности машин к разумному и полезному взаимодействию с миром, где оценка качества генерируемого контента является ключевым аспектом.

Куда Ведет Дорога?

Представленная работа, концентрируясь на оценке моделей вознаграждения для систем, оперирующих текстом и изображениями, обнажает лежащую в основе проблему: границы ответственности. Все ломается по границам ответственности — если их не видно, скоро будет больно. Текущие метрики, кажущиеся точными в лабораторных условиях, не всегда отражают реальное поведение системы в сложных, неоднозначных сценариях. Это не недостаток инструментов, а фундаментальное ограничение любой попытки свести субъективное качество к числовой величине.

Будущие исследования должны сместить фокус с поиска «идеальной» метрики на создание более устойчивых систем. Вместо того чтобы пытаться предсказать все возможные сценарии, следует сосредоточиться на проектировании систем, способных извлекать уроки из собственных ошибок и адаптироваться к новым условиям. Иными словами, система должна быть не просто «умной», но и «мудрой» — способной к самокоррекции и эволюции.

Очевидно, что упрощение — это соблазн. Однако, сложная система — это не просто сумма ее частей. Структура определяет поведение, и игнорирование этой связи неизбежно приведет к неожиданным и нежелательным последствиям. Поиск элегантности в простоте, безусловно, важен, но не должен затмевать необходимость глубокого понимания взаимосвязей внутри системы.


Оригинал статьи: https://arxiv.org/pdf/2512.16899.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-20 13:26