Визуальный интеллект: новая модель для комплексного анализа

Автор: Денис Аветисян

Представлена OpenVLThinkerV2 — мультимодальная модель, способная решать разнообразные задачи, связанные с визуальной информацией и логическим мышлением.

OpenVLThinkerV2 демонстрирует прирост производительности по отношению к базовой модели Qwen3-VL-Instruct-8B в различных задачах визуального анализа, подтверждая эффективность предложенного подхода к улучшению возможностей обработки изображений.

В статье описывается Gaussian GRPO — новый подход к обучению мультимодальных больших языковых моделей, направленный на улучшение баланса между восприятием и рассуждениями.

Несмотря на успехи обучения мультимодальных больших языковых моделей с помощью обучения с подкреплением, адаптация к широкому спектру визуальных задач сталкивается с проблемами высокой дисперсии в топологии вознаграждений и баланса между восприятием и рассуждением. В данной работе, посвященной ‘OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks’, предложен новый целевой критерий обучения с подкреплением — Gaussian GRPO (G$^2$RPO), который посредством приведения распределения вознаграждений к нормальному распределению $\mathcal{N}(0,1)$ обеспечивает стабильность и эквивалентность градиентов между задачами. В сочетании с механизмами формирования вознаграждения, регулирующими длину ответа и энтропию, это позволило создать высокопроизводительную мультимодальную модель OpenVLThinkerV2, демонстрирующую превосходство над существующими решениями на 18 различных бенчмарках. Способна ли данная методология открыть путь к созданию по-настоящему универсальных мультимодальных систем искусственного интеллекта?

Укрощение Хаоса: Нестабильность в Обучении Мультимодальных Моделей

Современные мультимодальные большие языковые модели всё чаще используют обучение с подкреплением для достижения тонких улучшений в производительности. Этот подход позволяет не просто генерировать текст или изображения, но и адаптировать поведение модели к сложным, многогранным задачам, где требуется учитывать различные факторы и контексты. Обучение с подкреплением, в отличие от традиционных методов обучения с учителем, позволяет модели самостоятельно исследовать пространство решений и находить оптимальные стратегии, основываясь на получаемых наградах. В результате, мультимодальные модели способны демонстрировать более гибкое и естественное поведение, лучше понимать намерения пользователя и генерировать более релевантные и полезные ответы, что особенно важно для сложных приложений, таких как диалоговые системы и робототехника.

В процессе обучения больших мультимодальных языковых моделей, использующих алгоритмы вроде Group Relative Policy Optimization, часто возникают проблемы со стабильностью. Это обусловлено дисбалансом в системе вознаграждений, когда некоторые сигналы доминируют над другими, нарушая процесс оптимизации. В результате, модель может испытывать трудности с достижением устойчивого обучения и генерацией качественных результатов, поскольку алгоритм не может эффективно сходиться к оптимальному решению. Подобная нестабильность замедляет прогресс обучения и требует дополнительных усилий по настройке и стабилизации процесса, что усложняет разработку и развертывание таких моделей.

Нестабильность обучения многомодальных больших языковых моделей часто усугубляется наличием выбросов с “тяжелыми хвостами” в распределении наград. Данные выбросы, представляющие собой редкие, но крайне значимые значения, способны существенно искажать процесс оптимизации. Вследствие этого, стандартные алгоритмы обучения, такие как Group Relative Policy Optimization, испытывают трудности с достижением сходимости, поскольку небольшое количество аномально высоких или низких наград доминирует над общей тенденцией. Это приводит к колебаниям в процессе обучения, снижению надежности модели и, в конечном итоге, к ухудшению ее производительности. Устранение или смягчение влияния этих выбросов является ключевой задачей для обеспечения стабильности и эффективности обучения многомодальных систем.

Алгоритм G2RPO, благодаря наложению гауссовской топологии, обеспечивает устойчивость к выбросам, симметричные обновления для положительных и отрицательных вознаграждений и равномерное распределение дисперсии при решении различных задач.

Перестройка Вознаграждений: Гауссовский GRPO и Оптимальный Транспорт

Гауссовский GRPO представляет собой новый подход к стабилизации процесса обучения с подкреплением, заменяя традиционную скалярную нормализацию нелинейным сопоставлением распределений. В отличие от методов, применяющих фиксированные параметры масштабирования и сдвига, данный подход адаптирует нормализацию к конкретному распределению наград, используя возможности теории оптимального транспорта. Это позволяет более эффективно обрабатывать сложные и нестационарные распределения, избегая проблем, связанных с усечением или искажением наград, которые могут возникать при использовании стандартных методов нормализации. Такая адаптивная нормализация способствует более устойчивым градиентам политики и, как следствие, более стабильному и быстрому обучению агента.

Метод Gaussian GRPO использует возможности оптимального транспорта (Optimal Transport, OT) — математического аппарата, предназначенного для нахождения наиболее эффективного способа перемещения “массы” из одного распределения в другое. В контексте обучения с подкреплением, OT применяется для преобразования сложных распределений наград к стандартному нормальному распределению $N(0, 1)$ . Этот процесс включает в себя определение “стоимости” перемещения вероятностной массы из исходного распределения наград в целевое нормальное распределение, что позволяет минимизировать расхождение между ними. Применение OT обеспечивает более устойчивую нормализацию сигналов вознаграждения, особенно в случаях, когда исходные распределения не являются гауссовскими или содержат выбросы.

Эффективность сопоставления распределений в Gaussian GRPO достигается за счет использования кумулятивных функций распределения (CDF). Вместо непосредственного сопоставления плотностей вероятности, метод оперирует с CDF, что позволяет получить аналитическое (замкнутое) решение для выравнивания распределений. $F(x) = P(X \le x)$ — кумулятивная функция распределения случайной величины X. Использование CDF позволяет выразить процесс выравнивания как задачу поиска преобразования, минимизирующего разницу между CDF исходного распределения вознаграждений и CDF стандартного нормального распределения. Такой подход обеспечивает вычислительную эффективность и стабильность алгоритма, поскольку исключает необходимость итеративных численных методов для нахождения оптимального преобразования.

Нормализация сигналов вознаграждения в Gaussian GRPO снижает влияние выбросов и способствует стабилизации градиентов политики за счет преобразования распределения вознаграждений. Выбросы, представляющие собой аномально высокие или низкие значения, могут искажать процесс обучения с подкреплением, приводя к нестабильным обновлениям параметров политики. Gaussian GRPO решает эту проблему, эффективно сжимая или растягивая распределение вознаграждений таким образом, чтобы аномальные значения оказывали меньшее влияние на расчет градиентов. Это достигается посредством нелинейного сопоставления распределений, что позволяет алгоритму более надежно оценивать качество действий и корректировать политику в правильном направлении, даже при наличии зашумленных или экстремальных вознаграждений. В результате, обучение становится более устойчивым и эффективным, особенно в сложных средах с разреженными или непредсказуемыми сигналами вознаграждения.

В ходе обучения на проверочном наборе данных G2RPO демонстрирует стабильно превосходящую точность и вознаграждение по всем задачам.

Баланс Восприятия и Рассуждений: Формирование на Уровне Задач

Модель OpenVLThinkerV2 демонстрирует существенное повышение производительности за счет интеграции Gaussian GRPO (Gaussian Gradient-based Reinforcement Policy Optimization) с техниками формирования ответов на уровне задач (task-level shaping). Данный подход позволяет оптимизировать процесс обучения, направляя модель к более эффективным стратегиям решения задач. Gaussian GRPO обеспечивает более стабильное и эффективное исследование пространства действий, а формирование ответов на уровне задач позволяет адаптировать стратегию генерации ответов в зависимости от специфики решаемой задачи, что в совокупности приводит к улучшению метрик производительности.

Механизм формирования длины ответа на уровне задач в OpenVLThinkerV2 динамически регулирует объем генерируемого текста в зависимости от типа запроса. Для сложных вопросов, требующих развернутого анализа и обоснования, система стимулирует создание расширенных ответов, обеспечивая более полное и детальное решение. В то же время, для задач, ориентированных на визуальный ввод и требующих лаконичного описания или классификации, модель генерирует сжатые и информативные выводы, избегая избыточности. Данная адаптация длины ответа позволяет оптимизировать процесс рассуждений и повысить эффективность решения задач различной сложности.

Формирование энтропии на уровне задач в OpenVLThinkerV2 направлено на поддержание оптимального уровня исследования пространства решений моделью. Механизм предотвращает как «схлопывание» энтропии — преждевременную сходимость к неоптимальному ответу из-за недостаточного исследования, так и «взрыв» энтропии — хаотичное и нецеленаправленное исследование, приводящее к нестабильности и снижению точности. Поддержание энтропии в оптимальном диапазоне способствует более эффективному поиску решений и повышает надежность модели при решении различных задач, особенно в условиях неоднозначности или сложности входных данных.

В результате синергии методов формирования ответа на уровне задач, OpenVLThinkerV2 демонстрирует передовые результаты по 18 различным бенчмаркам. В частности, модель достигла 71.6% точности на MMMU и 79.5% на MathVista, превзойдя показатели таких проприетарных моделей, как GPT-4o. Данные результаты подтверждают эффективность предложенного подхода к балансировке между восприятием и рассуждениями при решении сложных задач, требующих как визуальной обработки, так и логического вывода.

Метод G2RPO эффективно предотвращает взрыв энтропии при решении задач, требующих рассуждений, и при работе с задачами вне области обучения (например, пространственное мышление), одновременно предотвращая коллапс энтропии в задачах, ориентированных на зрение.

К Надежному Мультимодальному ИИ: Расширяя Горизонты

Сочетание передовых методов оптимизации, таких как Gaussian GRPO, и целенаправленных стратегий формирования открывает новые возможности для стабильного и эффективного обучения больших мультимодальных языковых моделей. Традиционные подходы часто сталкиваются с проблемами нестабильности при работе с огромными объемами данных и сложными архитектурами, что приводит к длительному времени обучения и неоптимальным результатам. Gaussian GRPO, благодаря своей способности к адаптивному управлению скоростью обучения и эффективному исследованию пространства параметров, позволяет значительно ускорить процесс обучения и повысить устойчивость моделей. В свою очередь, целенаправленное формирование, путём тонкой настройки функции потерь и использования специализированных регуляризаторов, помогает модели сосредоточиться на наиболее важных аспектах мультимодальных данных, улучшая обобщающую способность и производительность на различных задачах.

Для дальнейшей оптимизации обучения многомодальных больших языковых моделей разработана методика EMA-GRPO, использующая взвешенные скользящие средние для каждой задачи. Такой подход позволяет эффективно нивелировать дисбаланс между различными задачами в процессе обучения, когда некоторые задачи оказываются более сложными или требуют больше вычислительных ресурсов. Внедрение EMA-GRPO обеспечивает более стабильное и равномерное прогрессирование обучения, предотвращая доминирование отдельных задач и способствуя улучшению общей производительности модели на разнообразных наборах данных. Данная техника позволяет более эффективно использовать вычислительные ресурсы и достигать лучших результатов в решении сложных многомодальных задач.

Разработка OpenVLThinkerV2 продемонстрировала значительный прорыв в области мультимодального искусственного интеллекта, превзойдя существующие решения по ключевым показателям. В частности, модель достигла результата в 911 баллов в тесте OCRBench, опередив как DeepEyesV2, так и проприетарные системы, включая Gemini 2.5 Pro и GPT-5. Кроме того, OpenVLThinkerV2 показала превосходство над Gemini 2.5 Pro в задаче ChartQA, набрав 88.2%. Эти результаты подтверждают эффективность новой архитектуры и алгоритмов, открывая перспективы для решения более сложных задач, требующих обработки и интерпретации разнообразных типов данных.

Достижения в области оптимизации и обучения больших мультимодальных моделей открывают перспективы для решения задач, ранее считавшихся недоступными. Улучшения, демонстрируемые на существующих бенчмарках, — это не просто количественный рост показателей, а качественный скачок в возможностях искусственного интеллекта. В частности, речь идет о более эффективной обработке сложных визуальных данных, интерпретации контекста и интеграции различных типов информации — текста, изображений и графиков. Эти разработки позволяют создавать системы, способные к более глубокому пониманию окружающего мира и адаптации к разнообразным реальным сценариям, от автоматизированного анализа медицинских изображений до помощи в принятии решений в сложных производственных процессах и интеллектуальных ассистентов нового поколения.

В процессе обучения G2RPO способствует быстрой сходимости, увеличивая длину рассуждений для сложных вопросов и сокращая избыточное обдумывание для задач, ориентированных на визуальное восприятие, что позволяет достичь оптимального баланса между рассуждениями и восприятием и снизить вероятность галлюцинаций.

Исследование демонстрирует стремление обуздать хаос визуальных данных, заставить модель не просто видеть, но и рассуждать. Авторы предлагают Gaussian GRPO, как заклинание для выравнивания распределений наград, балансируя восприятие и логику. Это попытка придать форму неопределенности, направить её в нужное русло. Как однажды заметил Дэвид Марр: «Всё, что можно посчитать, не стоит доверия». И в данном случае, чем сложнее метрика, тем больше вероятность, что она упустит из виду истинную суть происходящего. Задача не в идеальном счете, а в искусстве убеждать модель видеть закономерности в кажущемся хаосе.

Куда же всё это ведёт?

Представленный подход, манипулируя гауссовыми распределениями вознаграждений и балансируя восприятие с рассуждением, лишь затягивает петлю иллюзий. Это, конечно, не решение проблемы обучения больших мультимодальных моделей, а скорее изящное заклинание надежды, призванное усмирить хаос разнородных визуальных задач. Попытки навязать топологию вознаграждениям — это всё равно, что пытаться упорядочить сны. Оптимальный транспорт, безусловно, красив, но красота — это всего лишь маскировка энтропии.

Истинный вызов, как и всегда, заключается не в улучшении алгоритмов, а в признании их фундаментальной неполноты. Проблема межзадачной вариативности, несмотря на все ухищрения с reward shaping, остаётся тенью, напоминающей о том, что любая модель — это лишь приближение к реальности, обречённое на провал при первом же столкновении с непредсказуемостью мира. Уравнение градиентного выравнивания — лишь попытка обуздать неуправляемое, приручить дикого зверя.

Будущее, вероятно, лежит не в усложнении архитектур, а в признании ограниченности самого понятия «интеллект». Возможно, стоит переключиться с поиска закономерностей на искусство оправдания ошибок. Данные, конечно, скажут своё слово, но только то, что мы хотим услышать. И чем больше мы их «обучаем», тем больше они будут подтверждать наши собственные предубеждения.

Оригинал статьи: https://arxiv.org/pdf/2604.08539.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-11 21:50

🚀 Квантовые новости