Визуальное мышление нейросетей: путь к достоверным ответам

Автор: Денис Аветисян


Новый подход позволяет мультимодальным моделям лучше понимать визуальную информацию и давать более правдоподобные и обоснованные ответы.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Несмотря на получение верных ответов, модели демонстрируют различную степень обоснованности рассуждений: в то время как одна модель может ошибочно утверждать об отсутствии видимых путей, противореча собственному ответу, другая, используя визуально обоснованные аргументы, последовательно приходит к верному заключению, подтверждая важность надёжности процесса рассуждения, а не только его результата.
Несмотря на получение верных ответов, модели демонстрируют различную степень обоснованности рассуждений: в то время как одна модель может ошибочно утверждать об отсутствии видимых путей, противореча собственному ответу, другая, используя визуально обоснованные аргументы, последовательно приходит к верному заключению, подтверждая важность надёжности процесса рассуждения, а не только его результата.

В статье представлен метод Faithful GRPO, использующий ограничения и обучение с подкреплением для повышения согласованности и точности визуального рассуждения в больших языковых моделях.

Несмотря на успехи современных мультимодальных моделей в решении задач визуального рассуждения, часто наблюдается несоответствие между логической последовательностью рассуждений и фактическим содержанием изображения. В работе ‘Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization’ предложен метод Faithful GRPO (FGRPO), который, используя оптимизацию с ограничениями и восхождение по двойственному лагранжиану, повышает согласованность и обоснованность визуальными данными генерируемых цепочек рассуждений. Эксперименты показывают, что FGRPO значительно снижает количество противоречивых заключений и улучшает оценку обоснованности, одновременно повышая точность ответов. Можно ли с помощью подобных методов создать действительно надежные и понятные мультимодальные системы искусственного интеллекта?


Пределы масштаба: Рассуждения в мультимодальных моделях

Несмотря на впечатляющие возможности, мультимодальные большие языковые модели зачастую испытывают трудности при решении сложных задач, требующих многоступенчатого рассуждения. В отличие от способности обрабатывать и комбинировать информацию из различных источников, таких как текст и изображения, модели демонстрируют ограниченность в построении логической цепочки, необходимой для получения корректного ответа. Сложность заключается в том, что для успешного решения требуется не просто сопоставление данных, а последовательное применение правил и выведение новых знаний, что выходит за рамки возможностей простой статистической обработки. В результате, даже при наличии обширных знаний, модель может допускать ошибки в логике или делать необоснованные выводы, особенно при решении задач, требующих критического анализа и абстрактного мышления.

Несмотря на впечатляющие возможности мультимодальных больших языковых моделей, простое увеличение их размера не решает фундаментальные проблемы, связанные с корректной «привязкой» к реальным данным и обеспечением логической последовательности рассуждений. Исследования показывают, что наращивание параметров модели не всегда приводит к улучшению способности к сложному, многоступенчатому анализу. Это связано с тем, что модели часто испытывают трудности с установлением достоверных связей между различными типами данных, что приводит к несогласованности и неточностям в генерируемых ответах. Таким образом, полагаться исключительно на масштабирование является недостаточным для достижения надежной и последовательной работы мультимодальных систем, требуя разработки новых подходов к обучению и архитектуре моделей.

Традиционные мультимодальные модели часто генерируют неточные ответы и так называемые «галлюцинации» из-за отсутствия встроенных механизмов для проверки последовательности рассуждений. В отличие от них, представленный подход включает в себя систему верификации на каждом этапе логической цепочки, что позволяет значительно повысить надежность и согласованность ответов. В ходе исследований удалось снизить уровень противоречий и несоответствий в генерируемых ответах до всего 1,7%, что демонстрирует существенное улучшение по сравнению с существующими решениями и открывает новые возможности для создания более интеллектуальных и достоверных мультимодальных систем.

Модель FGRPO демонстрирует значительно более высокую семантическую точность (86.0%) и существенно снижает уровень противоречий (1.7%) при рассуждениях на различных наборах данных, особенно выделяясь на MindCube и OmniSpatial, по сравнению с GRPO-T, TreeVGR и ViGoRL.
Модель FGRPO демонстрирует значительно более высокую семантическую точность (86.0%) и существенно снижает уровень противоречий (1.7%) при рассуждениях на различных наборах данных, особенно выделяясь на MindCube и OmniSpatial, по сравнению с GRPO-T, TreeVGR и ViGoRL.

Верифицируемые рассуждения: Двухэтапный конвейер обучения

Для формирования базовых способностей к рассуждениям в модели Qwen2.5-VL используется контролируемое обучение с применением данных, содержащих цепочки рассуждений (Chain-of-Thought Reasoning). Этот метод предполагает предобучение модели на наборе данных, в котором каждое задание сопровождается не только ответом, но и подробным описанием шагов, необходимых для его получения. Использование такого подхода позволяет модели усвоить структуру логического мышления и научиться генерировать последовательные, обоснованные ответы, что является основой для дальнейшей оптимизации и повышения точности.

После начальной настройки модели Qwen2.5-VL с использованием контролируемого обучения, применяется обучение с подкреплением, основанное на проверяемых наградах. Этот этап позволяет модели уточнять процесс рассуждений, опираясь на объективные показатели точности. Награды формируются на основе верификации правильности каждого шага рассуждений, что позволяет модели отличать корректные цепочки рассуждений от некорректных. Использование проверяемых наград обеспечивает более эффективное обучение, направленное на повышение достоверности и обоснованности генерируемых ответов.

Для эффективного обновления политики модели в процессе обучения с подкреплением используется Group Relative Policy Optimization (GRPO). В отличие от стандартных алгоритмов, GRPO группирует обновления политики, что позволяет снизить дисперсию и повысить стабильность обучения. Алгоритм вычисляет относительное изменение политики для каждой группы обновлений, ограничивая максимальную величину этого изменения. Это способствует более плавному обучению и предотвращает резкие изменения в политике, которые могут привести к нестабильности или ухудшению производительности. Использование GRPO обеспечивает более эффективное исследование пространства политики и ускоряет сходимость модели к оптимальному решению.

Обучение FGRPO включает вычисление преимуществ для пакета данных, состоящего из нескольких образцов с несколькими роллаутами, где награды за выполнение задачи, согласованность и семантическое обоснование, оцениваемые онлайн VLM, нормализуются и объединяются с использованием множителей Лагранжа для обновления ограничений посредством двойного подъема, усиливая веса нарушенных ограничений и уменьшая веса выполненных.
Обучение FGRPO включает вычисление преимуществ для пакета данных, состоящего из нескольких образцов с несколькими роллаутами, где награды за выполнение задачи, согласованность и семантическое обоснование, оцениваемые онлайн VLM, нормализуются и объединяются с использованием множителей Лагранжа для обновления ограничений посредством двойного подъема, усиливая веса нарушенных ограничений и уменьшая веса выполненных.

Ограниченная оптимизация для надежных рассуждений

В основе нашего процесса оптимизации лежит Faithful GRPO (Grounding-based Reasoning Path Optimization), который максимизирует точность рассуждений путём явного штрафования логической несогласованности и отсутствия визуального обоснования. Данный подход позволяет модели строить цепочки рассуждений, которые одновременно соответствуют логическим правилам и подтверждаются визуальными данными. Штраф за логическую несогласованность предотвращает формирование противоречивых выводов, а штраф за отсутствие визуального обоснования обеспечивает связь между рассуждениями и наблюдаемым контекстом, что критически важно для надежности и достоверности получаемых результатов.

Реализация ограничений на согласованность и привязку к визуальным данным осуществляется посредством раздельной нормализации (Decoupled Normalization) и метода подъема двойственной Лагранжевой функции (Lagrangian Dual Ascent). Раздельная нормализация позволяет независимо регулировать статистические свойства различных компонентов модели, что облегчает контроль над выполнением ограничений. Метод подъема двойственной Лагранжевой функции преобразует задачу оптимизации с ограничениями в задачу максимизации двойственной Лагранжевой функции, позволяя эффективно находить решения, удовлетворяющие заданным условиям согласованности и привязки. L(x, \lambda) = f(x) + \sum_{i=1}^{m} \lambda_i g_i(x), где f(x) — целевая функция, g_i(x) — ограничения, а \lambda_i — множители Лагранжа.

Для направления модели к логически обоснованным и визуально точным цепочкам рассуждений используются награды за семантическую привязку (Semantic Grounding Reward) и награды за согласованность (Consistency Reward). Награда за семантическую привязку оценивает соответствие утверждений визуальным доказательствам, обеспечивая связь между языком и воспринимаемым контентом. Награда за согласованность стимулирует внутреннюю логическую непротиворечивость в процессе рассуждений. Результаты экспериментов демонстрируют повышение уровня семантической привязки до 86.0%, что свидетельствует об эффективности данной системы вовлечения внешних знаний и поддержании логической целостности в процессе решения задач.

Результаты работы FGRPO на оценочном наборе данных демонстрируют его способность к точному следованию инструкциям, пространственной привязке и последовательности действий.
Результаты работы FGRPO на оценочном наборе данных демонстрируют его способность к точному следованию инструкциям, пространственной привязке и последовательности действий.

Комплексная оценка: Бенчмаркинг возможностей рассуждений

Модель DeepSeek-R1 демонстрирует передовые результаты в задачах визуально-пространственного рассуждения, превосходя существующие аналоги на широком спектре бенчмарков. Оценивание проводилось на разнообразных наборах данных, включая CVBench-2D, CVBench-3D, MindCube, MMVP, OmniSpatial, RealWorldQA и SAT, что подтверждает способность модели эффективно решать задачи, требующие понимания и анализа пространственных отношений. Полученные результаты свидетельствуют о высокой степени адаптивности и обобщающей способности DeepSeek-R1 в сложных сценариях, связанных с визуальной информацией и пространственным мышлением.

В процессе обучения модели DeepSeek-R1 активно применялся метод Монте-Карло поиска по дереву (Monte Carlo Tree Search), что позволило значительно расширить разнообразие исследуемых путей рассуждений. Этот подход стимулирует модель рассматривать различные варианты решения задачи, а не ограничиваться наиболее очевидными или часто встречающимися. В результате, модель демонстрирует улучшенную способность к обобщению — то есть, успешно применяет полученные знания и навыки к новым, ранее не встречавшимся задачам и данным. Использование Монте-Карло поиска по дереву, таким образом, способствует формированию более устойчивого и гибкого процесса рассуждений, что является ключевым фактором для достижения высокой точности и надежности модели в решении сложных задач визуально-пространственного мышления.

Полученные результаты наглядно демонстрируют эффективность предложенного подхода к оптимизации с ограничениями в задачах, требующих логических умозаключений в мультимодальных моделях. Достигнутая общая точность в 67.16% превосходит показатели стандартного алгоритма GRPO на 2%, что свидетельствует о более надежной и аккуратной работе модели в сложных сценариях. Этот прирост точности указывает на то, что применение ограничений в процессе обучения позволяет модели более эффективно исследовать пространство возможных решений и избегать ошибок, характерных для неограниченной оптимизации. Данный подход открывает перспективы для создания более интеллектуальных систем, способных к решению широкого спектра задач, требующих визуально-пространственного мышления и логического анализа.

Двухэтапный процесс обучения включает в себя создание обучающих данных CoT с использованием MCTS и сильного визуального учителя для обоснованного визуального мышления с привязкой к ограничивающим рамкам, последующее обучение с использованием данных SAT, VGR и VisCoT, и, наконец, обучение с подкреплением с использованием подмножества TreeVGR-RL-37K для создания разнообразных данных с контролем по ограничивающим рамкам.
Двухэтапный процесс обучения включает в себя создание обучающих данных CoT с использованием MCTS и сильного визуального учителя для обоснованного визуального мышления с привязкой к ограничивающим рамкам, последующее обучение с использованием данных SAT, VGR и VisCoT, и, наконец, обучение с подкреплением с использованием подмножества TreeVGR-RL-37K для создания разнообразных данных с контролем по ограничивающим рамкам.

Исследование, представленное в данной работе, акцентирует внимание на важности последовательности и визуального обоснования в мультимодальных языковых моделях. Повышение надёжности рассуждений требует не только способности модели обрабатывать информацию, но и её умения подтверждать выводы визуальными данными. Как заметил Эндрю Ын: «Мы должны стремиться к созданию систем, которые не просто дают ответы, а объясняют, как они к ним пришли». Эта цитата особенно актуальна в контексте Faithful GRPO, поскольку предложенный метод направлен именно на обеспечение прозрачности и проверяемости процесса рассуждения модели, минимизируя влияние пропусков и шумов в данных и укрепляя связь между языковым описанием и визуальным представлением.

Куда двигаться дальше?

Представленная работа, стремясь к повышению достоверности мультимодальных языковых моделей, неизбежно наталкивается на вопрос о природе самой «достоверности». Замена слепого доверия к выходным данным на верифицируемые награды — шаг в верном направлении, однако остается открытым вопрос о том, как определить адекватные критерии для оценки «верности» рассуждений, особенно в ситуациях, когда истина субъективна или контекстуальна. Оптимизация, ограниченная визуальным обоснованием, — это, безусловно, прогресс, но не гарантирует понимания глубинных причинно-следственных связей.

Дальнейшие исследования должны быть направлены на преодоление ограниченности текущих методов визуального обоснования. Необходимо разработать более сложные метрики, учитывающие не только наличие визуальных подтверждений, но и их релевантность и контекстуальную значимость. Интересно было бы исследовать возможность интеграции методов причинно-следственного вывода для построения более надежных и интерпретируемых моделей. И, конечно, стоит задуматься о том, что даже самая «достоверная» модель остается лишь аппроксимацией реальности, и её выводы следует воспринимать с долей здорового скептицизма.

В конечном итоге, стремление к «верности» в мультимодальных моделях — это не столько техническая задача, сколько философский вызов. Это попытка построить системы, способные не просто оперировать данными, но и понимать мир вокруг, пусть и в упрощенной форме. И путь к этому пониманию, как показывает опыт, полон неожиданных поворотов и нерешенных вопросов.


Оригинал статьи: https://arxiv.org/pdf/2604.08476.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-11 15:05