Визуальное мышление: Новый подход к обучению языковых моделей

Автор: Денис Аветисян


Исследователи предлагают инновационный метод, позволяющий языковым моделям лучше понимать и использовать визуальную информацию для более сложных рассуждений.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Исследование представляет подход PEPO, в котором синергия восприятия и исследования позволяет переоценивать значимость токенов на основе визуальной схожести и энтропии посредством плавного механизма, что приводит к улучшению производительности в различных задачах при интеграции с GRPO или DAPO, демонстрируя преимущество над традиционной оптимизацией на уровне последовательностей с однородными весами.
Исследование представляет подход PEPO, в котором синергия восприятия и исследования позволяет переоценивать значимость токенов на основе визуальной схожести и энтропии посредством плавного механизма, что приводит к улучшению производительности в различных задачах при интеграции с GRPO или DAPO, демонстрируя преимущество над традиционной оптимизацией на уровне последовательностей с однородными весами.

Представлен PEPO — новый фреймворк для обучения языковых моделей на основе подкрепления, сочетающий визуальное восприятие и исследование на уровне токенов для улучшения мультимодального рассуждения.

Существующие подходы к обучению с подкреплением для мультимодальных моделей часто не учитывают различную степень визуального обоснования на разных этапах логических рассуждений. В данной работе, посвященной проблеме ‘Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought’, предложен новый метод PEPO, который анализирует траектории рассуждений на уровне токенов и эффективно сочетает визуальное восприятие с исследованием пространства решений. PEPO использует приоритет восприятия, основанный на схожести скрытых состояний, и интегрирует его с энтропией токенов для формирования преимуществ на каждом шаге. Может ли такой подход к оптимизации на уровне токенов значительно повысить эффективность и надежность мультимодальных моделей в широком спектре задач, включая геометрическое рассуждение и решение визуальных головоломок?


Понимание через Рассуждения: Преодоление Ограничений Визуально-Языковых Моделей

Несмотря на значительный прогресс в масштабировании моделей, объединяющих зрение и язык, современные системы всё ещё испытывают трудности при решении сложных задач, требующих логического мышления. Оказывается, увеличение объёма данных и параметров не гарантирует автоматического улучшения способности к рассуждению. Модели часто демонстрируют поверхностное понимание визуальной информации и не способны эффективно применять знания для вывода новых фактов или решения проблем, требующих последовательного анализа и синтеза информации. Эта проблема особенно заметна при столкновении с неоднозначными изображениями или вопросами, требующими учета контекста и неявных предположений, что подчеркивает необходимость разработки новых подходов к обучению и архитектуре, направленных на усиление способности к логическому выводу и решению задач.

Существующие методы в области моделей, объединяющих зрение и язык, зачастую демонстрируют ограниченность в способности систематически исследовать пространство возможных решений, что особенно заметно при решении задач, требующих последовательного применения логических выводов. Неспособность к композиционному рассуждению — то есть, к разложению сложной задачи на более простые подзадачи и последовательному их решению — приводит к ошибкам в ситуациях, когда требуется объединить несколько визуальных и текстовых элементов для получения ответа. Это проявляется, например, в сложностях при интерпретации изображений, содержащих несколько объектов и взаимосвязей между ними, или при ответе на вопросы, требующие не простого извлечения информации, а ее синтеза и анализа. В результате, модели испытывают затруднения в решении задач, требующих более глубокого понимания контекста и умения логически выстраивать цепочку рассуждений.

Повышение способности к рассуждениям является ключевым фактором для раскрытия полного потенциала моделей, объединяющих зрение и язык. Способность логически мыслить позволяет этим системам не просто распознавать объекты на изображениях, но и решать визуальные головоломки, требующие последовательного анализа и синтеза информации. Более того, усовершенствованные навыки рассуждения открывают путь к ответам на сложные вопросы, требующие не просто извлечения фактов, а их интерпретации и сопоставления. В конечном итоге, развитие этой способности позволит моделям выполнять сложные задачи, выходящие за рамки простого распознавания образов, и приблизит их к действительно интеллектуальному взаимодействию с окружающим миром.

В отличие от GRPO, демонстрирующего сбои в восприятии и непоследовательную логику, что приводит к неверным ответам, PEPO генерирует согласованные, визуально обоснованные цепочки рассуждений, обеспечивая правильные результаты на наборах данных Geometry3K, MathVerse и LISA, что подтверждает эффективность PEPO в улучшении мультимодального рассуждения.
В отличие от GRPO, демонстрирующего сбои в восприятии и непоследовательную логику, что приводит к неверным ответам, PEPO генерирует согласованные, визуально обоснованные цепочки рассуждений, обеспечивая правильные результаты на наборах данных Geometry3K, MathVerse и LISA, что подтверждает эффективность PEPO в улучшении мультимодального рассуждения.

PEPO: Новая Стратегия Оптимизации Рассуждений в Визуально-Языковых Моделях

Мы представляем Perception-Exploration Policy Optimization (PEPO) — фреймворк обучения с подкреплением на уровне токенов, разработанный для улучшения способности к рассуждению в больших языковых моделях, работающих с визуальными данными (LVLM). PEPO осуществляет обучение посредством оптимизации политики генерации токенов, что позволяет модели более эффективно исследовать различные пути рассуждений при решении задач, требующих визуального понимания и логических выводов. Фреймворк работает непосредственно с токенами, составляющими входные и выходные последовательности, обеспечивая детальный контроль над процессом генерации и позволяя модели адаптироваться к нюансам конкретной задачи.

В основе алгоритма PEPO лежит стратегия исследования, использующая два ключевых показателя для расширения разнообразия путей рассуждений в моделях LVLM. Во-первых, визуальное сходство между входными изображениями и промежуточными состояниями используется для стимулирования исследования визуально релевантных, но потенциально неочевидных путей. Во-вторых, энтропия токенов, отражающая неопределенность в предсказаниях модели, используется для поощрения генерации разнообразных токенов и предотвращения преждевременной сходимости к одному решению. Комбинирование этих двух показателей позволяет PEPO эффективно исследовать пространство возможных рассуждений и находить более надежные и обоснованные ответы.

В рамках PEPO для оптимизации политики используется усовершенствованный токен-уровневый сигнал преимущества. Этот сигнал, рассчитываемый на основе оценки действий на каждом токене, обеспечивает более детальную и гранулярную обратную связь в процессе обучения, чем традиционные подходы, использующие оценку только на уровне всего ответа. Повышенная детализация позволяет модели точнее корректировать вероятность выбора каждого токена, способствуя более эффективному обучению и улучшению качества рассуждений. При расчете сигнала преимущества учитываются как текущие оценки, так и ожидаемые будущие вознаграждения, что обеспечивает более стабильное и быстрое схождение алгоритма обучения.

PEPO (Perception-Exploration Policy Optimization) является расширением существующих алгоритмов обучения с подкреплением, таких как DAPO (Direct Preference Optimization) и Group Relative Policy Optimization. В отличие от этих методов, PEPO фокусируется на улучшении стратегии исследования (exploration) в процессе обучения больших языковых моделей, работающих с визуальными данными. Используя преимущества DAPO и Group Relative Policy Optimization в части оптимизации политики, PEPO дополняет их механизмом, направленным на преодоление ограничений, связанных с недостаточным разнообразием исследуемых путей рассуждений. Это достигается за счет введения новых метрик, стимулирующих модель к рассмотрению альтернативных вариантов и предотвращающих преждевременную сходимость к локальным оптимумам в процессе обучения.

В рамках PEPO для каждого токена ответа вычисляется визуальное сходство и энтропия, а их центрированная нормализованная сумма, пропущенная через сглаживающую функцию, используется для получения весов, модулирующих преимущества при обновлениях.
В рамках PEPO для каждого токена ответа вычисляется визуальное сходство и энтропия, а их центрированная нормализованная сумма, пропущенная через сглаживающую функцию, используется для получения весов, модулирующих преимущества при обновлениях.

Эмпирическое Подтверждение Эффективности PEPO на Разнообразных Бенчмарках

Для оценки PEPO использовался широкий спектр сложных бенчмарков, включающий PuzzleVQA, предназначенный для решения визуальных головоломок, MathVista, ориентированный на математическое рассуждение, и RefCOCO, предназначенный для задач визуального связывания (visual grounding). Эти бенчмарки были выбраны для всесторонней оценки способности PEPO к решению разнообразных задач, требующих как визуального понимания, так и логического вывода. Использование этих стандартизированных наборов данных позволило провести объективное сравнение PEPO с другими моделями и количественно оценить улучшения, достигнутые благодаря предложенному подходу.

В ходе экспериментов с использованием моделей Qwen2.5-VL-3B и InternVL3-2B зафиксированы значительные улучшения производительности на ряде бенчмарков. В частности, на бенчмарке Geometry3K модель Qwen2.5-VL-3B с PEPO продемонстрировала прирост точности в 3.67 пункта по сравнению с GRPO, а InternVL3-2B — 3.51 пункта. Данные результаты подтверждают эффективность PEPO в улучшении способности моделей к решению геометрических задач и визуальному рассуждению.

При оценке на наборе данных MathVerse, PEPO продемонстрировал улучшение точности на 0.45 пункта по сравнению с моделью DAPO при использовании Qwen2.5-VL-3B. Данный результат указывает на способность PEPO повышать эффективность решения математических задач, требующих визуального понимания и логического вывода, в сравнении с существующими подходами, такими как DAPO, при использовании аналогичной базовой модели.

В ходе тестирования на наборе данных LISA-Grounding был зафиксирован прирост показателя IoU@50 на 0.86 пункта, что свидетельствует об улучшении точности определения местоположения объектов. На задаче FGVC Aircraft (4-shot) PEPO продемонстрировал повышение точности на 5.32 пункта, оцениваемое при использовании всего четырех примеров для обучения, что указывает на эффективность метода в условиях ограниченного количества обучающих данных.

Результаты экспериментов с PEPO на разнообразных бенчмарках, включая PuzzleVQA, MathVista, RefCOCO, MathVerse, LISA-Grounding и FGVC Aircraft, демонстрируют существенное улучшение показателей в задачах, требующих рассуждений и решения проблем. Например, использование PEPO с моделями Qwen2.5-VL-3B и InternVL3-2B привело к приросту точности на Geometry3K на 3.67 и 3.51 пункта соответственно, а также к увеличению точности на MathVerse на 0.45 пункта. Кроме того, наблюдалось улучшение IoU@50 на LISA-Grounding на 0.86 пункта и прирост точности на FGVC Aircraft (4-shot) на 5.32 пункта, что подтверждает способность PEPO повышать эффективность моделей в сложных когнитивных задачах.

Обучение на наборе данных FGVC Aircraft (4 примера) показывает, что GRPO и PEPOG демонстрируют сопоставимые результаты по таким показателям, как вознаграждение, средняя длина ответа, средняя визуальная схожесть и энтропия.
Обучение на наборе данных FGVC Aircraft (4 примера) показывает, что GRPO и PEPOG демонстрируют сопоставимые результаты по таким показателям, как вознаграждение, средняя длина ответа, средняя визуальная схожесть и энтропия.

Перспективы Развития: К Более Интеллектуальным Визуально-Языковым Системам

Разработка PEPO представляет собой существенный прогресс в создании интеллектуальных систем, способных обрабатывать как визуальную, так и текстовую информацию, и решать сложные задачи, требующие рассуждений. В отличие от предыдущих подходов, PEPO эффективно объединяет визуальные данные и языковые модели, позволяя системе не просто распознавать объекты на изображении, но и понимать их взаимосвязь, а также делать логические выводы на основе этой информации. Этот подход открывает возможности для создания систем, способных отвечать на сложные вопросы о визуальном контенте, планировать действия на основе визуальной информации и решать проблемы, требующие комплексного анализа и рассуждений, что приближает нас к созданию действительно «умных» систем машинного зрения и обработки естественного языка.

Дальнейшие исследования PEPO направлены на расширение масштаба модели и используемых наборов данных. Увеличение размера модели позволит ей обрабатывать более сложные визуальные и языковые задачи, а работа с большими объемами данных позволит улучшить ее обобщающую способность. Помимо этого, особое внимание уделяется разработке более изощренных стратегий исследования, которые позволят PEPO более эффективно находить оптимальные решения в пространстве возможных ответов. Исследователи планируют экспериментировать с различными алгоритмами поиска и методами отбора наиболее перспективных вариантов, чтобы добиться значительного повышения производительности и эффективности системы в решении сложных задач, требующих визуального и языкового рассуждения.

Интеграция PEPO с передовыми методами, такими как графовые нейронные сети, представляет собой перспективное направление для существенного повышения способности к рассуждениям. Графовые нейронные сети позволяют эффективно моделировать и анализировать взаимосвязи между объектами и концепциями, что особенно важно для задач, требующих комплексного понимания визуальной информации и языка. Объединение PEPO, демонстрирующего эффективность в исследовании и принятии решений, с возможностями графовых сетей по представлению знаний, может привести к созданию систем, способных не только идентифицировать объекты на изображениях, но и понимать их контекст, причинно-следственные связи и сложные взаимоотношения, открывая путь к более интеллектуальным и надежным системам компьютерного зрения и обработки естественного языка.

Особого внимания заслуживает тот факт, что разработанная система PEPO достигает значительного прироста в производительности при минимальном увеличении вычислительных затрат — менее 1%. Это свидетельствует об исключительной эффективности подхода, позволяя значительно улучшить возможности систем, работающих с визуальной и языковой информацией, без существенного увеличения необходимых ресурсов. Такая экономичность делает PEPO особенно привлекательной для широкого спектра приложений, включая системы искусственного интеллекта с ограниченными вычислительными возможностями и решения, требующие обработки больших объемов данных в реальном времени. Достигнутая эффективность открывает перспективы для внедрения сложных алгоритмов рассуждения в различные области, от робототехники до анализа медицинских изображений.

Платформа Swift предоставляет исследователям и разработчикам гибкую основу для реализации и расширения PEPO, открывая широкие возможности для дальнейших исследований в области интеллектуальных систем, объединяющих зрение и язык. Благодаря своей модульной архитектуре и оптимизированному коду, Swift позволяет легко адаптировать PEPO к различным задачам и масштабировать его для работы с большими объемами данных. Возможность модификации и расширения алгоритма способствует разработке новых стратегий исследования и улучшению способности системы к сложному рассуждению, что делает Swift ценным инструментом для продвижения исследований в области искусственного интеллекта и машинного обучения.

Анализ на уровне токенов показал, что токены с высокой визуальной схожестью демонстрируют более значительные изменения скрытого состояния при удалении изображения, в то время как токены с высокой энтропией, отражающие термины, связанные с рассуждениями и восприятием, характеризуются иным поведением.
Анализ на уровне токенов показал, что токены с высокой визуальной схожестью демонстрируют более значительные изменения скрытого состояния при удалении изображения, в то время как токены с высокой энтропией, отражающие термины, связанные с рассуждениями и восприятием, характеризуются иным поведением.

Исследование, представленное в данной работе, акцентирует внимание на важности соединения визуального восприятия и исследования в процессе обучения больших языковых моделей. Авторы предлагают новаторский подход, PEPO, который оптимизирует обучение на уровне токенов, что позволяет модели более эффективно использовать визуальную информацию для рассуждений. Как однажды заметил Дэвид Марр: «Представление информации — это не просто копирование мира, а создание полезной модели для решения конкретных задач». Эта мысль находит отражение в PEPO, поскольку система не просто обрабатывает визуальные данные, но и активно использует их для формирования более обоснованных и логичных ответов, демонстрируя тем самым способность к глубокому многомодальному рассуждению.

Что дальше?

Представленный подход, оптимизируя процесс принятия решений на уровне токенов, безусловно, открывает новые горизонты в области мультимодального рассуждения. Однако, следует признать, что истинное понимание требует не только эффективной навигации по пространству возможностей, но и критической оценки границ достоверности данных. Тщательная проверка пределов применимости полученных закономерностей представляется необходимой, дабы избежать иллюзий, порожденных случайными совпадениями.

Перспективы развития, вероятно, лежат в плоскости более глубокой интеграции механизмов визуального восприятия и исследования. Важно учитывать, что текущие модели, в силу своей архитектуры, склонны к экстраполяции известных паттернов на незнакомые ситуации. Разработка методов, способных к истинному творческому поиску и адаптации к непредсказуемым обстоятельствам, остается сложной задачей. Необходимо исследовать способы, позволяющие моделям не только «видеть», но и «понимать» контекст, в котором они действуют.

В конечном счете, успех данного направления исследований будет зависеть от способности преодолеть разрыв между формальной оптимизацией и истинным интеллектом. Поиск баланса между эксплуатацией известных стратегий и исследованием новых возможностей представляется ключевым вызовом для будущих поколений моделей.


Оригинал статьи: https://arxiv.org/pdf/2603.22847.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-26 02:06