Автор: Денис Аветисян
Исследователи предлагают инновационный метод, позволяющий многомодальным языковым моделям лучше рассуждать, используя инструменты и обучение с подкреплением.

В статье представлена методика Tool-supervised Reinforcement Learning (ToolsRL) для повышения точности и стабильности обучения моделей визуального мышления с использованием инструментов.
Несмотря на значительный прогресс в области мультимодальных больших языковых моделей, эффективное освоение инструментов для решения сложных задач визуального рассуждения остается сложной задачей. В данной работе, посвященной ‘Visual Reasoning through Tool-supervised Reinforcement Learning’, предложен новый подход — обучение с подкреплением под контролем инструментов (ToolsRL), использующий прямую супервизию для более эффективного обучения использованию инструментов. Этот метод демонстрирует, что разработка учебной программы, начинающейся с оптимизации вознаграждения за конкретное использование инструментов, а затем переходящей к вознаграждению за точность, позволяет стабилизировать процесс обучения и повысить точность. Какие перспективы открывает использование управляемого обучения с подкреплением для расширения возможностей мультимодальных моделей в решении задач, требующих сложных визуальных манипуляций?
За пределами текста: Ограничения поверхностного мышления
Несмотря на значительные успехи в обработке естественного языка, традиционные методы, основанные исключительно на текстовой информации, демонстрируют ограниченные возможности в задачах, требующих визуального и пространственного мышления. Модели, анализирующие только текст, часто не способны эффективно интерпретировать изображения, понимать взаимосвязи между объектами на визуальном поле или решать задачи, где ключевая информация представлена в визуальной форме. Это особенно заметно при решении вопросов, требующих понимания расположения объектов в пространстве, идентификации визуальных деталей или интерпретации сложных визуальных сцен. Таким образом, для достижения более высокого уровня интеллектуальных возможностей необходимо развитие моделей, способных интегрировать и эффективно обрабатывать как текстовую, так и визуальную информацию.
Существующие мультимодальные подходы, несмотря на свою способность обрабатывать как текст, так и изображения, часто сталкиваются с трудностями при решении сложных визуальных вопросов из-за неспособности стратегически фокусироваться на релевантных областях изображения. Модели, как правило, обрабатывают визуальную информацию целиком, не выделяя ключевые детали, необходимые для логических выводов. Это приводит к тому, что важные элементы, влияющие на ответ, игнорируются или недооцениваются, снижая общую точность и эффективность решения задач, требующих детального визуального анализа и сопоставления с текстовой информацией. В результате, даже при наличии обширных знаний, модели оказываются неспособны эффективно использовать визуальный контекст для формирования корректных ответов на вопросы, требующие пространственного мышления и понимания взаимосвязей между объектами на изображении.
Ограничения существующих систем искусственного интеллекта, особенно в задачах, требующих понимания визуальной информации, подчеркивают необходимость разработки моделей, способных к активному исследованию и манипулированию визуальными данными. Вместо пассивного восприятия изображений, такие модели должны уметь целенаправленно фокусироваться на релевантных областях, извлекать ключевую информацию и динамически адаптировать процесс анализа в зависимости от сложности вопроса. Такой подход, имитирующий активное визуальное исследование, позволит преодолеть ограничения традиционных методов и значительно повысить эффективность решения задач, требующих пространственного мышления и понимания контекста изображения. Разработка подобных систем представляет собой важный шаг к созданию действительно интеллектуальных агентов, способных эффективно взаимодействовать с окружающим миром.

Инструменты как расширение познавательных способностей
Предлагается фреймворк, основанный на возможности использования инструментов (Tool-Use Capability), для оснащения моделей визуальными инструментами, такими как инструменты увеличения (Zoom-in Tool), поворота/отражения (Rotate/Flip Tool) и рисования линий/точек (Draw Line/Point Tool). Данный подход предполагает интеграцию этих инструментов непосредственно в архитектуру модели, позволяя ей активно взаимодействовать с визуальными данными и выполнять целенаправленные манипуляции с изображениями. Внедрение Tool-Use Capability позволяет модели не просто пассивно воспринимать изображение, но и активно исследовать его, изменяя перспективу и выделяя значимые области.
Предоставление модели возможности активной манипуляции изображениями, посредством таких инструментов, как изменение масштаба, поворот и рисование линий или точек, позволяет ей целенаправленно концентрироваться на критически важных деталях. Данный подход обеспечивает установление и анализ пространственных взаимосвязей между элементами изображения, что необходимо для решения задач, требующих детального визуального понимания. Активная манипуляция данными изображения, в отличие от пассивного восприятия, позволяет модели выявлять закономерности и особенности, которые могли бы остаться незамеченными при стандартном анализе.
В отличие от пассивного восприятия изображения, предлагаемый подход обеспечивает возможность активного исследования визуальной информации. Модель получает инструменты для целенаправленного манипулирования изображением, что позволяет ей фокусироваться на ключевых деталях и устанавливать пространственные взаимосвязи. Это активное взаимодействие с визуальными данными приводит к повышению производительности в задачах, требующих детального и нюансированного понимания изображения, таких как распознавание объектов, анализ сцен и решение задач визуального поиска.

Двухэтапный учебный план для стратегического использования инструментов
В рамках фреймворка ToolsRL используется двухэтапный учебный план. На первом этапе проводится контролируемая тонкая настройка (Supervised Fine-Tuning), направленная на освоение базовых навыков манипулирования инструментами. Этот этап обеспечивает быстрое приобретение умений, необходимых для корректного использования инструментов. На втором этапе применяется обучение с подкреплением (Reinforcement Learning) для оптимизации точности выполнения задач, используя освоенные навыки манипулирования. Такой подход позволяет модели сначала научиться как пользоваться инструментами, а затем — для чего, повышая общую эффективность и результативность.
В рамках нашей платформы ToolsRL используется алгоритм GRPO (Goal-Conditioned Reinforcement Learning with Option Discovery), позволяющий модели самостоятельно исследовать возможности использования инструментов без необходимости в ручной разметке демонстраций. GRPO позволяет агенту обучаться путем постановки целей и поиска последовательности действий с использованием доступных инструментов для их достижения. Такой подход обеспечивает автоматическое обнаружение эффективных стратегий использования инструментов, поскольку модель самостоятельно определяет оптимальные действия для решения поставленной задачи, а не полагается на заранее заданные примеры поведения. Это особенно важно для сложных задач, где заранее определить все возможные эффективные стратегии не представляется возможным.
Обучение с подкреплением в рамках нашей системы использует механизм «Контроль инструментов» (Tool Supervision), предоставляющий целенаправленную обратную связь при вызове инструментов. Этот процесс заключается в оценке корректности выбора и применения инструмента в конкретной ситуации. Вместо простого вознаграждения за достижение конечной цели, «Контроль инструментов» предоставляет промежуточные сигналы, указывающие на правильность или ошибочность действия с инструментом на каждом шаге. Это позволяет модели быстрее освоить оптимальные стратегии использования инструментов, избегая неэффективных или ошибочных действий и улучшая общую производительность при решении задач.

Подтверждение эффективности и широкая применимость
Проверка эффективности разработанной системы ToolsRL проводилась на широком спектре разнообразных наборов данных, включающих DocVQA, SealVQA, Visual Probe и ChartQA. Результаты демонстрируют устойчивое улучшение показателей производительности на всех протестированных платформах. Это указывает на способность системы адаптироваться к различным типам визуальных вопросов и извлекать пользу из стратегического использования инструментов, независимо от специфики данных. Подобная универсальность подтверждает перспективность ToolsRL как надежного решения для задач визуального вопросно-ответного анализа.
Модель продемонстрировала передовые результаты в задачах визуального вопросно-ответного анализа, достигнув точности 77.3% на наборе данных DocVQA-RF и 61.4% на InfoVQA-RF. Эти показатели свидетельствуют о значительном прогрессе в понимании и интерпретации сложных визуальных документов, а также в извлечении релевантной информации из графических представлений данных. Достигнутая точность превосходит существующие методы, подтверждая эффективность разработанного подхода к обработке визуальной информации и его способность к решению сложных аналитических задач.
Модель демонстрирует значительное повышение точности при решении сложных визуальных вопросов благодаря стратегическому использованию инструментов. Основываясь на модифицированной метрике F1 в качестве вознаграждения за использование инструмента приближения, система активно применяет инструменты для анализа изображений, совершая в среднем 3.4 обращения к инструментам на один образец. Это существенно превосходит существующие методы, которые, как правило, ограничиваются единичными или редкими обращениями к инструментам. Такая активная и целенаправленная работа с инструментами позволяет модели более детально исследовать визуальную информацию и находить ответы на сложные вопросы, требующие внимательного рассмотрения деталей.
Для обеспечения корректности и надёжности ответов модели, а также повышения доверия к её способности к рассуждениям, применялась оценка с использованием LLM Judge. Данный подход позволил не только подтвердить высокую точность генерируемых ответов, но и добиться передовых результатов на бенчмарке HR-Bench. Автоматизированная оценка, основанная на больших языковых моделях, гарантирует объективность и воспроизводимость результатов, демонстрируя способность модели к сложному логическому анализу и предоставлению обоснованных ответов на вопросы, требующие глубокого понимания контекста и визуальной информации.

Статья демонстрирует очередную попытку приручить многообещающую, но неустойчивую природу больших языковых моделей. Авторы предлагают Tool-supervised Reinforcement Learning, надеясь стабилизировать обучение и повысить точность визуального мышления. Однако, как показывает опыт, любое усложнение архитектуры, любая новая абстракция — это лишь отложенный технический долг. Как метко заметил Эндрю Ын: «Мы живем в эпоху, когда данные — это нефть, а алгоритмы — это нефтеперерабатывающие заводы. И чем сложнее завод, тем больше вероятность поломки». Идея использования явного контроля инструментов может и сработает, но вероятность того, что это породит новые, ещё более сложные проблемы с поддержкой и масштабированием, весьма велика. В конечном итоге, стабильность, достигнутая через сложные схемы обучения, — это иллюзия, а не реальное решение.
Что дальше?
Предложенный подход, безусловно, добавляет ещё один слой сложности в и без того непростые взаимодействия между большими языковыми моделями и окружающим миром. Интеграция “инструментов” под контролем обучения с подкреплением — это логичный шаг, хотя и неизбежно ведущий к новым формам техдолга. Стабильность обучения, конечно, важна, но не стоит забывать, что зелёные тесты — это, как правило, признак того, что тесты ничего и не проверяют. Вопрос в том, насколько хорошо эта архитектура масштабируется за пределы тщательно подобранных задач визуального рассуждения.
Более того, концепция “инструментов” представляется несколько размытой. Что произойдёт, когда количество доступных инструментов станет действительно большим? Как модель будет выбирать наиболее подходящий инструмент, не утонув в пространстве возможностей? Всё это уже было в 2012-м, только тогда мы называли это “экспертными системами” и сталкивались с теми же проблемами — хрупкостью, сложностью поддержки и неспособностью к обобщению.
Вероятно, следующее поколение исследований будет посвящено автоматизации процесса создания и управления этими “инструментами”. Модель, которая сама определяет, какие инструменты ей нужны и как их использовать, — вот куда движется эта область. Но не стоит питать иллюзий — даже самая элегантная архитектура рано или поздно превратится в монолит, требующий постоянного обслуживания и доработки. Каждая «революционная» технология неизбежно порождает новые проблемы.
Оригинал статьи: https://arxiv.org/pdf/2604.19945.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Согласие роя: когда разум распределён, а ошибки прощены.
- Эволюция под контролем: эксперименты с обучением с подкреплением в генетическом программировании
- Язык тела под присмотром ИИ: архитектура и гарантии
- Искусственный интеллект в разговоре: что обсуждают друг с другом AI?
- Безопасность генерации изображений: новый вектор управления
- Искусственный интеллект в университете: кто за кого работу делает?
- Умная экономия: Как сжать ИИ без потери качества
- Разбираемся с разреженными автокодировщиками: Действительно ли они учатся?
- Глубина восприятия: Масштабирование 3D-моделирования с помощью данных
- Видеовопросы и память: Искусственный интеллект на грани
2026-04-23 11:55