Автор: Денис Аветисян
Новая разработка позволяет мультимодальным моделям самостоятельно выбирать и комбинировать инструменты для более эффективного решения задач визуального рассуждения.

Представлен фреймворк AdaReasoner, использующий обучение с подкреплением и адаптивную курацию данных для повышения производительности и обобщающей способности в сложных визуальных задачах.
Несмотря на значительные успехи в области мультимодальных больших языковых моделей, их способность к сложному визуальному рассуждению часто ограничена возможностями, доступными без внешних инструментов. В данной работе представлена система ‘AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning’, которая решает эту проблему за счет динамического оркестра управления инструментами, позволяющего моделям адаптироваться к новым задачам и инструментам. Ключевым нововведением является обучение использованию инструментов как общему навыку рассуждения, основанное на масштабируемой подготовке данных, алгоритме обучения с подкреплением Tool-GRPO и адаптивном механизме обучения. Способна ли такая система, демонстрирующая впечатляющие результаты на сложных эталонных тестах, превзойти существующие проприетарные системы и открыть новые горизонты в области визуального рассуждения?
Проблемы сложного рассуждения в мультимодальных моделях
Современные мультимодальные большие языковые модели (MLLM) демонстрируют существенные трудности при решении задач, требующих развернутого, многошагового рассуждения. В отличие от способности эффективно оперировать с отдельными элементами визуальной и текстовой информации, модели испытывают сложности в последовательном применении логических операций и построении целостной стратегии для достижения цели. Это проявляется в неспособности правильно интерпретировать сложные инструкции, требующие нескольких этапов обработки, или эффективно планировать использование инструментов для манипулирования данными. В результате, даже при наличии необходимой информации, MLLM часто допускают ошибки в логических выводах и не могут успешно справляться с задачами, где важна последовательность действий и учет взаимосвязей между различными элементами.
Существующие подходы к обучению мультимодальных больших языковых моделей (MLLM) зачастую демонстрируют ограниченные возможности в планировании и последовательном применении инструментов для решения сложных задач. Вместо разработки комплексной стратегии действий, модели склонны к непосредственному реагированию на отдельные элементы входных данных, что препятствует выполнению операций, требующих многоэтапной обработки и координации различных инструментов. Это особенно заметно в сценариях, где необходимо не просто идентифицировать объекты на изображении или извлечь информацию из текста, но и активно манипулировать данными, используя специализированные инструменты, такие как калькуляторы, поисковые системы или графические редакторы, для достижения поставленной цели. Отсутствие способности к эффективному планированию и координации действий ограничивает потенциал MLLM в решении задач, требующих нетривиального анализа и синтеза информации.
Ограничение в способности к сложному рассуждению существенно снижает эффективность мультимодальных больших языковых моделей при решении задач, требующих детальной обработки визуальной и текстовой информации. Например, при анализе сложной схемы или чертежа, модели испытывают трудности в последовательном извлечении взаимосвязанных данных и их интеграции с текстовыми инструкциями. Это проявляется в неспособности точно интерпретировать сложные диаграммы, выполнять многоэтапные манипуляции с изображениями на основе текстового описания или корректно отвечать на вопросы, требующие сопоставления информации из разных модальностей. Подобные ограничения не позволяют моделям полноценно решать задачи, где визуальное и текстовое понимание должны быть объединены для достижения конкретной цели, что подчеркивает необходимость разработки новых подходов к улучшению их возможностей в области сложного рассуждения и манипулирования данными.

AdaReasoner: Разумный оркестр инструментов для адаптивного планирования
AdaReasoner представляет собой модель рассуждений, ориентированную на использование инструментов, разработанную для обеспечения адаптивного, многошагового планирования с их применением. В отличие от моделей, жестко привязанных к конкретным задачам, AdaReasoner динамически определяет последовательность действий, включая выбор и оркестровку инструментов, для достижения поставленной цели. Это позволяет модели эффективно решать сложные задачи, требующие использования различных инструментов на протяжении нескольких шагов, и адаптироваться к изменяющимся требованиям задачи без переобучения. Основной принцип работы заключается в способности модели оценивать текущее состояние задачи и выбирать наиболее подходящий инструмент для выполнения следующего шага в плане, формируя последовательность действий для достижения конечного результата.
AdaReasoner использует структуру Tool GRPO (TG), основанную на обучении с подкреплением, для оптимизации стратегического планирования на длительном горизонте при использовании инструментов. TG позволяет модели динамически адаптировать последовательность действий и выбирать оптимальные инструменты для достижения поставленной цели, учитывая долгосрочные последствия каждого шага. Обучение происходит путем максимизации совокупной награды, получаемой за успешное выполнение задач с использованием инструментов, что способствует выработке эффективных стратегий планирования и повышению общей производительности системы. Ключевым аспектом является функция вознаграждения, разработанная для стимулирования использования инструментов, ведущих к достижению целей в долгосрочной перспективе.
Адаптивное обучение (ADL) в AdaReasoner представляет собой ключевой механизм, позволяющий отделить логику использования инструментов от конкретных задач. Это достигается за счет обучения модели обобщенным стратегиям выбора и оркестровки инструментов, независимым от специфики решаемой проблемы. Разделение логики и задач позволяет ADL значительно повысить обобщающую способность модели, обеспечивая эффективное применение инструментов в новых, ранее не встречавшихся сценариях и повышая устойчивость к изменениям в требованиях задачи. Фактически, ADL позволяет модели учиться как использовать инструменты, а не для чего конкретно, что является основой для адаптивности и повышения производительности в различных условиях.
Ключевым преимуществом AdaReasoner является его способность динамически выбирать и координировать инструменты в зависимости от требований конкретной задачи. В ходе тестирования на различных эталонных наборах данных, эта адаптивная оркестровка инструментов привела к среднему улучшению производительности на 24,9%. Это достигается за счет анализа текущих потребностей задачи и последующего выбора наиболее подходящего инструмента или последовательности инструментов для ее эффективного решения, что позволяет модели адаптироваться к различным условиям и оптимизировать общую производительность.

Синтез обучающих данных с помощью конвейера курирования
Для обучения AdaReasoner был разработан конвейер курирования данных (Data Curation Pipeline), предназначенный для автоматической генерации высококачественных многошаговых траекторий. Этот конвейер функционирует без участия человека, обеспечивая создание обучающих данных в автоматическом режиме. Он предназначен для синтеза последовательностей действий и ответов, необходимых для обучения модели решению сложных задач, требующих нескольких шагов для достижения конечного результата. Автоматизация процесса позволяет масштабировать генерацию данных для обучения моделей, которым требуется обширный опыт для достижения высокой производительности.
Для синтеза разнообразных и сложных сценариев обучения AdaReasoner используется конвейер генерации данных, в котором применяются задачи, такие как Jigsaw и GUIQA. Jigsaw представляет собой задачу на визуальное рассуждение и сборку изображений, требующую от модели понимания взаимосвязей между частями и их объединения. GUIQA, в свою очередь, фокусируется на взаимодействии с графическим интерфейсом пользователя, предъявляя вопросы, ответы на которые требуют выполнения последовательности действий в GUI. Комбинация этих задач позволяет генерировать траектории, охватывающие широкий спектр навыков и сценариев, необходимых для эффективной работы AdaReasoner с различными инструментами и интерфейсами.
Обучение AdaReasoner на сложных задачах, требующих использования различных инструментов, является ключевым аспектом повышения его эффективности. Применение задач, предполагающих последовательное выполнение действий и взаимодействие с несколькими утилитами, позволяет модели освоить не только синтаксис и функциональность каждого инструмента, но и стратегию их комбинирования для достижения поставленной цели. В процессе обучения AdaReasoner анализирует необходимые шаги для решения сложных задач, определяя оптимальный порядок использования доступных инструментов и адаптируясь к различным сценариям, что значительно повышает его способность к обобщению и применению полученных навыков в новых, ранее не встречавшихся ситуациях.
Конвейер генерации данных обеспечивает масштабируемое создание обучающих примеров, что критически важно для обучения моделей, требующих обширного опыта. Возможность автоматического и эффективного увеличения объема данных позволяет преодолеть ограничения, связанные с ручной сборкой и аннотацией, и обеспечивает обучение моделей на значительно больших наборах данных. Это особенно важно для моделей, решающих сложные задачи, где требуется широкий спектр сценариев и ситуаций для достижения высокой обобщающей способности и надежности. Масштабируемость конвейера позволяет быстро адаптироваться к потребностям обучения и генерировать данные для новых задач и инструментов по мере необходимости.

Оркестровка набора инструментов для визуальной и текстовой манипуляции
AdaReasoner представляет собой комплексную систему, объединяющую в себе набор специализированных инструментов, таких как Point Tool для точного указания координат, Draw2DPath Tool для построения графических траекторий, AStar Tool для поиска оптимальных путей, OCR Tool для распознавания текста на изображениях, DetectBlackArea Tool для выявления темных областей и InsertImage Tool для вставки изображений. Эта бесшовная интеграция позволяет модели не просто анализировать визуальную и текстовую информацию, но и активно манипулировать ею, выполняя сложные задачи, требующие координации различных инструментов. В результате, AdaReasoner обеспечивает расширенные возможности для мультимодальных больших языковых моделей, позволяя им эффективно решать задачи, ранее недоступные для подобных систем.
Данный инструментарий позволяет модели выполнять сложные манипуляции с визуальной и текстовой информацией. Система способна идентифицировать объекты на изображениях, создавать графические траектории, распознавать текст, в том числе в изображениях, и компоновать новые изображения на основе полученных данных. Благодаря интеграции различных инструментов, таких как Point Tool и OCR Tool, модель не просто воспринимает визуальные и текстовые данные, но и активно взаимодействует с ними, что открывает возможности для решения широкого спектра задач, требующих как анализа изображений, так и обработки текста, например, автоматическое заполнение форм или создание аннотаций к изображениям.
Разработанная платформа продемонстрировала превосходные результаты в задачах, требующих согласованного использования различных инструментов. В частности, при решении задач WebMMU, модель достигла точности в 72.97% исключительно благодаря применению стратегии Tool-GRPO. Этот результат свидетельствует о значительном расширении возможностей многомодальных языковых моделей (MLLM), позволяя им эффективно обрабатывать сложные запросы, требующие не только понимания текста и изображений, но и координации действий между различными инструментами для достижения конечной цели. Подобный подход открывает новые перспективы для создания более интеллектуальных и универсальных систем искусственного интеллекта.
В ходе экспериментов с моделью 7B, AdaReasoner продемонстрировала практически безупречную точность в задаче VSP — 97.6%, что позволило существенно повысить производительность и 3B модели, сравнивая её с результатами 7B версии. Особенно заметный прогресс наблюдался в задаче VSP-Verify, где использование инструмента Draw2DPath привело к увеличению точности на 7.82%. Кроме того, AdaReasoner достигла 100% точности в локализации объектов с помощью Point Tool, что более чем вдвое превосходит результаты базовых моделей, показывающих около 50%.

В представленной работе AdaReasoner прослеживается стремление не к созданию жестко заданных систем, а к формированию адаптивной экосистемы инструментов. Авторы демонстрируют, как, подобно естественному отбору, можно обучать модели выбирать оптимальные инструменты для решения задач визуального рассуждения. В этом контексте, слова Винтона Серфа приобретают особую актуальность: «Интернет — это не просто сеть компьютеров, это сеть людей». Аналогично, AdaReasoner — это не просто набор алгоритмов, а взаимосвязанная сеть инструментов, способная к эволюции и самосовершенствованию, особенно в контексте работы с данными траекторий и обеспечении обобщения результатов.
Что дальше?
Представленная работа, как и любая попытка обуздать сложность, лишь обнажает глубину нерешенных вопросов. Создание адаптивной системы оркестровки инструментов — это не победа над неопределенностью, а признание её неизбежности. Каждый новый инструмент, добавленный в арсенал, не приближает к идеальному решению, а лишь множит потенциальные векторы отказа. И в этом — её жизнь.
Поиск обобщающих способностей, столь желанный для исследователей, рискует превратиться в погоню за призраком. Система, которая идеально справляется со всеми задачами, лишена способности к саморазвитию, к спонтанному появлению нового. Она — мертва. Вместо того чтобы стремиться к универсальности, возможно, стоит сосредоточиться на создании систем, способных изящно и предсказуемо рушиться.
Будущие исследования должны быть направлены не на оптимизацию существующих инструментов, а на создание механизмов для регистрации и анализа точек отказа. Не на предотвращение ошибок, а на их осмысление. Ибо именно в моменты сбоя система раскрывает свою истинную архитектуру, свою уязвимость, свою красоту.
Оригинал статьи: https://arxiv.org/pdf/2601.18631.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Сердце музыки: открытые модели для создания композиций
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- LLM: математика — предел возможностей.
- Волны звука под контролем нейросети: моделирование и инверсия в вязкоупругой среде
- Динамическая теория поля в реальном времени: путь к квантовым вычислениям
2026-01-28 18:35