Автор: Денис Аветисян
Новый подход к обучению языковых моделей позволяет им эффективнее решать сложные задачи, требующие использования различных инструментов и ресурсов.

В статье представлена платформа Dive, использующая принцип синтеза задач с доказательствами для повышения обобщающей способности моделей и улучшения их производительности в широком спектре сценариев.
Несмотря на успехи в синтезе задач для обучения языковых моделей использованию инструментов, обеспечение устойчивой обобщающей способности при изменении задач и наборов инструментов остается сложной задачей. В работе ‘DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use’ предложен новый подход, DIVE, основанный на генерации разнообразных и верифицируемых задач путем инвертирования порядка синтеза — сначала выполняются действия с реальными инструментами, а затем выводятся соответствующие задачи. Эксперименты показали, что обучение модели Qwen3-8B на данных, сгенерированных DIVE, значительно улучшает ее производительность на девяти обобщающих бенчмарках, демонстрируя превосходство над другими моделями аналогичного размера. Можно ли с помощью контролируемого масштабирования разнообразия задач добиться еще более значительных улучшений в обобщающей способности языковых моделей, использующих инструменты?
Пределы Традиционных Агентов: За Статичным Знанием
Современные языковые модели, несмотря на впечатляющие возможности в обработке и генерации текста, демонстрируют существенные трудности при решении сложных задач, требующих взаимодействия с внешними инструментами. Они превосходно справляются с предсказанием следующего слова или фразы, но сталкиваются с ограничениями при планировании последовательности действий для достижения конкретной цели, особенно в ситуациях, когда необходима верификация информации или применение специализированных ресурсов. Эта проблема обусловлена тем, что модели обучаются на статичных наборах данных и не обладают механизмами для активного сбора новой информации или адаптации к меняющимся условиям окружающей среды. В результате, даже самые мощные модели могут допускать ошибки при использовании инструментов, требующих логического вывода, контекстного понимания или доступа к актуальным данным, что подчеркивает необходимость разработки принципиально новых подходов к построению искусственного интеллекта.
Несмотря на впечатляющий прогресс в увеличении масштаба языковых моделей, фундаментальная проблема — сопоставление знаний с реальным миром и выполнение действий в динамично меняющихся условиях — остается нерешенной. Простое увеличение объема данных и параметров не позволяет моделям полноценно понимать контекст, адаптироваться к новым ситуациям или эффективно взаимодействовать с окружением. Модели, обученные на огромных массивах текста, часто демонстрируют поверхностное понимание, неспособное к применению в практических задачах, требующих активного поиска информации и адаптации к непредсказуемым обстоятельствам. Поэтому, для создания действительно интеллектуальных систем необходим переход к новым архитектурам и методам обучения, фокусирующимся на активном взаимодействии с миром, а не только на пассивном предсказании.
Для эффективного использования инструментов современным агентам необходимо отойти от простой пассивной предсказательности к активному сбору и проверке информации. Вместо того, чтобы полагаться исключительно на предварительно обученные знания, система должна уметь самостоятельно формулировать вопросы, обращаться к внешним источникам, анализировать полученные данные и подтверждать или опровергать свои предположения. Этот переход требует разработки механизмов, позволяющих агенту не просто генерировать ответы, но и активно взаимодействовать с окружающей средой, уточняя и обогащая свои знания в процессе выполнения задачи. Подобный подход, основанный на активном поиске и верификации, открывает путь к созданию более надежных и адаптивных систем, способных решать сложные задачи в динамично меняющихся условиях.

Dive: Доказательный Подход к Агентам, Использующим Инструменты
Dive — это тренировочный фреймворк, который ставит во главу угла сбор обоснованных доказательств посредством выполнения действий с инструментами, в отличие от подходов, полагающихся исключительно на предварительное обучение. Вместо пассивного использования накопленных знаний, Dive активно использует инструменты для взаимодействия с окружающей средой и получения конкретных данных, подтверждающих каждое действие агента. Такой подход позволяет агенту не просто генерировать ответы, а формировать их на основе верифицируемых фактов, полученных в результате целенаправленных операций с инструментами. Это значительно повышает надежность и обоснованность принимаемых решений, снижая зависимость от потенциально неточных или устаревших знаний, заложенных в предварительно обученной модели.
В основе Dive лежит разнообразный “Инструментарий”, состоящий из двух основных категорий инструментов: “Инструменты Поиска” и “Инструменты Обработки”. Инструменты Поиска предназначены для извлечения информации из внешних источников, таких как базы данных, веб-сайты или файлы, предоставляя агенту доступ к необходимым данным для выполнения задачи. Инструменты Обработки, в свою очередь, позволяют агенту анализировать, преобразовывать и структурировать полученную информацию, например, выполняя математические вычисления, форматирование текста или извлечение ключевых сущностей. Комбинация этих двух типов инструментов позволяет Dive решать сложные задачи, требующие как поиска информации, так и её дальнейшей обработки и анализа.
Для улучшения поведения агентов в рамках Dive используются методы обучения с подкреплением на основе обратной связи от человека (SFT) и оптимизация на основе предпочтений (GRPO). SFT позволяет агенту обучаться на примерах желаемого поведения, основанных на выполнении задач и сборе доказательств. GRPO, в свою очередь, используется для ранжирования различных действий агента, выбирая наиболее эффективные и приводящие к надежным результатам, подтвержденным собранными доказательствами. Оба метода нацелены на формирование у агента стратегии принятия решений, основанной на верифицируемых действиях и достоверных данных, а не на предположениях или предустановленных шаблонах.
В основе фреймворка Dive лежит принцип «вывода задач на основе доказательств» (Task Derivation), который обеспечивает прямую связь между каждым действием агента и накопленными данными. Это означает, что перед выполнением какого-либо действия, агент должен предоставить доказательства из собранной информации, обосновывающие необходимость данного шага. Такая методология позволяет не только отслеживать логику принятия решений агентом, но и обеспечивает возможность проверки и аудита каждого действия, повышая общую надежность и предсказуемость поведения системы. Отсутствие связи между действиями и доказательствами автоматически блокирует выполнение операции, гарантируя, что все шаги агента обоснованы и соответствуют имеющимся данным.

Раскрытие Структурного Разнообразия в Рассуждениях
Методология Dive активно способствует повышению структурного разнообразия в поведении агента, что проявляется в расширении спектра используемых паттернов взаимодействия с инструментами. Это достигается за счет стимулирования агента к исследованию различных последовательностей и комбинаций инструментов при решении задач. В результате, агент демонстрирует более гибкое и адаптивное поведение, способное эффективно применять инструменты в различных контекстах и для решения новых, ранее не встречавшихся задач. Такое структурное разнообразие является ключевым фактором для повышения обобщающей способности агента и его устойчивости к изменениям в окружающей среде.
Разнообразие в поведении агента Dive проявляется в структуре его вызовов инструментов, которые визуализируются в виде “графов вызовов инструментов” (Tool-Call Graphs). Анализ этих графов позволяет выделить различные “R/P топологии” — категории, определяемые взаимосвязью между инструментами, используемыми для решения задач. Каждая R/P топология отражает определенную стратегию рассуждений, применяемую агентом при выполнении конкретной задачи или при решении проблем. Идентификация и классификация этих топологий позволяют оценить разнообразие и гибкость используемых агентом методов решения задач, а также понять, как он адаптируется к новым ситуациям.
Разнообразие используемого набора инструментов (Toolset Variety) в процессе обучения является ключевым фактором для повышения способности агента к обобщению и применению к новым, ранее не встречавшимся инструментам и задачам. В ходе обучения агента Dive, использование широкого спектра инструментов позволяет ему изучить различные способы решения задач и формировать более гибкую стратегию выбора и применения инструментов. Это, в свою очередь, способствует развитию способности агента адаптироваться к новым условиям и эффективно использовать инструменты, не включенные в исходный обучающий набор, что подтверждается результатами тестов на обобщающую способность.
Результаты экспериментов демонстрируют, что Dive обеспечивает среднее улучшение на 16.2% по девяти независимым бенчмаркам (OOD — Out-of-Distribution). В процессе итеративного синтеза наблюдается увеличение количества уникальных топологий R/P (Reasoning/Planning) на 341%. Данный показатель свидетельствует о значительном расширении возможностей агента в области рассуждений и планирования, что подтверждает эффективность предложенного подхода к обучению и генерации разнообразных стратегий поведения.

Надежное Обобщение и Влияние на Реальный Мир
Агент Dive демонстрирует значительное улучшение способности к обобщению на задачи, не встречавшиеся в процессе обучения — так называемому ‘OOD Generalization’. Это означает, что система способна успешно справляться с новыми, ранее неизвестными задачами и инструментами, без необходимости дополнительной адаптации. В ходе исследований было установлено, что Dive эффективно применяет полученные знания к совершенно новым сценариям, что свидетельствует о его высокой гибкости и адаптивности. Данное свойство особенно важно для практического применения, поскольку позволяет агенту функционировать в динамичной и непредсказуемой среде, где постоянно возникают новые вызовы и задачи, требующие самостоятельного решения и использования незнакомых инструментов.
Эффективность подхода была подтверждена в ходе тестирования на платформе “Deep Research”, представляющей собой сложный критерий оценки, требующий от агента не просто поиска информации, но и её глубокого анализа и синтеза. Данный бенчмарк специально разработан для проверки способности системы к решению комплексных задач, подразумевающих последовательное получение данных из различных источников и построение на их основе логически обоснованных выводов. Успешное прохождение “Deep Research” демонстрирует способность агента не просто запоминать и воспроизводить информацию, но и применять её для решения новых, ранее не встречавшихся проблем, что является ключевым показателем интеллектуальных возможностей.
Агент демонстрирует выраженные способности к обучению без учителя, что свидетельствует о его потенциале к самостоятельному решению задач. В ходе экспериментов было установлено, что система способна успешно справляться с новыми вызовами, не требующими предварительного обучения на конкретных примерах. Это достигается благодаря способности агента к обобщению полученных знаний и адаптации к незнакомым ситуациям, позволяя ему эффективно применять имеющиеся навыки для достижения поставленных целей даже в отсутствие явных инструкций или предварительной подготовки. Такая автономность в решении проблем подчеркивает перспективность разработки интеллектуальных систем, способных к гибкому и эффективному функционированию в различных условиях.
Исследования демонстрируют, что Dive достигает производительности, сопоставимой с гораздо более крупными моделями, такими как GPT-OSS-120B и Gemini-2.5-Pro, в рамках бенчмарка Toolathlon. Особенно примечательно, что в процессе итеративного синтеза агент значительно расширяет свой арсенал инструментов, увеличивая их количество с 1.89 до 3.15 на задачу. Это свидетельствует о способности Dive к более глубокому и комплексному анализу проблем, а также к эффективному использованию разнообразных ресурсов для их решения. Подобное повышение эффективности в использовании инструментов указывает на потенциал системы для автоматизации сложных рабочих процессов и решения задач, требующих многоаспектного подхода.
Исследование, представленное в статье, демонстрирует, что даже самые передовые системы, использующие инструменты и языковые модели, подвержены старению и требуют постоянной адаптации. Данный подход к синтезу разнообразных задач, основанный на принципах верификации и доказательств, направлен на повышение обобщающей способности систем. Как однажды заметил Дональд Дэвис: «В конечном счете, все системы стареют — вопрос лишь в том, делают ли они это достойно». Эта фраза прекрасно отражает суть работы, ведь представленный фреймворк Dive стремится не просто улучшить текущую производительность, а обеспечить устойчивость и долговечность систем в условиях постоянно меняющейся сложности задач и растущих требований к обобщающей способности.
Куда же дальше?
Представленная работа, как и любой коммит в летописи исследований, фиксирует текущее состояние. Однако, истинная проверка системы — не в её текущей функциональности, а в способности адаптироваться. Рассмотренный подход к синтезу задач, хоть и демонстрирует улучшение обобщающей способности инструментов, поднимает вопрос о природе самой «обобщающей способности». Не является ли это лишь отсрочкой неизбежной специализации, замаскированной под универсальность? Каждый шаг к более сложным задачам неизбежно выявляет новые грани нерешенных проблем, а задержка в их исправлении — это, как известно, налог на амбиции.
Очевидным направлением развития представляется углубленное исследование структурного разнообразия задач. Достаточно ли текущих метрик для оценки истинной сложности и вариативности, или необходимы новые, учитывающие не только синтаксис, но и семантику, контекст и, возможно, даже «интуицию» агента? Важно помнить, что каждый новый уровень сложности требует не только более мощных алгоритмов, но и более изящных методов верификации и отладки.
В конечном итоге, судьба подобных систем определяется не их способностью решать текущие задачи, а их устойчивостью ко времени. Все системы стареют, и вопрос лишь в том, делают ли они это достойно. Поиск путей к долговечности — это не просто техническая задача, но и философский вызов, требующий постоянного переосмысления целей и приоритетов.
Оригинал статьи: https://arxiv.org/pdf/2603.11076.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовые нейросети на службе нефтегазовых месторождений
- Квантовый Переход: Пора Заботиться о Криптографии
- Укрощение шума: как оптимизировать квантовые алгоритмы
- Сохраняя геометрию: Квантование для эффективных 3D-моделей
- Квантовая обработка данных: новый подход к повышению точности моделей
- Квантовая химия: моделирование сложных молекул на пороге реальности
- Квантовые сети для моделирования молекул: новый подход
- Квантовые прорывы: Хорошее, плохое и смешное
- Кватернионы в машинном обучении: новый взгляд на обработку данных
- Квантовые вычисления: от шифрования армагеддона до диверсантов космических лучей — что дальше?
2026-03-13 07:51