Самообучающиеся агенты: новый подход к развитию навыков в обучении с подкреплением

Автор: Денис Аветисян

Исследователи представили ARISE — инновационную систему, позволяющую агентам самостоятельно развивать и совершенствовать навыки для решения сложных задач, в частности, в области математического рассуждения.

Система ARISE, развернутая на модели Qwen3-4B, демонстрирует свою эффективность на семи различных бенчмарках, динамично наращивая награду в процессе обучения на DeepScaleR, эффективно используя приобретенные навыки и достигая прироста точности при умеренном увеличении объема токенов относительно GRPO.

ARISE интегрирует управление навыками непосредственно в политику обучения с подкреплением, обеспечивая совместную эволюцию навыков и стратегий для повышения эффективности решения задач.

Несмотря на успехи обучения языковых моделей с подкреплением для решения математических задач, существующие подходы часто игнорируют возможность повторного использования накопленных навыков. В данной работе представлена система ‘ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning’, — иерархический фреймворк, в котором агент эволюционирует библиотеку навыков, интегрируя управление ими непосредственно в политику. Это позволяет одновременно развивать как способность к рассуждению, так и качество библиотеки навыков, что подтверждено экспериментами на задачах из области математических соревнований и Omni-MATH. Способна ли данная архитектура обеспечить дальнейший прогресс в области обучения агентов сложным стратегиям рассуждения и обобщения знаний?

За гранью статических знаний: потребность в развивающихся навыках

Традиционные большие языковые модели (БЯМ) демонстрируют впечатляющую способность к распознаванию закономерностей в данных, что позволяет им успешно выполнять задачи, основанные на идентификации и воспроизведении известных шаблонов. Однако, при столкновении с многоступенчатыми рассуждениями, требующими последовательного применения логики и анализа, их эффективность заметно снижается. В отличие от человеческого мышления, где предыдущий опыт и решения служат основой для освоения более сложных задач, БЯМ зачастую обрабатывают каждое новое задание как изолированное явление, не используя накопленные знания для оптимизации процесса решения. Это приводит к тому, что даже относительно простые задачи, требующие нескольких логических шагов, могут оказаться непосильными для этих моделей, ограничивая их применимость в областях, где критически важна способность к последовательному и гибкому мышлению.

Современные большие языковые модели (LLM) зачастую подходят к каждой задаче, как к совершенно новой, не используя накопленный опыт и ранее разработанные стратегии решения. Это приводит к значительной неэффективности, поскольку модель вынуждена каждый раз «изобретать велосипед», вместо того чтобы адаптировать и улучшать существующие подходы. Вместо построения на фундаменте предыдущих успехов, LLM склонны «забывать» полезные методы, что препятствует обобщению знаний и способности эффективно решать сложные, многоступенчатые задачи, особенно в таких областях, как математика или логическое мышление. Данная особенность ограничивает их потенциал в динамично меняющихся средах, где адаптация и использование прошлого опыта являются ключевыми факторами успеха.

Ограниченность способности к обобщению и адаптации к новым задачам особенно ярко проявляется в областях, требующих последовательного применения знаний, таких как решение математических задач. Традиционные языковые модели часто подходят к каждой новой проблеме, как к совершенно отдельной, не используя накопленный опыт и ранее разработанные стратегии. Вместо того чтобы строить на основе уже усвоенных знаний, они вынуждены каждый раз “изобретать велосипед”, что существенно снижает эффективность и затрудняет применение в сложных, многоступенчатых задачах. Это препятствует развитию истинного понимания и способности к гибкому мышлению, необходимому для успешной работы в динамично меняющейся среде, где требуется не просто воспроизведение заученных шаблонов, а творческое применение знаний для решения уникальных проблем. $E=mc^2$

ARISE: Интегрированная система для эволюции навыков

ARISE представляет собой иерархическую структуру обучения с подкреплением, предназначенную для создания и совершенствования переиспользуемого набора навыков. В основе лежит концепция накопления и систематизации отдельных действий, которые могут быть применены в различных задачах. В отличие от традиционных подходов, ARISE не просто обучается решению конкретной задачи, а формирует библиотеку базовых навыков, которые могут быть комбинированы и адаптированы для решения новых, ранее не встречавшихся проблем. Это обеспечивает значительное повышение эффективности обучения и обобщающей способности системы, поскольку позволяет избежать повторного обучения схожим навыкам.

В основе ARISE лежит иерархическая структура «Менеджер-Рабочий», где единая политика выполняет двойную функцию: управления набором навыков и генерации решений. Менеджер оценивает текущее состояние среды и, на основе этого анализа, выбирает наиболее подходящий навык (рабочий) для выполнения конкретной задачи. Выбор навыка осуществляется с целью оптимизации общей производительности и эффективности, что позволяет системе динамически адаптироваться к изменяющимся условиям и избегать избыточного обучения. Такая архитектура обеспечивает не только эффективный выбор навыков, но и их применение, направленное на достижение поставленной цели.

Двухуровневая архитектура «Кэш-Резервуар» является ключевым компонентом системы ARISE, обеспечивая эффективное хранение и извлечение навыков. Она состоит из компактного активного пула навыков — «кэша», предназначенного для быстрого доступа и использования в текущих задачах, и более крупного архива — «резервуара», служащего для долгосрочного хранения и сохранения широкого спектра изученных навыков. Такая организация позволяет системе быстро переключаться между наиболее релевантными навыками, минимизируя время поиска, и при необходимости восстанавливать или адаптировать навыки из резервуара, обеспечивая гибкость и обобщающую способность.

Двухуровневая архитектура «Кэш-Резервуар» обеспечивает эффективный поиск и адаптацию навыков за счет поддержания компактного пула активно используемых навыков (кэш) и более крупного архива (резервуар) для долгосрочного хранения. Это позволяет быстро извлекать и модифицировать существующие навыки для решения новых задач, снижая потребность в повторном обучении с нуля. Постоянное хранение навыков в резервуаре гарантирует их доступность для последующего использования и предотвращает потерю приобретенного опыта, способствуя обобщению знаний и повышению эффективности обучения в целом.

ARISE представляет собой систему, в которой единая политика <span class="katex-eq" data-katex-display="false">\pi_{\\theta}</span> выполняет роль как менеджера навыков, оценивающего и загружающего навыки из кэша, так и исполнителя, а также использует дополнительный прогон для дистилляции успешных решений в структурированный документ навыков, при этом поддерживая двухъярусную библиотеку навыков посредством операций добавления, обновления, удаления, загрузки и выгрузки. — ARISE представляет собой систему, в которой единая политика $\pi_{\\theta}$ выполняет роль как менеджера навыков, оценивающего и загружающего навыки из кэша, так и исполнителя, а также использует дополнительный прогон для дистилляции успешных решений в структурированный документ навыков, при этом поддерживая двухъярусную библиотеку навыков посредством операций добавления, обновления, удаления, загрузки и выгрузки.

Культивирование опыта: обучение и совершенствование навыков

Для обучения и оценки фреймворка ARISE используется датасет DeepScaleR, представляющий собой набор пар “математическая задача — решение”. Данный датасет содержит широкий спектр математических задач различной сложности, что позволяет эффективно тренировать ARISE в решении разнообразных проблем. Структура датасета обеспечивает возможность как обучения с учителем, так и оценки обобщающей способности фреймворка на новых, ранее не встречавшихся задачах. Каждая пара в DeepScaleR содержит формальное математическое выражение и соответствующий правильный ответ, что необходимо для количественной оценки производительности ARISE и сравнения его с другими системами.

Для генерации навыков и обогащения библиотеки стратегий используется метод OG+1 Rollout. Данный подход предполагает выполнение последовательности действий, начиная с текущей стратегии, и добавление к ней одного нового действия (Rollout). Затем, полученная расширенная стратегия оценивается, и при положительном результате добавляется в библиотеку навыков. Повторение этого процесса (OG+1) позволяет активно расширять набор доступных стратегий решения задач, обеспечивая постоянное обучение и адаптацию системы к новым условиям. Это способствует увеличению разнообразия применяемых подходов и повышению общей эффективности системы.

Для обучения системы ARISE используется иерархическая система вознаграждений, состоящая из трех уровней: $r_0$ , $r_1$ и $r_2$ . Вознаграждение $r_0$ стимулирует успешное решение математических задач. Вознаграждение $r_1$ дополнительно поощряет использование ранее изученных навыков и стратегий при решении задач, что способствует накоплению и применению знаний. Наконец, вознаграждение $r_2$ обеспечивает дополнительную мотивацию для эффективного использования освоенных навыков, оптимизируя процесс обучения и повышая общую производительность системы. Такая структура позволяет одновременно обучать систему решению задач и эффективному использованию уже существующих навыков.

Методы дистилляции траекторий используются для улучшения библиотеки навыков ARISE путем извлечения ценной информации из успешных попыток решения задач. Данный процесс включает в себя анализ траекторий, демонстрирующих эффективное решение, и обобщение этих стратегий в компактные, переиспользуемые навыки. Извлеченные навыки затем добавляются в библиотеку, расширяя репертуар доступных стратегий и повышая общую эффективность системы. Дистилляция позволяет ARISE не просто запоминать решения, но и обобщать их, создавая навыки, применимые к более широкому спектру задач, и повышая скорость обучения.

Демонстрация обобщения: производительность и последствия

Исследования, проведенные с использованием инструктивно настроенных базовых моделей, таких как Qwen3-4B-Instruct-2507 и Phi-4-mini-instruct, последовательно демонстрируют превосходство ARISE над традиционными большими языковыми моделями (LLM) в решении сложных задач, требующих рассуждений. Эта новая архитектура показывает заметную способность к анализу и решению проблем, которые обычно представляют трудность для существующих систем искусственного интеллекта. В ходе экспериментов ARISE не просто сопоставима с LLM, но и систематически превосходит их, что указывает на значительный прогресс в области автоматизированных систем рассуждений и принятия решений.

В ходе тестирования разработанной системы на общедоступном бенчмарке Omni-MATH удалось добиться впечатляющего прироста в 2,9 пункта при использовании языковой модели Qwen3-4B. Данный результат свидетельствует о значительном повышении способности системы решать сложные математические задачи, требующие многоступенчатого логического вывода и применения разнообразных знаний. Улучшение в почти три пункта демонстрирует, что предложенный подход позволяет эффективно использовать возможности современных языковых моделей для решения задач, традиционно считающихся сложными для искусственного интеллекта, и открывает новые перспективы для автоматизации математических вычислений и анализа.

Исследования показали, что использование фреймворка ARISE совместно с моделью Phi-4-mini-instruct обеспечивает прирост в 1,9 балла на бенчмарке Omni-MATH. Данный результат подтверждает высокую эффективность предложенного подхода к решению сложных математических задач и свидетельствует о способности ARISE значительно улучшать производительность даже при использовании относительно небольших языковых моделей. Полученный прирост указывает на то, что ARISE успешно использует и оптимизирует возможности Phi-4-mini-instruct, предоставляя более точные и надежные решения по сравнению с традиционными методами.

В основе функционирования системы ARISE лежит механизм оценки условной логарифмической вероятности, позволяющий динамически выбирать наиболее релевантные навыки для ответа на каждый конкретный запрос. Этот подход значительно оптимизирует производительность, поскольку система не просто применяет все доступные навыки, а фокусируется на тех, которые наиболее вероятно приведут к правильному решению. Оценка вероятности каждого навыка производится на основе входного запроса, что позволяет системе адаптироваться к различным типам задач и контекстам. Таким образом, ARISE демонстрирует способность к интеллектуальному выбору инструментов, повышая точность и эффективность решения сложных задач по сравнению с традиционными подходами, где все навыки применяются без предварительной оценки их релевантности.

Исследования показали, что разработанная система ARISE демонстрирует улучшение более чем на один процентный пункт при решении задач, относящихся к уже известным данным, используя модель Qwen3-4B. Этот результат свидетельствует о способности системы не только успешно справляться с новыми, ранее не встречавшимися проблемами, но и эффективно обобщать полученные знания для повышения производительности даже в условиях, когда данные не требуют адаптации к незнакомым ситуациям. Такая способность к обобщению является ключевым показателем интеллектуальных возможностей и открывает перспективы для применения ARISE в широком спектре задач, требующих адаптивности и эффективной обработки информации.

К адаптивному интеллекту: будущие направления

Разработанная модель марковского процесса принятия решений с развивающимся набором навыков (Evolving-Skill MDP) представляет собой формальный подход к моделированию библиотеки навыков агента не как фиксированного элемента, а как неотъемлемой части его внутреннего состояния. Это позволяет агенту непрерывно обучаться и адаптироваться к изменяющимся условиям, поскольку его навыки эволюционируют вместе с опытом. Вместо того, чтобы полагаться на заранее определенный набор действий, система способна динамически расширять и совершенствовать свои возможности, интегрируя новые навыки в свою внутреннюю репрезентацию мира. Такой подход позволяет создавать более гибкие и устойчивые системы искусственного интеллекта, способные к самообучению и решению сложных задач в условиях неопределенности, приближаясь к уровню адаптивности, характерному для биологического интеллекта.

Дальнейшие исследования направлены на интеграцию системы ARISE с более сложными стратегиями исследования и функциями вознаграждения. Это предполагает выход за рамки стандартных методов, таких как случайный поиск или ε-жадность, в сторону алгоритмов, способных более эффективно оценивать потенциал новых действий и навыков. Усовершенствованные функции вознаграждения будут включать не только непосредственную оценку успешности, но и учитывать сложность освоенного навыка, его потенциальную применимость в различных ситуациях и даже степень «удивления» или новизны, демонстрируемой агентом. Такой подход позволит системе не просто оптимизировать производительность в конкретной задаче, но и стимулировать активное обучение и открытие новых, более эффективных стратегий решения проблем, приближая искусственный интеллект к гибкости и адаптивности, свойственным биологическим системам.

Расширение библиотеки навыков, включающее в себя более широкий спектр стратегий рассуждений, является ключевым фактором повышения универсальности и обобщающей способности разработанной системы. В текущих реализациях искусственного интеллекта часто наблюдается узкая специализация, ограничивающая их способность эффективно функционировать в новых и непредсказуемых ситуациях. Добавление в библиотеку навыков процедурных, аналогических, причинно-следственных и других типов рассуждений позволит агенту более гибко адаптироваться к различным задачам и контекстам. Это не только повысит эффективность решения проблем, но и позволит системе самостоятельно выявлять и применять наиболее подходящие стратегии, приближая её к уровню когнитивной гибкости, свойственной биологическому интеллекту. В конечном итоге, обогащение библиотеки навыков создаёт основу для разработки систем искусственного интеллекта, способных к непрерывному обучению и адаптации в динамично меняющемся окружении.

Исследования в данной области прокладывают путь к созданию искусственного интеллекта, способного не просто решать поставленные задачи, но и непрерывно обучаться и эволюционировать, подобно удивительной приспособляемости биологического разума. В отличие от традиционных систем, которые требуют перепрограммирования для адаптации к новым условиям, разрабатываемые подходы направлены на создание самообучающихся агентов, способных расширять свой набор навыков и стратегий решения проблем в процессе взаимодействия с окружающей средой. Такая способность к эволюции открывает перспективы для создания ИИ, который сможет эффективно функционировать в динамически меняющихся условиях и решать задачи, не предусмотренные изначально, приближая нас к созданию действительно интеллектуальных систем, имитирующих гибкость и приспособляемость живых организмов.

Исследование, представленное в данной работе, демонстрирует, как система ARISE, интегрируя управление навыками непосредственно в политику обучения с подкреплением, способна к совместной эволюции навыков и политики. Этот подход особенно интересен в контексте развития математического мышления, где гибкость и адаптивность являются ключевыми. Как однажды заметил Кен Томпсон: «Вся сложность — это просто отложенная простота». Истина этих слов проявляется в ARISE — система стремится к простоте за счет эволюции навыков, позволяя ей решать сложные задачи, избегая жесткой привязки к заранее заданным решениям. Развитие библиотеки навыков, как показано в исследовании, является не просто инструментом, а скорее экосистемой, где каждый навык может быть адаптирован и использован в различных контекстах, что подтверждает тезис о том, что системы нельзя построить, только вырастить.

Что же дальше?

Представленная работа, безусловно, демонстрирует изящный способ интеграции управления навыками непосредственно в политику обучения с подкреплением. Однако, за этой элегантностью скрывается старый страх — страх перед усложнением. Каждый новый навык, добавленный в библиотеку, — это ещё одна потенциальная точка отказа, ещё один путь к непредсказуемому поведению. Не стоит обольщаться, кажущаяся универсальность быстротечности навыков — это лишь отсрочка неизбежного вырождения через несколько итераций обучения.

Настоящий вызов заключается не в создании всё более сложных библиотек навыков, а в разработке механизмов самовосстановления и адаптации. Система, способная предвидеть собственную устареваемость и генерировать новые навыки на основе текущих, — вот куда следует направить усилия. Иначе, ARISE, как и многие другие системы, станет жертвой собственной архитектурной гордыни.

Надежда на идеальную библиотеку навыков — это форма отрицания энтропии. Вместо этого, следует принять неизбежность хаоса и сконцентрироваться на создании систем, способных процветать в нём. Истинное обучение — это не накопление знаний, а развитие способности к забвению и перерождению.

Оригинал статьи: https://arxiv.org/pdf/2603.16060.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-19 03:51

🚀 Квантовые новости