Автор: Денис Аветисян
Новый подход позволяет агентам искусственного интеллекта самостоятельно развивать как стратегию принятия решений, так и набор используемых навыков, значительно повышая их эффективность в сложных задачах.
В статье представлена платформа COS-PLAY, использующая совместную эволюцию языковой модели и динамически обновляемого банка навыков, полученных в процессе обучения с подкреплением.
Долгосрочное взаимодействие со сложными средами требует от агентов не только планирования, но и эффективного использования накопленных навыков. В данной работе, посвященной теме ‘Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks’, предложен фреймворк COSPLAY, реализующий совместную эволюцию агента, принимающего решения на основе больших языковых моделей (LLM), и динамически обновляемого банка навыков. Эксперименты в игровых средах показали, что COSPLAY позволяет значительно повысить эффективность LLM в задачах с долгосрочным горизонтом планирования, улучшая среднюю награду более чем на 25%. Сможет ли подобный подход к организации навыков и принятию решений приблизить нас к созданию действительно автономных и обучающихся агентов?
Вызов Долгосрочного Планирования
Традиционные алгоритмы обучения с подкреплением часто сталкиваются с серьезными трудностями при решении задач, требующих долгосрочного планирования. Суть проблемы заключается в так называемой «задержке вознаграждения» — когда результат действий агента становится очевидным лишь спустя значительное время. Это затрудняет установление связи между конкретными действиями и полученным результатом, поскольку алгоритму сложно определить, какие именно шаги привели к успеху или неудаче. В результате, процесс обучения замедляется, а агенту становится сложно оптимизировать свою стратегию для достижения долгосрочных целей. Эффективное решение подобных задач требует разработки новых методов, способных справляться с этой задержкой и правильно оценивать вклад каждого действия в общий результат, что является ключевой проблемой в области искусственного интеллекта.
Для успешной навигации в сложных средах агентам необходима способность к обучению и применению повторно используемых навыков на протяжении длительных временных горизонтов. Вместо того чтобы каждый раз решать задачу с нуля, такие агенты способны разбивать сложные цели на последовательность более простых подзадач, осваивать навыки, необходимые для их выполнения, и затем комбинировать эти навыки для достижения конечной цели. Этот подход, известный как иерархическое обучение с подкреплением, позволяет значительно повысить эффективность обучения и адаптироваться к новым, ранее не встречавшимся ситуациям, поскольку освоенные навыки могут быть перенесены и использованы в различных контекстах. Способность к абстракции и повторному использованию знаний является ключевым фактором, определяющим успешность агента в решении долгосрочных задач, где немедленная обратная связь отсутствует или ограничена.
Выполнение задач, требующих долгосрочного планирования, значительно усложняется из-за неполной осведомленности об окружающей среде и необходимости адаптации к постоянно меняющимся условиям. Агент, действующий в реальном мире, редко имеет доступ ко всей релевантной информации, что требует от него формирования представлений о скрытых состояниях и прогнозирования будущих событий на основе неполных данных. Более того, динамичность окружения, где обстоятельства могут измениться в любой момент, вынуждает агента постоянно переоценивать свои планы и корректировать свои действия. Способность эффективно справляться с неопределенностью и быстро адаптироваться к новым условиям является ключевым фактором успеха в долгосрочных задачах, требующих не только планирования, но и гибкости и устойчивости к внешним воздействиям.
Создание Агента, Основанного на Навыках
В основе нашего подхода лежит агент, управляемый большой языковой моделью (LLM), способный извлекать и применять навыки из заранее сформированного и структурированного «Банка навыков». Этот агент функционирует как центральный координатор, принимающий решения о том, какие навыки следует использовать для достижения поставленной цели. Процесс включает в себя анализ текущей ситуации, поиск в Банке навыков наиболее релевантных протоколов поведения, и последующее их применение для выполнения конкретных подзадач. Такая архитектура позволяет агенту эффективно решать сложные задачи, разбивая их на более простые, решаемые компоненты, представленные в виде готовых навыков.
Банк навыков представляет собой структурированное хранилище повторно используемых протоколов поведения, предназначенных для решения типичных подзадач, возникающих в процессе взаимодействия с окружением. Эти протоколы содержат последовательности действий и логические условия, необходимые для достижения конкретной цели в рамках более сложной задачи. Каждый протокол является самодостаточным модулем, который может быть вызван и выполнен агентом по мере необходимости, обеспечивая возможность компоновки сложных стратегий из простых, проверенных элементов. Формат хранения протоколов стандартизирован для обеспечения совместимости и упрощения процесса извлечения и применения навыков агентом.
Ключевыми компонентами функционирования агента являются механизмы извлечения навыков (Skill Retrieval) и исполнения действий (Action Execution). Процесс извлечения навыков включает в себя анализ текущего состояния среды и задачи, с последующим выбором наиболее подходящего протокола поведения из банка навыков. После извлечения навыка, механизм исполнения действий преобразует протокол в последовательность конкретных действий, выполняемых в среде. Эффективная реализация этих двух компонентов обеспечивает агенту возможность решать сложные задачи путем декомпозиции на более простые подзадачи, для каждой из которых доступно готовое решение в виде навыка.
Динамическое Обнаружение и Совершенствование Навыков
Агент банка навыков (Skill Bank Agent) осуществляет непрерывное обучение и совершенствование навыков посредством проведения серии запусков агентов (agent rollouts) и сегментации траекторий (Trajectory Segmentation). Процесс rollouts заключается в многократном выполнении задач агентами, что позволяет собирать данные о различных стратегиях и их эффективности. Сегментация траекторий анализирует успешные и неуспешные последовательности действий, выявляя ключевые этапы и паттерны, необходимые для формирования и улучшения навыков. Собранные данные используются для обновления и оптимизации моделей навыков, обеспечивая их адаптацию к изменяющимся условиям окружающей среды и повышение общей производительности системы.
В системе используется подход «Контрактного Обучения» для представления навыков в виде структурированных «Контрактов Навыков». Каждый контракт детально описывает предварительные условия (preconditions) для выполнения навыка, ожидаемые эффекты (effects) от его применения, а также ограничения (constraints), определяющие границы допустимого поведения. Такое представление позволяет агенту точно понимать, когда и как применять конкретный навык, а также предвидеть и учитывать возможные последствия, обеспечивая более надежное и предсказуемое поведение в различных ситуациях. Формализация навыков через контракты облегчает процесс обучения и адаптации, позволяя системе эффективно управлять и использовать накопленные знания.
Процессы усовершенствования навыков обеспечивают повышение их качества и эффективности посредством адаптации к изменяющимся требованиям окружающей среды. Это достигается за счет непрерывного анализа результатов выполнения навыков в различных ситуациях и внесения корректировок в их структуру и параметры. Усовершенствование включает в себя оптимизацию условий активации навыка, повышение точности и надежности его выполнения, а также расширение области его применимости. Постоянная адаптация к новым условиям позволяет поддерживать актуальность и эффективность навыков на протяжении всего времени эксплуатации, что критически важно для обеспечения стабильной работы системы в динамичной среде.
Совместная Эволюция для Повышения Эффективности
В рамках разработанной системы совместной эволюции, взаимодействие между агентом, принимающим решения на основе большой языковой модели, и агентом, управляющим базой навыков, направлено на взаимное совершенствование. Этот подход предполагает, что каждый агент, оптимизируясь в процессе обучения, создает более сложные задачи для другого, тем самым стимулируя его к дальнейшему развитию. Подобная динамика позволяет обоим агентам превосходить свои первоначальные возможности, что приводит к существенному повышению общей производительности и эффективности системы. В результате, система способна демонстрировать более сложные и адаптивные стратегии решения задач, превосходящие возможности отдельных агентов, действующих изолированно.
В рамках разработанной системы, одновременное обучение агента, принимающего решения, и банка навыков осуществляется посредством алгоритма групповой относительной оптимизации стратегий. Этот подход создает замкнутый цикл обучения, в котором улучшения одного агента напрямую влияют на производительность другого. В процессе тренировки, оба агента адаптируются к изменяющимся стратегиям друг друга, что позволяет им совместно достигать более высоких результатов. В отличие от последовательного обучения, когда один агент обучается, а затем используется для тренировки другого, данная методика позволяет агентам развиваться в тандеме, что значительно ускоряет процесс обучения и способствует появлению более эффективных стратегий решения задач.
Использование LoRA адаптеров и контролируемой тонкой настройки значительно повысило эффективность и производительность обеих агентов в рамках разработанной системы. Данный подход позволил добиться среднего улучшения вознаграждения на 25.1% по сравнению с моделью GPT-5.4 в одиночных играх. LoRA адаптеры, благодаря своей параметрической эффективности, сократили вычислительные затраты на обучение, а контролируемая тонкая настройка обеспечила более точную адаптацию к конкретным задачам, что в совокупности привело к значительному превосходству в игровых сценариях и продемонстрировало потенциал данного метода для дальнейшей оптимизации интеллектуальных агентов.
К Повторно Используемому Интеллекту
В отличие от традиционных, монолитных агентов, испытывающих трудности в адаптации к меняющимся условиям, данная разработка делает акцент на формировании повторно используемых навыков. Такой подход позволяет системе не просто решать конкретную задачу, но и накапливать опыт, который может быть применен в новых, ранее не встречавшихся ситуациях. Вместо создания отдельных агентов для каждого сценария, система овладевает набором базовых навыков, которые комбинируются и совершенствуются по мере необходимости. Это обеспечивает повышенную гибкость и эффективность, позволяя агенту быстро адаптироваться к динамичной среде и демонстрировать производительность, сопоставимую с передовыми моделями, такими как GEMINI-3.1-PRO и GPT-OSS-120B, а в некоторых случаях и превосходить их.
Способность к обучению и совершенствованию навыков позволяет данной системе адаптироваться к новым сценариям и задачам, демонстрируя производительность, сопоставимую с передовыми моделями, такими как GEMINI-3.1-PRO и GPT-OSS-120B в игре Avalon. В ходе тестирования, отклонение в результатах не превысило одного процента, что свидетельствует о высокой степени эффективности предложенного подхода в условиях динамично меняющейся игровой среды. Такой уровень адаптивности достигается за счет возможности повторного использования и улучшения приобретенных навыков, позволяя системе быстро осваивать новые вызовы и поддерживать конкурентоспособную производительность.
В ходе экспериментов, предложенный подход продемонстрировал превосходство над моделью GEMINI-3.1-PRO в игре Diplomacy, опередив её на 8.8% по показателю Mean Supply Centers. Этот результат свидетельствует о способности разработанной системы эффективно решать сложные, долгосрочные задачи, требующие стратегического планирования и адаптации к меняющимся обстоятельствам. Превосходство в Diplomacy, игре, известной своей политической сложностью и необходимостью прогнозирования действий других игроков, указывает на значительный прогресс в создании интеллектуальных агентов, способных к решению задач, выходящих за рамки простых реакций и требующих глубокого анализа и предвидения.
Представленная работа демонстрирует элегантную простоту в решении сложных задач долгосрочного планирования. COS-PLAY, опираясь на совместную эволюцию агента и банка навыков, избегает ненужной сложности, присущей многим современным системам искусственного интеллекта. Этот подход перекликается с убеждением Андрея Николаевича Колмогорова: «Математика — это искусство видеть невидимое». В данном случае, «невидимым» является потенциал самообучения и адаптации, который раскрывается через динамическое формирование набора навыков. Система, подобно хорошо отлаженному инструменту, фокусируется на главном — эффективном выполнении поставленной задачи, отказываясь от избыточных абстракций и сосредотачиваясь на четкости и ясности алгоритмов.
Что Дальше?
Представленная работа, несмотря на достигнутые результаты, лишь осторожно касается поверхности сложной проблемы долгосрочного планирования. Само по себе объединение больших языковых моделей и динамически формируемых наборов навыков не является панацеей. Скорее, это признание того, что монолитные архитектуры, претендующие на универсальность, обречены на неэффективность. Необходимо осознать: истинный прогресс заключается не в увеличении масштаба, а в элегантном разделении ответственности.
Особое внимание следует уделить проблемам обобщения. Динамически созданные навыки, будучи эффективными в рамках конкретной игровой среды, часто оказываются хрупкими и непереносимыми в другие контексты. Необходимо разработать механизмы для извлечения фундаментальных принципов, лежащих в основе успешных действий, а не просто запоминания последовательностей. В противном случае, мы обречены на бесконечное повторение одних и тех же ошибок, лишь под новым соусом.
И, наконец, стоит задуматься о природе самой «эволюции». Используемые методы, хоть и вдохновлены биологическими принципами, представляют собой лишь упрощенные модели. Истинная эволюция — процесс случайный, непредсказуемый и часто иррациональный. Попытки его искусственного воспроизведения, вероятно, ограничены нашей способностью понимать и контролировать сложность. Ненужное — это насилие над вниманием, и в стремлении к «интеллекту» необходимо помнить об этой простой истине.
Оригинал статьи: https://arxiv.org/pdf/2604.20987.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Согласие роя: когда разум распределён, а ошибки прощены.
- Эволюция под контролем: эксперименты с обучением с подкреплением в генетическом программировании
- Безопасность генерации изображений: новый вектор управления
- Искусственный интеллект в разговоре: что обсуждают друг с другом AI?
- Квантовый импульс для несбалансированных данных
- Сужение данных: Как сохранить суть и повысить эффективность обучения моделей
- Искусственный интеллект: между мифом и реальностью
- Квантовое «восстановление» информации: обращение вспять шума
- Самостоятельные агенты: Баланс безопасности и автономии
- Редактирование изображений по запросу: новый уровень точности
2026-04-24 11:29