Навыки в сети: Как агенты учатся использовать инструменты эффективнее

Автор: Денис Аветисян

Новый подход позволяет интеллектуальным агентам находить и комбинировать навыки для решения сложных задач, используя структуру взаимосвязей между ними.

Граф навыков (GoS) преобразует локальные пакеты навыков в нормализованные записи и типизированные связи посредством оффлайн-индексации, выявляя зависимости через совместимость ввода-вывода и дополняя их связями, основанными на рабочих процессах, семантике и альтернативных подходах, а затем использует этот типизированный ориентированный граф для онлайн-поиска, преобразуя запросы в компактные схемы, формируя комбинированные начальные точки на основе семантического и лексического поиска, применяя алгоритм Personalized PageRank с учетом обратных связей и, наконец, возвращая оптимальный пакет исполняемых действий после переранжирования и гидратации.

Представлена методика Graph of Skills (GoS) для зависимого структурного поиска навыков в больших языковых моделях и агентах, использующих инструменты.

В современных агентах, использующих навыки для решения сложных задач, увеличение масштаба библиотек навыков неизбежно приводит к проблемам с контекстным окном и снижению эффективности. В работе ‘Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills’ предложен метод Graph of Skills (GoS), который представляет собой структурный слой поиска навыков, позволяющий извлекать функционально полные наборы навыков с учетом их зависимостей. Эксперименты на SkillsBench и ALFWorld показали улучшение средней награды на 43.6% при одновременном снижении количества входных токенов на 37.8%, причем метод демонстрирует обобщающую способность на различных моделях. Не откроет ли этот подход новые возможности для создания более эффективных и масштабируемых агентов, способных справляться с еще более сложными задачами?

Пределы Масштаба: Рассуждения в Агентных Системах

Современные агенты, основанные на больших языковых моделях, демонстрируют впечатляющие возможности в решении сложных задач, однако их функциональность ограничена размером контекстного окна — объема текста, который модель способна обработать одновременно. Это фундаментальное ограничение влияет на способность агента удерживать в памяти важную информацию, необходимую для долгосрочного планирования и последовательного выполнения задач. Чем сложнее задача и чем больше требуется знаний для ее решения, тем быстрее агент сталкивается с проблемой нехватки «оперативной памяти», что приводит к снижению эффективности и ошибкам. Разработчики активно ищут способы обхода этого ограничения, включая методы сжатия информации, выборочного извлечения релевантных данных и использование внешних баз знаний, чтобы расширить возможности агентов, не жертвуя скоростью и точностью.

Подход, известный как “Vanilla Skills”, заключающийся в прямой загрузке обширной библиотеки навыков в языковую модель-агент, быстро сталкивается с ограничениями, связанными с объемом контекстного окна. Поскольку каждая инструкция и фрагмент информации потребляет определенное количество токенов, попытка вместить слишком много навыков приводит к нехватке ресурсов, необходимых для обработки текущей задачи. Это, в свою очередь, существенно снижает производительность агента, ограничивая его способность эффективно рассуждать и принимать обоснованные решения. Фактически, агент становится перегружен информацией, не имея возможности должным образом использовать все предоставленные инструменты и знания для решения поставленной проблемы.

Эффективное рассуждение, осуществляемое языковыми моделями, неразрывно связано с доступом к релевантным знаниям, однако этот доступ неизбежно сопряжен с компромиссом между объемом запоминаемой информации и скоростью обработки. Чем больше данных необходимо учитывать для принятия обоснованного решения, тем выше потребность в расширенном контекстном окне, что, в свою очередь, увеличивает вычислительные затраты и замедляет процесс. Таким образом, возникает необходимость оптимизации: агенты должны уметь оперативно извлекать наиболее важные сведения, отсеивая избыточную информацию, чтобы поддерживать высокую производительность и избегать перегрузки. Успех в этой области зависит от разработки эффективных механизмов поиска и фильтрации знаний, позволяющих находить баланс между полнотой информации и скоростью принятия решений.

В отличие от простого добавления всех навыков (<span class="katex-eq" data-katex-display="false">Vanilla Skills</span>) или поиска семантически близких (<span class="katex-eq" data-katex-display="false">Vector Skills</span>), Graph of Skills использует структуру связей между навыками для эффективного извлечения необходимых условий и формирования компактного набора для выполнения задачи. — В отличие от простого добавления всех навыков ( $Vanilla Skills$ ) или поиска семантически близких ( $Vector Skills$ ), Graph of Skills использует структуру связей между навыками для эффективного извлечения необходимых условий и формирования компактного набора для выполнения задачи.

Граф Навыков: Структурный Слой Извлечения

Граф навыков (GoS) представляет собой слой извлечения информации, работающий непосредственно во время выполнения (inference time), и призван решить проблемы, возникающие при прямом использовании (exposure) всех доступных навыков. Традиционные подходы, предполагающие активацию всех навыков, неэффективны с точки зрения вычислительных ресурсов и могут приводить к снижению производительности. GoS, в отличие от них, обеспечивает динамический отбор необходимых навыков непосредственно перед использованием, что позволяет оптимизировать процесс выполнения задач и снизить нагрузку на систему. Этот подход особенно актуален в сложных системах, где количество доступных навыков значительно превышает количество необходимых для конкретной операции.

Граф навыков (GoS) представляет навыки и их взаимосвязи в виде структурированного графа, где узлы соответствуют отдельным навыкам. Взаимосвязи между навыками моделируются посредством двух типов ребер: “ребра зависимостей” (Dependency Edges) отражают необходимость одного навыка для выполнения другого, а “ребра рабочего процесса” (Workflow Edges) обозначают последовательность выполнения навыков в рамках определенной задачи. Такое представление позволяет учитывать сложные взаимодействия между навыками, выходящие за рамки простой иерархии, и обеспечивает структурированное описание необходимых компетенций для решения конкретных задач.

Структура графа навыков обеспечивает эффективный отбор необходимых компонентов для выполнения конкретной задачи. Вместо полного перебора всех доступных навыков, система использует связи между ними, представленные в виде графа. Это позволяет идентифицировать и извлекать только те навыки, которые непосредственно связаны с текущей задачей, благодаря использованию ‘ребер зависимости’ и ‘ребер рабочего процесса’. Такой подход значительно снижает вычислительные затраты и время, необходимое для активации нужных навыков, оптимизируя процесс решения задачи и повышая общую производительность системы.

Усиление Извлечения Графовыми Алгоритмами

Система GoS использует алгоритм ‘Personalized PageRank (PPR)’ для выявления дополнительных релевантных навыков, основываясь на структурной значимости узлов в графе знаний. PPR оценивает важность каждого навыка, анализируя связи с другими навыками и присваивая более высокий ранг тем, которые тесно связаны с исходным навыком или запросом. В отличие от стандартного PageRank, PPR учитывает ‘персонализированный’ вес, определяемый исходным навыком, что позволяет выявлять навыки, важные именно в контексте данного запроса или профиля пользователя. Это позволяет расширить набор предлагаемых навыков за счет тех, которые не были явно указаны, но имеют высокую структурную связь с исходными данными, повышая полноту и релевантность ‘Skill Bundles’.

Метод обратного обхода графа (Reverse Graph Traversal) используется для выявления предварительных навыков, необходимых для успешного освоения или применения целевого навыка. Этот процесс заключается в последовательном перемещении по графу навыков в обратном направлении от целевого навыка к его зависимостям. Идентифицированные предварительные навыки затем включаются в состав “наборов навыков” (Skill Bundles), гарантируя, что пользователи получат полный перечень необходимых компетенций. Это особенно важно для сложных навыков, требующих определенной базы знаний и опыта, и позволяет избежать ситуаций, когда пользователь сталкивается с пробелами в своих знаниях при попытке применить целевой навык.

Нормализация навыков представляет собой процесс преобразования исходных, неструктурированных пакетов навыков в стандартизированный формат, необходимый для эффективной интеграции с языковыми моделями (LLM). Этот процесс включает в себя приведение названий навыков к единому регистру, устранение синонимов и вариаций написания, а также категоризацию навыков по иерархической структуре. Стандартизация обеспечивает однозначную интерпретацию навыков LLM-агентами, что позволяет им точно определять необходимые компетенции и успешно формировать «пакеты навыков» (Skill Bundles) для конкретных задач или ролей. Отсутствие нормализации может привести к неточностям в анализе и неоптимальному подбору навыков, снижая эффективность работы LLM.

Альтернативные подходы к поиску релевантных навыков, такие как использование векторных представлений навыков и вычисление семантической близости, обеспечивают высокую скорость обработки и масштабируемость. Однако, в отличие от методов, основанных на графовых алгоритмах, они могут упускать из виду критически важные зависимости между навыками. Векторные модели, фокусируясь на смысловом сходстве, не учитывают структурные связи, необходимые для формирования полных и корректных “наборов навыков”, что может привести к исключению из рассмотрения предварительных или вспомогательных компетенций, необходимых для успешного выполнения задачи.

Влияние на Производительность и Эффективность Агента

Система GoS оптимизирует обработку информации агентами за счет минимизации “стоимости токенов” и соблюдения установленного “бюджета запроса”. Это позволяет агентам эффективно использовать ограниченный объем “контекстного окна” — критически важного ресурса для обработки сложных задач. Ограничивая количество передаваемых данных, GoS предотвращает перегрузку системы и позволяет агенту сосредоточиться на наиболее релевантной информации, необходимой для успешного выполнения поставленной задачи. Такой подход не только повышает скорость обработки, но и расширяет возможности агента по решению более сложных и многогранных проблем, которые ранее были недоступны из-за ограничений ресурсов.

Усовершенствованный процесс отбора навыков демонстрирует существенное повышение эффективности агентов. Исследования показали, что применение данной методики приводит к увеличению средней вознаграждения на 43.6% по сравнению с базовым уровнем, при котором загружаются все доступные навыки. Этот значительный прирост производительности обусловлен более точным соответствием между требуемой задачей и используемыми навыками, что позволяет агентам более эффективно решать поставленные задачи и достигать лучших результатов. Повышенная способность к адаптации и оптимизации действий, благодаря точному выбору навыков, является ключевым фактором успеха данной системы.

Исследования показали, что методика GoS позволяет сократить объем входных токенов на 37.8% по сравнению с полной загрузкой навыков. Это значительное уменьшение напрямую влияет на эффективность работы агентов, поскольку требует меньше вычислительных ресурсов и времени для обработки информации. Сокращение объема входных данных не только снижает стоимость обработки, но и позволяет агентам быстрее реагировать на запросы и более эффективно использовать доступное контекстное окно. Таким образом, GoS оптимизирует процесс извлечения и применения навыков, обеспечивая существенную экономию ресурсов и повышая общую производительность системы.

Система GoS не ограничивается собственной функциональностью, а легко интегрируется с обширными хранилищами навыков, формируя масштабируемую экосистему для обмена знаниями и повторного использования. Это позволяет агентам получать доступ к постоянно расширяющемуся набору компетенций, не требуя их дублирования или перепрограммирования. Такая архитектура способствует коллективному обучению и повышению эффективности, поскольку новые навыки, разработанные и протестированные в рамках одной системы, могут быть оперативно внедрены во все подключенные агенты. В результате, создается динамичная среда, в которой знания циркулируют и накапливаются, обеспечивая постоянное улучшение производительности и адаптивности агентов к новым задачам и условиям.

За Пределами Текущих Ограничений: Перспективы Развития

В будущем планируется изучение так называемых “Альтернативных Связей” — нового подхода к выявлению взаимозаменяемых стратегий в рамках системы навыков. Исследователи стремятся создать механизм, позволяющий идентифицировать различные способы достижения одной и той же цели, что существенно оптимизирует процесс выбора наиболее подходящего навыка для конкретной задачи. Предполагается, что использование этих альтернативных связей позволит системе не просто находить навыки, но и предлагать равноценные варианты, учитывая контекст и предпочтения пользователя. Такой подход открывает возможности для создания более гибких и адаптивных систем обучения и автоматизации, способных эффективно решать широкий спектр задач, даже при ограниченных ресурсах или неполной информации.

Расширение “семантических связей” внутри графа навыков позволяет значительно улучшить обнаружение взаимосвязанных умений, основываясь на их смысловом содержании. Вместо простой констатации последовательности действий, система сможет выявлять навыки, объединенные общей концепцией или принципом. Например, освоив базовые принципы работы с одним типом программного обеспечения, пользователь получит рекомендации по схожим программам, даже если конкретные команды отличаются. Это достигается за счет анализа не только формальных характеристик навыков, но и их описаний, контекста применения и связанных знаний, что позволяет системе предлагать более релевантные и полезные рекомендации, выходящие за рамки предсказуемых комбинаций. Такой подход открывает возможности для формирования более гибких и адаптивных образовательных траекторий и повышения эффективности обучения.

Интеграция графа навыков с динамическими системами обучения открывает путь к созданию саморазвивающейся интеллектуальной экосистемы. Вместо статической структуры, граф навыков сможет адаптироваться к меняющимся потребностям и новым данным, поступающим от обучающихся. Такая система не просто хранит информацию о навыках, но и активно учится, выявляя скрытые взаимосвязи и предсказывая, какие навыки будут востребованы в будущем. По мере освоения новых навыков и появления новых областей знаний, граф будет автоматически расширяться и перестраиваться, обеспечивая актуальность и точность рекомендаций. В результате формируется не просто база данных, а динамически развивающаяся модель компетенций, способная поддерживать непрерывное обучение и развитие на протяжении всей жизни.

Исследование демонстрирует, что простого перечисления навыков недостаточно для эффективной работы агентов. Авторы предлагают рассматривать навыки не как изолированные единицы, а как элементы сложной взаимосвязанной системы, что находит отклик в словах Джона фон Неймана: «Если вы говорите, что можете решить любую проблему, значит, вы не понимаете ни проблему, ни решение.». Подобно тому, как GoS конструирует граф навыков, выявляя зависимости и функциональные связи, фон Нейман подчеркивает необходимость глубокого понимания взаимосвязей внутри любой сложной системы. Использование структурного поиска в GoS, акцентирующее внимание на взаимосвязанности навыков, является практическим воплощением этой идеи — недостаточно знать отдельные компоненты, важно понимать, как они работают вместе для достижения общей цели. Этот подход позволяет агентам не просто находить навыки, но и собирать функционально полные комплексы, что значительно повышает их эффективность.

Что дальше?

Представленный подход к построению графа навыков, безусловно, открывает новые возможности для агентов, работающих с большими языковыми моделями. Однако, стоит задаться вопросом: а не является ли сама концепция “навыка” — это лишь удобная иллюзия, навязанная человеческим восприятием? Поиск функционально завершенных “связок” навыков может оказаться бесконечным циклом, если не признать, что истинная компетентность заключается в способности к импровизации, а не в заранее определенных шаблонах.

Очевидным направлением для дальнейших исследований является преодоление ограничений, связанных с созданием и поддержанием графа навыков. Автоматическое извлечение навыков из неструктурированных данных, адаптация к меняющимся условиям и учет контекста — задачи, требующие не просто улучшения существующих алгоритмов, но и переосмысления самой парадигмы представления знаний. Если «баг» в системе — это не ошибка, а сигнал о неполноте модели, то, возможно, истинный прорыв произойдет, когда мы научим агентов распознавать и использовать эти «сигналы» для самообучения.

Наконец, важно помнить, что создание “умного” агента — это не просто техническая задача, но и философский вызов. Сможем ли мы создать систему, способную к действительно творческому решению проблем, или же мы обречены на создание все более сложных инструментов, имитирующих интеллект, но лишенных подлинной осознанности? Ответ на этот вопрос, возможно, лежит не в области машинного обучения, а в области понимания самой природы разума.

Оригинал статьи: https://arxiv.org/pdf/2604.05333.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-12 11:19

🚀 Квантовые новости