Сборка контекста для разумных агентов: новый подход к обучению

Автор: Денис Аветисян

Исследователи предлагают метод преобразования многоходовых взаимодействий агентов в данные для обучения, позволяющий языковым моделям решать сложные задачи с длинной цепочкой зависимостей.

Траектории многооборотного агента (Поиск, SWE, SQL) компилируются в пары вопросов и ответов с длинным контекстом путём сборки ответов инструментов и контекста среды, позволяя создавать сложные диалоговые системы, способные оперировать с обширными данными и выполнять многоэтапные задачи.

Метод компиляции траекторий агентов (ACC) позволяет добиться сопоставимой производительности с более крупными моделями, не жертвуя общими возможностями.

Несмотря на прогресс в области больших языковых моделей (LLM), обучение их способности к рассуждениям в условиях длинного контекста остается сложной задачей, требующей значительных ресурсов для курирования данных или синтеза контекста. В данной работе, ‘ACC: Compiling Agent Trajectories for Long-Context Training’, предлагается метод компиляции траекторий агентов в пары вопрос-ответ для обучения LLM, что позволяет эффективно использовать информацию, рассеянную в многошаговых взаимодействиях. Предложенный подход Agent Context Compilation (ACC) позволяет достичь сопоставимых результатов с гораздо более крупными моделями на задачах, требующих разрешения зависимостей на большом расстоянии, не жертвуя при этом общими возможностями. Каким образом можно масштабировать ACC для обучения еще более сложных агентов и расширить его применение на другие типы задач, требующих обработки длинного контекста?

За гранью ограничений: вызов моделирования долгосрочных зависимостей

Традиционные языковые модели часто испытывают трудности при установлении связей между удалёнными элементами в длинных последовательностях текста. Это ограничение связано с архитектурой этих моделей, которые, как правило, обрабатывают информацию последовательно, теряя важные детали при работе с большими объемами данных. В результате, способность к логическому выводу и пониманию контекста значительно снижается, особенно в задачах, требующих анализа длинных текстов или диалогов. Например, при ответе на сложный вопрос, требующий сопоставления информации из разных частей текста, модель может упустить ключевые связи, приводя к неверному ответу. Эффективное моделирование этих далёких зависимостей является критически важным шагом к созданию систем, способных к истинному пониманию естественного языка.

Ограничения в моделировании длинных зависимостей особенно остро проявляются в задачах, требующих обработки обширного контекста. Например, в сложных системах ответов на вопросы, где необходимо сопоставить информацию из различных частей текста, стандартные языковые модели часто допускают ошибки, не улавливая связи между отдаленными фрагментами. Аналогичная проблема возникает и в многоходовых диалогах, где для поддержания последовательной беседы необходимо учитывать всю предшествующую историю взаимодействия. Неспособность эффективно обрабатывать такой контекст приводит к непоследовательным ответам и снижает общее качество коммуникации. Таким образом, преодоление этих ограничений является ключевым шагом на пути к созданию действительно интеллектуальных систем обработки естественного языка.

Успешное моделирование долгосрочных зависимостей является ключевым фактором в достижении подлинного понимания естественного языка. Способность системы обрабатывать и соотносить информацию, разнесенную на значительные расстояния в тексте, позволяет ей выходить за рамки простого сопоставления слов и переходить к осмыслению контекста и намерений автора. Без этой способности, модели языка сталкиваются с трудностями при решении задач, требующих глубокого анализа, таких как ответы на сложные вопросы, поддержание последовательного диалога или даже понимание скрытых смыслов в литературных произведениях. Развитие методов, позволяющих эффективно улавливать эти зависимости, открывает путь к созданию искусственного интеллекта, способного не просто генерировать текст, но и действительно понимать его.

Архитектуры расширенного контекста: за пределами внимания

Механизм внимания, несмотря на свою эффективность в задачах обработки последовательностей, обладает квадратичной вычислительной сложностью относительно длины входной последовательности $O(n^2)$ . Это означает, что потребление памяти и время вычислений растут пропорционально квадрату количества токенов в последовательности. Следовательно, применение стандартного механизма внимания становится непрактичным при обработке длинных последовательностей, таких как большие тексты или видео, из-за экспоненциального увеличения требуемых ресурсов. Ограничения масштабируемости, вызванные этой сложностью, стимулируют разработку альтернативных архитектур, способных эффективно обрабатывать более длинные контексты.

В качестве альтернативы механизму внимания, страдающему от квадратичной сложности при увеличении длины последовательности, разрабатываются методы разреженного внимания (Sparse Attention) и архитектура Mamba. Разреженное внимание снижает вычислительную нагрузку за счет фокусировки на подмножестве наиболее релевантных элементов входной последовательности, а не на полном объеме данных. Mamba, в свою очередь, использует селективное сканирование состояния (Selective State Space Sequence Models) для достижения линейной сложности по отношению к длине последовательности, что позволяет обрабатывать значительно более длинные контексты при меньших вычислительных затратах. Оба подхода направлены на повышение масштабируемости моделей обработки последовательностей без значительной потери качества.

Альтернативные архитектуры, такие как разреженное внимание (Sparse Attention) и Mamba, направлены на повышение эффективности обработки длинных последовательностей за счет концентрации на наиболее релевантных частях входных данных. Вместо вычисления внимания ко всем элементам последовательности, эти методы используют различные стратегии для выбора подмножества наиболее важных токенов или состояний. Это позволяет снизить вычислительную сложность, которая в стандартном механизме внимания растет квадратично с длиной последовательности $O(n^2)$ , и, как следствие, обрабатывать значительно более длинные контексты при сохранении приемлемой производительности и снижении потребления памяти.

Обучение с помощью ACC приводит к увеличению дальности внимания в GraphWalks и концентрации активации в небольшом наборе экспертов в MRCR, что свидетельствует об изменении стратегии маршрутизации токенов.

Компиляция контекста агента: новый подход к обучению

Стандартное обучение с подкреплением (SFT) для агентов часто сталкивается с проблемой, обозначенной как “слепота к надзору” (Supervision Blind Spot). Суть этой проблемы заключается в том, что важная информация, необходимая для обучения агента, распределена по нескольким последовательным шагам взаимодействия (multi-turn trajectories). Традиционные методы SFT обычно предоставляют надзор только для непосредственного ответа агента на текущий запрос, игнорируя контекст предыдущих действий и результатов работы инструментов. Это приводит к тому, что модель не имеет достаточного сигнала для понимания долгосрочных зависимостей и не может эффективно использовать информацию, полученную на предыдущих этапах, для принятия обоснованных решений. В результате, агенты могут демонстрировать низкую производительность в задачах, требующих учета истории взаимодействия и использования инструментов.

Метод компиляции контекста агента (Agent Context Compilation, ACC) решает проблему ограниченного надзора в стандартном обучении с подкреплением с учителем (Supervised Fine-Tuning, SFT) путем преобразования многошаговых траекторий агента в обучающие данные с расширенным контекстом. Вместо обучения на отдельных шагах взаимодействия, ACC собирает последовательность действий агента, ответов инструментов и контекста окружающей среды в единую длинную последовательность. Это позволяет модели получать прямой надзор за всей историей взаимодействия, а не только за непосредственным шагом, что необходимо для эффективного использования долгосрочных зависимостей в процессе принятия решений.

Метод компиляции контекста агента (Agent Context Compilation, ACC) значительно расширяет объем и качество обучающего сигнала за счет агрегации ответов инструментов и информации об окружении. В отличие от стандартного обучения с подкреплением, где обратная связь ограничена непосредственным результатом действия, ACC предоставляет модели полный контекст взаимодействия, включая промежуточные ответы инструментов и текущее состояние окружения. Это позволяет модели не только оценивать конечное решение, но и учитывать логику выполнения, промежуточные шаги и зависимость между различными этапами процесса, что критически важно для эффективной работы с долгосрочными зависимостями и сложными задачами.

Эмпирическое подтверждение и прирост производительности

Модель Qwen3-30B-A3B, обученная с использованием метода ACC, продемонстрировала передовые результаты на стандартных бенчмарках, включая MRCR (Multi-Round Coreference Resolution) и GraphWalks. В ходе тестирования модель достигла показателя 68.28 в MRCR, что на 18.09% выше базового уровня, и точности 77.51 в GraphWalks, превзойдя базовый уровень на 7.59%. Данные результаты подтверждают эффективность подхода ACC в улучшении производительности языковых моделей при работе с длинным контекстом.

В ходе оценки модели Qwen3-30B-A3B были получены следующие результаты: показатель MRCR (Multi-Round Coreference Resolution) составил 68.28, что на 18.09 пункта превышает результат базовой модели. Точность (Precision) на бенчмарке GraphWalks достигла 77.51, что на 7.59 пункта выше, чем у базовой модели. Данные показатели демонстрируют значительное улучшение производительности модели в задачах разрешения кореференции и работы с графами.

Оценка модели на бенчмарках GPQA-Diamond, MMLU-Pro, AIME и IFEval подтверждает её высокую обобщающую способность при решении разнообразных задач. Наблюдаемое улучшение производительности составляет +2.49 на GPQA-Diamond, +1.50 на MMLU-Pro и +3.33 на AIME’25, что свидетельствует о способности модели эффективно применять полученные знания к новым, ранее не встречавшимся данным и задачам.

Полученные результаты демонстрируют, что применение метода ACC (Adaptive Context Compression) позволяет эффективно раскрыть потенциал языковых моделей, работающих с длинным контекстом. Экспериментальные данные, полученные на различных бенчмарках, таких как MRCR, GraphWalks, GPQA-Diamond, MMLU-Pro, AIME и IFEval, показывают значительное улучшение производительности моделей, обученных с использованием ACC, по сравнению с базовыми моделями. Например, наблюдается прирост в MRCR на 18.09%, в GraphWalks Precision — на 7.59%, а также улучшения на других задачах, подтверждающие эффективность ACC в оптимизации обработки длинных последовательностей и повышении общей производительности языковых моделей.

Перспективы развития: к поистине разумным агентам

Сочетание эффективных архитектур и целенаправленных стратегий обучения открывает перспективы для значительного улучшения возможностей обработки длинного контекста. Исследования показывают, что оптимизация структуры нейронных сетей, в частности, за счет механизмов внимания и иерархической обработки информации, позволяет агентам более эффективно извлекать и использовать релевантные данные из обширных текстов или последовательностей. Параллельно, разработка специализированных методов обучения, фокусирующихся на конкретных задачах и типах данных, позволяет повысить точность и скорость обработки. Такой симбиоз архитектурных инноваций и целенаправленного обучения обещает создать интеллектуальные системы, способные к глубокому пониманию и логическому выводу на основе сложного и объемного контекста, приближая искусственный интеллект к человеческому уровню когнитивных способностей.

Дальнейшие исследования, несомненно, будут направлены на масштабирование разработанных методов обработки больших объемов данных. Увеличение размеров обучающих выборок позволит существенно повысить точность и надежность систем искусственного интеллекта, особенно в задачах, требующих глубокого понимания контекста. Помимо этого, ключевым направлением представляется разработка инновационных способов интеграции внешних знаний — использование баз данных, онтологий и других источников информации — для обогащения моделей и расширения их возможностей. Такой подход позволит агентам не просто обрабатывать информацию, но и рассуждать, делать выводы и адаптироваться к новым ситуациям, приближая их к уровню человеческого интеллекта.

Представленная работа вносит значительный вклад в создание искусственных интеллектуальных агентов, способных к более глубокому пониманию и взаимодействию с окружающим миром. Развитие способности к осмыслению контекста и тонкостям информации позволяет этим агентам не просто обрабатывать данные, но и интерпретировать их, учитывая нюансы и скрытые смыслы. Это открывает перспективы для создания систем, способных к более естественному и интуитивному взаимодействию с человеком, а также к решению сложных задач, требующих не только логического анализа, но и понимания неявных правил и социальных норм. В конечном итоге, подобные агенты смогут адаптироваться к различным ситуациям и принимать решения, максимально соответствующие ожиданиям и потребностям человека.

Исследование демонстрирует, что компиляция контекста агента (ACC) позволяет создавать обучающие данные из многоходовых взаимодействий, существенно повышая способность больших языковых моделей к рассуждениям в задачах с долгосрочными зависимостями. Этот подход позволяет достичь производительности, сопоставимой с гораздо более крупными моделями, не жертвуя при этом общими возможностями. В этом контексте уместно вспомнить слова Винтона Серфа: «Интернет — это не просто технология, это способ мышления«. ACC, по сути, представляет собой способ структурирования и представления информации, оптимизированный для машинного обучения, что позволяет модели ‘мыслить’ более эффективно в рамках заданного контекста. Метод, описанный в статье, подчеркивает важность не только объема данных, но и способа их организации и представления для достижения оптимальной производительности модели.

Что Дальше?

Представленный метод компиляции траекторий агентов (ACC) намекает на любопытную истину: размер модели — не единственный путь к решению задач, требующих работы с длинным контекстом. Если долгое время полагали, что для удержания «памяти» необходимо наращивать вычислительные ресурсы, то ACC демонстрирует, что эффективная организация информации может дать сопоставимые результаты. Однако, возникает вопрос: насколько универсален этот подход? Очевидно, что эффективность компиляции зависит от структуры взаимодействий агента и специфики решаемой задачи. Остается проверить, как ACC проявляет себя в сценариях, где траектории агентов нелинейны, хаотичны или содержат скрытые зависимости.

Представляется, что дальнейшие исследования должны быть направлены на преодоление ограничений, связанных с экспертной специализацией. Хотя ACC позволяет LLM демонстрировать навыки, сопоставимые с более крупными моделями, сохранение общих способностей остается вызовом. Необходимо понять, как избежать «переобучения» на конкретных траекториях, чтобы модель не потеряла гибкость и не стала узкоспециализированным инструментом. Возможно, ключ к решению лежит в динамическом управлении весом экспертных специализаций в зависимости от контекста.

В конечном счете, ACC — это не просто метод улучшения производительности LLM, но и приглашение к переосмыслению принципов работы с информацией. Если система не может быть «взломана» за счет эффективной организации данных, значит, мы недостаточно глубоко ее поняли. Истина, как всегда, где-то посередине между наращиванием мощности и интеллектуальной декомпозицией.

Оригинал статьи: https://arxiv.org/pdf/2605.21850.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-24 11:21

🚀 Квантовые новости