Разумный поиск: Обучение агентов знаниям с подкреплением

Автор: Денис Аветисян


Новый подход к созданию интеллектуальных агентов, способных к глубокому осмыслению информации и эффективному поиску знаний, представлен в данной работе.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Обучение с подкреплением демонстрирует превосходство над дистилляцией SFT в задачах обобщения, обеспечивая более устойчивую работу вне области тренировочных данных, в то время как дистилляция SFT, хоть и выигрывает от вычислительных ресурсов на этапе тестирования в привычной среде, показывает незначительное улучшение при переходе к новым условиям (59.4→59.6), в отличие от KARL, который демонстрирует стабильный прогресс в обоих режимах.
Обучение с подкреплением демонстрирует превосходство над дистилляцией SFT в задачах обобщения, обеспечивая более устойчивую работу вне области тренировочных данных, в то время как дистилляция SFT, хоть и выигрывает от вычислительных ресурсов на этапе тестирования в привычной среде, показывает незначительное улучшение при переходе к новым условиям (59.4→59.6), в отличие от KARL, который демонстрирует стабильный прогресс в обоих режимах.

Исследование представляет KARL — агента, обученного с подкреплением для обоснованного рассуждения, и KARLBench — комплексную платформу для оценки возможностей таких агентов.

Несмотря на значительный прогресс в области искусственного интеллекта, создание надежных агентов для поиска и обработки информации, способных к обоснованному рассуждению, остается сложной задачей. В данной работе представлена система ‘KARL: Knowledge Agents via Reinforcement Learning’, предназначенная для обучения агентов поиска на основе обучения с подкреплением, демонстрирующая передовые результаты в широком спектре сложных задач. Разработанный подход позволяет создавать агентов, превосходящих существующие модели, такие как Claude 4.6 и GPT 5.2, по ключевым показателям качества и эффективности, благодаря использованию синтетических данных и многозадачного обучения. Можно ли, используя подобные методы, создать действительно универсальных интеллектуальных помощников, способных эффективно решать широкий круг задач в реальных условиях?


Преодолевая Границы Обоснованного Мышления

Современные языковые модели, несмотря на впечатляющие успехи в генерации текста, часто испытывают трудности при решении сложных задач, требующих доступа к внешним знаниям. Это связано с тем, что модели, обученные на огромных массивах данных, склонны полагаться на статистические закономерности, а не на фактическое понимание информации. В результате, при столкновении с вопросами, требующими специализированных знаний или контекста, модели могут генерировать неточные или вымышленные ответы — так называемые “галлюцинации”. Особенно остро эта проблема проявляется в задачах, где требуется не просто воспроизвести информацию, а логически рассуждать и делать выводы на ее основе, демонстрируя недостаток способности к обоснованному мышлению и надежной интеграции внешних данных.

Традиционные методы извлечения информации часто оказываются узким местом в процессе рассуждений, особенно когда требуется тонкое понимание контекста. Суть проблемы заключается в том, что системы, полагающиеся на простой поиск по ключевым словам или заранее заданным шаблонам, не способны оперативно предоставлять наиболее релевантные данные в нужный момент. Вместо этого, они могут выдавать большое количество информации, среди которой сложно выделить действительно важные факты, или же, наоборот, упускать ключевые детали, необходимые для точного анализа. Это приводит к тому, что даже при наличии обширной базы знаний, система не может эффективно использовать ее для решения сложных задач, требующих не просто поиска фактов, а их интерпретации и применения в конкретной ситуации. Таким образом, неспособность своевременно предоставить правильную информацию является серьезным препятствием на пути к созданию систем, способных к осмысленному и надежному рассуждению.

Улучшение логических способностей модели привело к значительному повышению эффективности поиска: если в первых итерациях (GLM 4.5 Air, KARL Iter. 1) требовалось в среднем 91 поиск для получения всех необходимых документов, то в последней итерации (KARL Iter. 2) это число снизилось до 32, при этом точность ответов возросла с 53% до 71%, что свидетельствует о значительном сокращении количества избыточных поисков при неверных ответах (со 134.0 до 56.5).
Улучшение логических способностей модели привело к значительному повышению эффективности поиска: если в первых итерациях (GLM 4.5 Air, KARL Iter. 1) требовалось в среднем 91 поиск для получения всех необходимых документов, то в последней итерации (KARL Iter. 2) это число снизилось до 32, при этом точность ответов возросла с 53% до 71%, что свидетельствует о значительном сокращении количества избыточных поисков при неверных ответах (со 134.0 до 56.5).

KARL: Агент, Обученный Рассуждать

KARL — это агент, работающий с знаниями и обученный с использованием обучения с подкреплением для выполнения обоснованного рассуждения при решении широкого спектра поисковых задач. В отличие от традиционных систем, KARL способен динамически адаптироваться к различным задачам, используя полученный опыт для оптимизации процесса поиска и принятия решений. Обучение агента направлено на достижение высокой эффективности в ситуациях, требующих анализа и синтеза информации из различных источников, что позволяет ему успешно решать задачи, выходящие за рамки заранее определенных правил или шаблонов.

Для эффективной работы с большими объемами информации KARL использует механизм векторного поиска для извлечения релевантных документов из базы знаний. Этот механизм позволяет быстро находить информацию, наиболее подходящую для текущей задачи. Для управления длительными историями взаимодействия и предотвращения перегрузки контекста, KARL применяет методы сжатия контекста, что позволяет сохранять только наиболее важную информацию из предыдущих шагов рассуждений и поддерживать эффективность агента при решении сложных задач.

Оптимизация обучения агента KARL осуществляется посредством алгоритма Optimal Advantage-based Policy Optimization с запаздывающим выводом (OAPL). Данный алгоритм, являющийся разновидностью алгоритмов на основе политик, направлен на повышение эффективности использования данных за счет оценки преимуществ действий на основе накопленных вознаграждений и последующей оптимизации политики. Задержка вывода (Lagged Inference) позволяет агенту учитывать информацию из предыдущих состояний, улучшая контекстное понимание и, как следствие, снижая потребность в большом количестве обучающих примеров для достижения стабильной производительности. Это особенно важно для задач, требующих сложных рассуждений и длительных последовательностей действий.

Масштабирование параллельного мышления демонстрирует, что обучение с подкреплением позволяет KARL последовательно превосходить GLM 4.5 Air на всех тестах KARLBench, обеспечивая прирост от +1.9 (FinanceBench) до +5.9 (TREC-Biogen) при <span class="katex-eq" data-katex-display="false">N=20</span> и сохраняя преимущества обобщения, наблюдаемые в настройке с единичным прогоном.
Масштабирование параллельного мышления демонстрирует, что обучение с подкреплением позволяет KARL последовательно превосходить GLM 4.5 Air на всех тестах KARLBench, обеспечивая прирост от +1.9 (FinanceBench) до +5.9 (TREC-Biogen) при N=20 и сохраняя преимущества обобщения, наблюдаемые в настройке с единичным прогоном.

KARLBench: Комплексная Оценка Способностей

Комплексная оценка производительности KARL осуществлялась с использованием KARLBench — многофункционального оценочного пакета, предназначенного для анализа обоснованного рассуждения. KARLBench включает в себя широкий спектр задач, разработанных для проверки способности модели к логическому выводу, основанному на предоставленных данных и внешних источниках информации. Оценочный пакет позволяет провести всестороннее тестирование KARL в различных сценариях, выявляя сильные и слабые стороны модели в контексте обоснованного принятия решений и анализа информации.

Тестовый набор KARLBench включает в себя задачи, предназначенные для оценки различных аспектов рассуждений. BrowseComp-Plus проверяет способность к поиску информации с учетом заданных ограничений. QAMPARI оценивает эффективность при выполнении исчерпывающего поиска по заданным критериям. FinanceBench предназначен для оценки возможностей модели в работе с длинными финансовыми документами и извлечении релевантной информации из них.

Результаты тестирования демонстрируют высокую производительность KARL на различных бенчмарках. В частности, KARL показал сильные результаты в задачах процедурного рассуждения на FreshStack, агрегации фактов на PMBench и синтеза сложных отчетов на TREC-Biogen. В этих тестах KARL достиг парето-оптимальности по сравнению с моделями Claude и GPT, что означает, что не существует других моделей, которые одновременно превосходили бы KARL по всем рассматриваемым метрикам производительности.

Модель KARL демонстрирует превосходные компромиссы между стоимостью, задержкой и качеством на KARLBench, превосходя Sonnet 4.6 и достигая результатов, сопоставимых с Opus 4.6, при использовании всего лишь десяти параллельных прогонов.
Модель KARL демонстрирует превосходные компромиссы между стоимостью, задержкой и качеством на KARLBench, превосходя Sonnet 4.6 и достигая результатов, сопоставимых с Opus 4.6, при использовании всего лишь десяти параллельных прогонов.

Параллельное Мышление: Эффективность в Действии

В основе работы KARL лежит принцип параллельного мышления, позволяющий системе одновременно исследовать множество различных путей рассуждений. Вместо последовательного анализа каждого варианта, KARL активирует несколько линий доказательств параллельно, что значительно ускоряет процесс поиска оптимального решения. Этот подход имитирует человеческую способность к многозадачности и позволяет избежать зацикливания на неперспективных направлениях. Параллельное исследование альтернативных стратегий позволяет KARL быстро оценивать их эффективность и сосредотачиваться на наиболее перспективных, тем самым значительно повышая скорость и точность решения сложных задач.

Для повышения эффективности поиска решений, система KARL использует стратегию, ориентированную на ценность (value-guided search). Этот подход позволяет ей не просто перебирать возможные варианты, а активно оценивать и приоритизировать наиболее перспективные “развертки” (rollouts) — последовательности действий, ведущие к потенциальному ответу. Благодаря этому, вычислительные ресурсы направляются на исследование наиболее многообещающих путей, значительно сокращая общие затраты и время, необходимое для нахождения оптимального решения. В результате, система избегает бесполезного анализа заведомо неэффективных сценариев, концентрируясь на тех, которые с наибольшей вероятностью приведут к успеху.

Система KARL демонстрирует впечатляющую эффективность благодаря использованию параллельных стратегий поиска, что позволило достичь 23.7%-ного показателя успешной агрегации результатов. Этот показатель значительно превосходит точность любого отдельного прогона модели, указывая на способность системы синтезировать более надежные и обоснованные ответы. Особенно важно, что подобный подход делает KARL пригодным для использования в условиях ограниченных вычислительных ресурсов, где оптимизация скорости и точности имеет первостепенное значение. Использование агрегированных результатов, полученных параллельным анализом, позволяет эффективно решать сложные задачи, требующие высокой степени уверенности в принимаемых решениях.

Модель KARL демонстрирует улучшение разнообразия поиска документов в задачах BrowseComp-Plus (+37%) и TREC-Biogen (+8%) по мере обучения с подкреплением.
Модель KARL демонстрирует улучшение разнообразия поиска документов в задачах BrowseComp-Plus (+37%) и TREC-Biogen (+8%) по мере обучения с подкреплением.

Агентный Синтез и Перспективы Развития

Для повышения эффективности обучения модели KARL была разработана система «Агентный синтез» — комплексный конвейер, осуществляющий динамический поиск и отбор данных из обширных корпусов. В отличие от традиционных методов, использующих статичные наборы данных, «Агентный синтез» способен самостоятельно формировать разнообразные обучающие примеры, ориентируясь на текущие потребности модели. Этот подход позволяет KARL не просто запоминать шаблоны, но и обобщать полученные знания, что критически важно для успешного решения сложных задач и адаптации к новым условиям. Самостоятельное формирование обучающих данных значительно расширяет возможности модели и способствует повышению её устойчивости к различным видам входных данных.

Обучение модели KARL значительно улучшается благодаря возможности извлекать уроки из разнообразных примеров, что, в свою очередь, повышает её способность к обобщению. Вместо того чтобы ограничиваться фиксированным набором данных, система активно исследует различные корпуса текстов, выявляя и используя примеры, которые могут быть релевантны для поставленной задачи. Этот подход позволяет KARL не просто запоминать конкретные сценарии, но и формировать более глубокое понимание принципов, лежащих в их основе, что позволяет успешно применять полученные знания к новым, ранее не встречавшимся ситуациям. Благодаря расширенному опыту, модель демонстрирует повышенную устойчивость к изменениям в данных и более эффективно справляется со сложными и неоднозначными задачами.

В дальнейшем планируется расширение функциональных возможностей KARL для решения задач повышенной сложности, включая освоение областей, требующих более глубокого понимания контекста и абстрактного мышления. Исследователи также намерены изучить потенциал интеграции KARL с другими искусственными интеллектами и системами, что позволит создать более мощные и универсальные инструменты для обработки информации и принятия решений. Особое внимание будет уделено разработке механизмов для эффективного обмена знаниями между различными ИИ-агентами, что откроет новые возможности для совместной работы и решения комплексных задач, недоступных для отдельных систем.

В ходе двух итераций обучения KARL, обработка данных для BrowseComp-Plus и TREC-Biogen включает в себя дедупликацию синтетических вопросов и ответов, генерацию восьми вариантов решения (rollouts) с последующей классификацией как полностью решенных, частично решенных или нерешенных, при этом частично решенные решения могут быть дополнительно отфильтрованы для повышения качества и использованы в процессе обучения с подкреплением.
В ходе двух итераций обучения KARL, обработка данных для BrowseComp-Plus и TREC-Biogen включает в себя дедупликацию синтетических вопросов и ответов, генерацию восьми вариантов решения (rollouts) с последующей классификацией как полностью решенных, частично решенных или нерешенных, при этом частично решенные решения могут быть дополнительно отфильтрованы для повышения качества и использованы в процессе обучения с подкреплением.

Исследование, представленное в данной работе, демонстрирует стремление к созданию систем, способных не просто обрабатывать информацию, но и рассуждать, опираясь на полученные знания. Этот подход, воплощенный в агенте KARL, подчеркивает важность адаптации и обучения в динамичной среде. Как заметил Г.Х. Харди: «Математика — это наука о бесконечном». В контексте KARL, бесконечность эта проявляется в потенциале агента к постоянному обучению и совершенствованию навыков рассуждения, опираясь на векторный поиск и контекстное сжатие, что позволяет ему эффективно решать разнообразные поисковые задачи, представленные в KARLBench. Системе свойственно стареть, но в данном случае, стремление к адаптации и самосовершенствованию позволяет KARL оставаться актуальным и эффективным инструментом.

Что дальше?

Представленная работа, безусловно, демонстрирует впечатляющий прогресс в создании агентов, способных к осмысленному поиску и синтезу знаний. Однако, стоит помнить, что любая система, даже самая сложная, подвержена старению. Улучшение показателей на текущих бенчмарках — это лишь отсрочка неизбежного, а не победа над временем. Вопрос не в том, насколько хорошо система решает задачи сегодня, а в том, как она адаптируется к задачам, которые возникнут завтра.

Очевидным направлением для дальнейших исследований представляется переход от оценки способности агента к решению конкретных задач к оценке его способности к самообучению и эволюции. Создание бенчмарков, имитирующих реальную динамику информации и требующих от агента постоянной адаптации к меняющимся условиям, представляется задачей куда более сложной, но и более значимой. Ведь стабильность, которую мы наблюдаем сейчас, может оказаться лишь задержкой катастрофы, вызванной внезапным изменением контекста.

В конечном счете, истинный прогресс в области интеллектуальных агентов заключается не в создании более эффективных инструментов поиска, а в создании систем, способных к осмыслению своей собственной конечности. Систем, которые понимают, что время — это не метрика, а среда, в которой они существуют, и что их задача — не просто решить задачу, а достойно прожить свою жизнь.


Оригинал статьи: https://arxiv.org/pdf/2603.05218.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-06 20:59