Обучение поисковых систем на опыте «живых» агентов

Автор: Денис Аветисян

Новый подход позволяет улучшить качество поиска, используя данные, сгенерированные взаимодействием интеллектуальных агентов с поисковыми системами.

Длина токенов мыслей, вычисленная по траекториям агента в аналогичной среде, демонстрирует распределение, отражающее влияние действий браузинга на процесс рассуждений.

Исследование предлагает метод обучения систем извлечения информации на основе траекторий агентов, использующих поиск, с применением контрастного обучения и обратной связи о релевантности.

Традиционные системы информационного поиска разрабатывались с учетом поведения человека, однако с появлением агентов, использующих большие языковые модели, эта парадигма требует пересмотра. В работе ‘Learning to Retrieve from Agent Trajectories’ предложен новый подход к обучению систем поиска, использующий данные о взаимодействии агентов с поисковыми системами. Авторы демонстрируют, что обучение на основе траекторий агентов позволяет повысить точность извлечения релевантной информации, улучшить успешность выполнения задач и повысить эффективность работы агентов. Может ли анализ траекторий агентов стать основой для создания самообучающихся систем поиска, способных к непрерывному улучшению?

Пределы Человеко-Ориентированного Поиска

Традиционные поисковые системы в значительной степени опираются на логи кликов, рассматривая их как косвенный показатель релевантности. Однако, подобный подход не способен адекватно отразить сложность информационных потребностей пользователя. Логи кликов фиксируют лишь конечный выбор, игнорируя процесс поиска, изначальные запросы и критическое осмысление полученной информации. В результате, система, обученная на данных о кликах, может выдавать популярные, но не обязательно наиболее подходящие или достоверные результаты, упуская из виду нюансы, требующие глубокого анализа и многоступенчатого рассуждения. Это особенно заметно при решении сложных исследовательских задач, где важна не просто скорость получения информации, а её точность, полнота и соответствие конкретному контексту.

Подход, основанный на анализе кликов, сталкивается с серьезными ограничениями при решении задач, требующих последовательного рассуждения и тонкого понимания контекста. Поскольку алгоритмы опираются на поверхностную оценку релевантности — что пользователи выбрали из предложенных вариантов — они часто не способны обработать сложные запросы, требующие синтеза информации из различных источников или учета скрытых взаимосвязей. Это особенно заметно в случаях, когда для получения ответа необходимо выполнить несколько логических шагов, оценить неоднозначность данных или интерпретировать нюансы языка. В результате, возможности поисковых агентов оказываются существенно ограничены, и они не могут эффективно решать задачи, выходящие за рамки простых информационных запросов, требующих глубокого анализа и критического мышления.

Несмотря на эффективность традиционного, ориентированного на пользователя, поиска при обработке распространенных запросов, его возможности оказываются недостаточными для обучения агентов решению сложных исследовательских задач. Ограничения связаны с тем, что анализ паттернов кликов, хоть и позволяет выявить наиболее популярные ответы, не способен передать нюансы многоступенчатого рассуждения или глубокого понимания предметной области. В отличие от человека, способного самостоятельно формулировать вопросы и оценивать достоверность информации, поисковые агенты, обученные исключительно на основе кликов, часто оказываются неспособны к критическому анализу и синтезу данных, необходимых для решения задач, требующих экспертных знаний и креативного подхода. Таким образом, для развития поисковых систем, способных поддерживать сложные научные исследования, требуются принципиально новые методы обучения, выходящие за рамки анализа поведения пользователей.

Переход в парадигме поиска заключается в смещении фокуса с извлечения информации для людей на извлечение информации для агентов.

Агент-Ориентированный Поиск: Новая Парадигма

Агент-центрический поиск предполагает обучение систем извлечения информации на основе взаимодействий автономных агентов — их “траекторий поиска” — в отличие от традиционных методов, использующих данные о кликах пользователей. Вместо анализа действий людей, система обучается, наблюдая за последовательностью запросов и переходов агента, моделирующего процесс целенаправленного поиска информации. Это позволяет создавать обучающие наборы данных, отражающие сложные рассуждения и стратегии поиска, которые не могут быть получены из простых логов кликов. При этом “траектория поиска” представляет собой упорядоченную последовательность запросов, просмотренных документов и действий агента, направленных на достижение определенной цели.

Традиционные методы создания обучающих наборов данных для систем поиска, основанные на анализе кликов пользователей, часто не отражают сложность когнитивных процессов, предшествующих выбору результата. Подход, использующий взаимодействия автономных агентов, позволяет генерировать наборы данных, документирующие последовательность действий и рассуждений, необходимых для решения задачи. Это особенно важно для запросов, требующих многоэтапного анализа и синтеза информации, поскольку траектории поиска агентов фиксируют не только конечный выбор, но и промежуточные шаги, демонстрирующие логику принятия решений. Такие наборы данных позволяют обучать системы более эффективно оценивать релевантность информации, выходя за рамки простого подсчета кликов и учитывая контекст и сложность запроса.

Наблюдение за целенаправленным поиском информации автономными агентами позволяет получить более полное представление о релевантности, чем просто анализ частоты кликов. Традиционные методы оценки релевантности, основанные на кликах пользователей, часто не отражают истинные намерения и сложность информационного поиска. В отличие от этого, траектории поиска агентов, демонстрирующие последовательность запросов и анализа результатов, предоставляют информацию о процессе рассуждений и критериях оценки, используемых для определения релевантности. Это позволяет выявить более тонкие сигналы релевантности, которые могли бы быть упущены при анализе только конечного результата — клика. В результате, данные, полученные из анализа поисковых траекторий агентов, могут быть использованы для обучения систем поиска, способных более точно соответствовать информационным потребностям пользователей.

Предложенная схема обучения LRAT-извлекателей использует взаимодействие агента с глубоким поиском для извлечения сигналов релевантности, фильтрации нерелевантных документов на основе логических выводов после поиска и последующего контрастного обучения с использованием отфильтрованных выборок и взвешенных оценок релевантности, основанных на длине этих выводов.

Глубокие Исследовательские Агенты: Tongyi и Сила ReAct

Агент глубоких исследований Tongyi-DeepResearch-30B представляет собой мощный инструмент, использующий фреймворк ReAct для итеративного мышления и действий в процессе поиска информации. ReAct (Reason + Act) позволяет агенту чередовать этапы рассуждений (определение следующих шагов) и действий (например, поиск в интернете или чтение документа), что обеспечивает более целенаправленный и эффективный поиск по сравнению с традиционными подходами. Этот итеративный процесс позволяет Tongyi-DeepResearch-30B динамически адаптировать свою стратегию поиска на основе полученных результатов, повышая точность и релевантность извлеченной информации.

Агент Tongyi-DeepResearch-30B после анализа каждого документа формирует подробные “пост-браузинговые цепочки рассуждений”, в которых детально оценивается степень релевантности полученной информации. Эти цепочки представляют собой структурированные записи, описывающие процесс анализа документа, включая выявленные ключевые моменты и аргументы в пользу или против соответствия документа запросу. Оценка интенсивности релевантности производится на гранулярном уровне, позволяя агенту точно определить, насколько информация из конкретного документа способствует достижению цели исследования и обосновать данную оценку.

Для фильтрации и выявления ‘позитивных сигналов’, указывающих на реальное получение новой информации, используется комбинация детальных ‘после-просмотровых следов рассуждений’ и модели LLM, функционирующей как ‘судья’. ‘Судья’ оценивает эти следы, определяя, насколько информация, извлеченная из каждого документа, релевантна и полезна для решения поставленной задачи. Процесс включает анализ логических шагов, предпринятых агентом при обработке документа, и присвоение оценки, отражающей степень информативности и обоснованности полученных выводов. Таким образом, система способна отсеивать документы, не содержащие ценной информации, и фокусироваться на тех, которые действительно способствуют прогрессу в исследовании.

Анализ траекторий поиска в BrowseComp-Plus, где каждая пользовательская задача подкрепляется документами-доказательствами, показывает, что Tongyi-DeepResearcher с использованием Qwen3-Embedding-0.6Bretriever демонстрирует разницу в вероятностях переходов между поиском ([Search]) и просмотром ([Browse]), зависимость точности от количества просмотренных уникальных документов, распределение позиций просмотренных документов по сравнению с человеческими оценками, а также влияние корректности траектории и типа документа на длину последующего рассуждения.

Бенчмаркинг и Эффект Информационного Маховика

Для оценки эффективности предложенного подхода использовались специализированные бенчмарки, такие как BrowseComp-Plus и InfoSeekQA. Эти наборы данных специально разработаны для проверки способности систем к многоступенчатому рассуждению и агрегации информации из различных источников. BrowseComp-Plus требует от модели не только поиска релевантных данных, но и синтеза информации из нескольких документов для ответа на сложные вопросы. InfoSeekQA, в свою очередь, фокусируется на понимании контекста и извлечении фактов, необходимых для формирования точного ответа. Использование подобных бенчмарков позволяет объективно оценить способность системы к решению задач, требующих не просто поиска информации, а её глубокого анализа и осмысленной интеграции.

Исследования с использованием эталонных наборов данных, таких как BrowseComp-Plus, показали значительное превосходство данных, сгенерированных агентами, над традиционными методами обучения, основанными на кликах пользователей. В частности, зафиксировано повышение точности извлечения релевантной информации — до 37% улучшения в показателе полноты извлечения доказательств на платформе BrowseComp-Plus. Этот результат свидетельствует о том, что агенты, способные самостоятельно генерировать обучающие данные, позволяют создавать более эффективные системы поиска и извлечения информации, превосходящие существующие подходы, основанные на анализе пользовательских кликов.

Возникает эффект “информационного маховика”: усовершенствование поиска информации напрямую повышает эффективность работы агента, генерируя более качественные данные для дальнейшей доработки модели. Этот замкнутый цикл позволяет не только улучшать точность ответов, но и оптимизировать процесс поиска, приводя к сокращению среднего числа шагов, необходимых для решения задачи, примерно на 30% на тестовом наборе InfoSeek-Eval. Таким образом, каждый виток “маховика” усиливает последующий, обеспечивая экспоненциальный рост производительности и эффективности системы.

Метод LRAT последовательно повышает как успешность выполнения задач в целевой области, так и качество извлечения информации в смежных областях, что подтверждается увеличением показателя успешности на InfoSeek-Eval и показателя полноты извлечения доказательств на BrowseComp-Plus.

Исследование, представленное в статье, подчеркивает важность итеративного улучшения систем поиска информации посредством обучения на траекториях агентов. Этот подход к формированию данных, где система непрерывно учится на собственном опыте взаимодействия, перекликается с глубокой мыслью Эдсгера Дейкстры: «Программирование — это не столько о том, как заставить машину что-то сделать, сколько о том, как указать ей, что делать». Подобно тому, как точное описание алгоритма необходимо для корректной работы программы, так и обучение на тщательно отобранных траекториях агентов критически важно для создания надежной и эффективной системы поиска. Успешное применение этого метода демонстрирует потенциал самоподдерживающегося цикла улучшения, где каждый этап взаимодействия формирует данные для следующего, что соответствует принципам создания элегантных и доказуемых алгоритмов.

Что дальше?

Предложенный подход к обучению систем поиска, использующий траектории действий агентов, безусловно, интересен. Однако, пусть N стремится к бесконечности — что останется устойчивым? Данные, сгенерированные агентами, неизбежно отражают предубеждения и ограниченность самих агентов, а также алгоритмов, управляющих ими. Создание «самоподдерживающегося цикла» данных может усилить эти искажения, приводя к оптимизации системы не для истинной релевантности, а для соответствия предсказуемым паттернам поведения агента. Необходимо строгое математическое обоснование устойчивости такого цикла к накоплению ошибок.

Особое внимание следует уделить вопросу о метриках оценки. Улучшение показателей на синтетических данных, сгенерированных агентами, не гарантирует повышение качества поиска для реальных пользователей с их непредсказуемыми запросами и потребностями. Разработка надежных, объективных метрик, отражающих истинную полезность информации, представляется критически важной задачей. Иначе, мы рискуем построить систему, блестяще решающую задачу, которая не имеет отношения к проблеме.

В конечном счете, успех данного направления исследований зависит не только от улучшения алгоритмов, но и от глубокого понимания природы информации и человеческого познания. Иначе, мы обречены на вечное совершенствование инструментов для поиска того, что нам, возможно, и не нужно.

Оригинал статьи: https://arxiv.org/pdf/2604.04949.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-08 15:32

🚀 Квантовые новости