Поиск без пробелов: Новый вызов для интеллектуальных агентов

Автор: Денис Аветисян


Исследователи представили комплексный тест DeepSearchQA, позволяющий оценить способность веб-агентов к всестороннему поиску информации, выходящему за рамки поиска единственного правильного ответа.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Тестовый набор DeepSearchQA обеспечивает сбалансированное распределение запросов по различным тематикам, предотвращая переобучение модели в узкой области, и демонстрирует, что точность агента Gemini Deep Research монотонно возрастает с увеличением вычислительных ресурсов, выделенных на тестирование, что указывает на его способность к масштабированию и эффективной обработке разнообразных запросов.
Тестовый набор DeepSearchQA обеспечивает сбалансированное распределение запросов по различным тематикам, предотвращая переобучение модели в узкой области, и демонстрирует, что точность агента Gemini Deep Research монотонно возрастает с увеличением вычислительных ресурсов, выделенных на тестирование, что указывает на его способность к масштабированию и эффективной обработке разнообразных запросов.

DeepSearchQA — это эталон для оценки полноты и глубины информационного поиска, используемый для веб-агентов, основанных на больших языковых моделях.

Несмотря на значительный прогресс в разработке интеллектуальных агентов, оценка их способности к проведению глубоких, многоступенчатых поисков информации остается сложной задачей. В данной работе представлена новая методика оценки, реализованная в виде эталонного набора данных ‘DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents’, предназначенного для тестирования агентов в решении сложных исследовательских задач, требующих систематического сбора и обработки фрагментированной информации из различных источников. Ключевым результатом является выявление существенных ограничений современных моделей в обеспечении как высокой полноты, так и точности при поиске информации в открытом веб-пространстве. Какие архитектурные и алгоритмические решения позволят создать агентов, способных к действительно глубокому и исчерпывающему исследованию сложных тем?


Вызов фактической согласованности в языковых моделях

Современные большие языковые модели демонстрируют впечатляющую беглость речи и способность генерировать связные тексты, однако часто испытывают трудности с фактической точностью. Эта проблема представляет собой серьезное ограничение для практического применения подобных систем в различных областях, начиная от научных исследований и заканчивая журналистикой и образованием. Модели могут генерировать правдоподобно звучащие, но при этом не соответствующие действительности утверждения, что создает риски дезинформации и подрывает доверие к автоматизированным системам обработки информации. Несмотря на прогресс в области машинного обучения, обеспечение фактической достоверности генерируемых текстов остается одной из ключевых задач, требующих дальнейших исследований и разработок.

Существующие оценочные тесты для языковых моделей часто оказываются недостаточными для всесторонней проверки фактической достоверности, особенно при анализе длинных текстов, генерируемых этими моделями. Традиционные метрики, как правило, сосредоточены на поверхностных аспектах, таких как грамматическая правильность и стилистическая согласованность, и не всегда способны выявить тонкие неточности или галлюцинации — случаи, когда модель выдает информацию, не подтвержденную источником. Проблема усугубляется тем, что оценка фактической достоверности в длинных текстах требует не просто проверки отдельных утверждений, но и анализа их взаимосвязи и общей логической последовательности, что значительно усложняет процесс автоматической оценки. В результате, модели могут демонстрировать впечатляющую беглость речи, одновременно производя текст, содержащий фактические ошибки, которые остаются незамеченными стандартными тестами.

Для преодоления проблемы фактической непоследовательности в больших языковых моделях необходимы надежные метрики оценки и эталонные наборы данных, способные выявлять даже незначительные неточности и галлюцинации. Существующие методы часто оказываются недостаточно чувствительными к тонким искажениям фактов, особенно в длинных текстах, что приводит к завышенной оценке надежности генерируемого контента. Разработка таких метрик требует учета контекста, логической связности и возможности проверки утверждений на соответствие общепринятым знаниям. Особое внимание уделяется созданию эталонных наборов данных, содержащих сложные сценарии и требующих глубокого понимания предметной области для выявления скрытых ошибок и неточностей, что позволит более эффективно оценивать и совершенствовать языковые модели.

Оценка глубины рассуждений: за пределами простого извлечения фактов

Несмотря на то, что эталонные тесты, такие как TruthfulQA, позволяют оценить базовое извлечение фактов из памяти модели, они недостаточны для оценки сложных навыков рассуждения. TruthfulQA проверяет способность модели воспроизводить известные факты, но не оценивает ее умение делать логические выводы, решать проблемы, требующие нескольких шагов, или находить связи между различными источниками информации. Для всесторонней оценки способностей модели к рассуждению необходимы тесты, требующие не простого поиска фактов, а их анализа, синтеза и применения в новых контекстах.

Текущие эталоны оценки, такие как GAIA и Humanity’s Last Exam, представляют собой значительный шаг вперед в тестировании возможностей моделей искусственного интеллекта, поскольку требуют решения экспертных задач, выходящих за рамки простого поиска фактов. Эти тесты специально разработаны для оценки многоступенчатого рассуждения — способности модели последовательно применять логические шаги и синтезировать информацию из различных источников для достижения решения. В отличие от эталонов, проверяющих только запоминание информации, GAIA и Humanity’s Last Exam требуют от моделей не только доступа к знаниям, но и способности применять их в сложных, новых ситуациях, что является критически важным для демонстрации реального интеллекта.

Структурированный поиск информации — способность находить неочевидные сведения посредством последовательных, многошаговых поисковых запросов — является ключевым показателем надежных навыков рассуждения. В отличие от простого извлечения фактов, требующего непосредственного доступа к известным данным, структурированный поиск предполагает формулирование промежуточных вопросов, анализ полученных результатов и использование этой информации для уточнения последующих запросов. Эффективное выполнение структурированного поиска демонстрирует способность модели к планированию, анализу и синтезу информации, что указывает на более глубокое понимание и способность к решению сложных задач, выходящих за рамки простого воспроизведения заученных фактов.

Ограничения статических веб-предположений и необходимость надежного поиска

Существующие отраслевые бенчмарки и системы оценки часто базируются на предположении о статической природе веб-контента, что не соответствует реальности постоянно меняющегося онлайн-пространства. Этот подход, именуемый «Static Web Assumption», игнорирует динамическую природу веб-страниц, которые регулярно обновляются, добавляются или удаляются. В результате, системы, обученные или протестированные на устаревших данных, демонстрируют снижение производительности при работе с актуальной информацией, что приводит к неточным результатам поиска и снижению общей надежности системы. Использование статических наборов данных для оценки не позволяет адекватно оценить способность системы адаптироваться к изменениям в веб-среде и поддерживать актуальность информации.

Для обеспечения надежного извлечения информации в динамичной онлайн-среде необходимы продвинутые возможности систематической агрегации данных из различных источников и точной идентификации сущностей. Систематическая колляция подразумевает структурированный сбор и объединение информации, полученной из множества веб-ресурсов, с учетом их релевантности и достоверности. Точная идентификация сущностей, или разрешение сущностей, критически важна для корреляции данных, относящихся к одному и тому же объекту, несмотря на вариации в его представлении (например, различные написания имен, синонимы или сокращения). Без этих механизмов, система может дублировать информацию или делать неверные выводы, что снижает эффективность и надежность поиска.

Определение адекватных критериев остановки поиска, в отсутствие явных сигналов о завершении, является критически важным для эффективного и надежного сбора информации. Автоматическое определение момента, когда дальнейший поиск не принесет существенной новой информации или когда достигнута достаточная полнота ответа, позволяет избежать неоправданных вычислительных затрат и задержек. Это требует разработки алгоритмов, способных оценивать релевантность и новизну извлекаемых данных, а также прогнозировать дальнейшее поведение системы поиска, чтобы оптимизировать процесс сбора информации и гарантировать его своевременное завершение.

Комплексная оценка: метрики и бенчмарки для фактической точности

Для количественной оценки фактической достоверности генерируемого текста используются специализированные метрики, такие как FActScore, LongFact и VERISCORE. Эти инструменты позволяют автоматизированно анализировать соответствие сгенерированного контента известным фактам, выявляя потенциальные неточности или противоречия. FActScore фокусируется на проверке отдельных утверждений, в то время как LongFact предназначен для оценки согласованности длинных текстов. VERISCORE, в свою очередь, оценивает правдоподобность текста, опираясь на внешние источники информации. Применение этих метрик позволяет исследователям и разработчикам более объективно оценивать качество и надежность систем генерации текста, а также отслеживать прогресс в улучшении их фактической точности.

Для оценки способности моделей проверять достоверность утверждений разработаны специализированные наборы данных, известные как бенчмарки. Такие инструменты, как CoverBench, TRUE и MiniCheck, предоставляют структурированные рамки для тестирования, позволяя исследователям количественно оценить, насколько точно модели определяют правдивость или ложность представленных фактов. Эти бенчмарки обычно содержат разнообразные утверждения, требующие от модели поиска соответствующих доказательств или опровержений в обширных источниках информации. Оценка по этим наборам данных позволяет выявить сильные и слабые стороны различных моделей в области проверки фактов, способствуя дальнейшему развитию более надежных и точных систем искусственного интеллекта.

Новый эталонный набор данных DeepSearchQA продемонстрировал, что современные модели достигают полной корректности ответов лишь в 66.09% случаев. При этом наблюдается значительный разрыв — около 15 процентных пунктов — между метрикой F_1-score (81.90%) и строгой корректностью. Это указывает на существующие трудности в достижении баланса между полнотой охвата информации (recall) и точностью ответов (precision). Высокий F_1-score свидетельствует о хорошей способности модели находить релевантную информацию, однако не гарантирует, что все ответы будут абсолютно верными, что подчеркивает важность дальнейшей работы над повышением надежности и точности систем искусственного интеллекта.

Исследование, проведенное с использованием эталонного набора данных DeepSearchQA, выявило существенные различия в склонности к генерации полностью неверной информации у различных моделей. В частности, установлено, что модель Gemini Deep Research Agent демонстрирует более низкий уровень полностью некорректных ответов — всего 9,95%, что значительно ниже показателя в 14,13%, зафиксированного для модели GPT-5 Pro. Данный результат указывает на потенциальные улучшения в механизмах проверки фактов и предотвращения галлюцинаций, реализованных в Gemini Deep Research Agent, и подчеркивает важность детальной оценки не только общей точности, но и частоты генерации полностью ошибочных утверждений при оценке возможностей больших языковых моделей.

Исследование демонстрирует необходимость оценки веб-агентов не только по точности, но и по способности к всестороннему поиску информации. Подход DeepSearchQA акцентирует внимание на полноте извлечения данных, что критически важно для сложных исследовательских задач. Это перекликается с мыслями Г.Х. Харди: «Математика — это наука о том, что не нужно знать». В контексте информационного поиска это означает, что недостаточно найти лишь один ответ; истинная ценность заключается в способности агента охватить весь спектр доступной информации, даже если часть её на первый взгляд кажется избыточной. Хорошая архитектура незаметна, пока не ломается, и только тогда видна настоящая цена решений — точно так же, как и в системах поиска, где полнота и точность взаимосвязаны и определяют общую надежность.

Куда двигаться дальше?

Представленная работа, безусловно, акцентирует внимание на недостатке существующих метрик при оценке агентов, работающих с информацией. Если точность — это лишь одна грань, то полнота — это, пожалуй, проверка на прочность. Однако, возникает вопрос: не является ли стремление к исчерпывающему поиску лишь заменой одной сложности другой? Система, охватывающая всё, рискует захлебнуться в деталях, потеряв способность к синтезу и выделению действительно значимого.

Архитектура агента, стремящегося к полноте, неизбежно становится компромиссом. Выбор того, чем пожертвовать — скоростью, вычислительными ресурсами, или, возможно, даже способностью к критическому анализу — определяет его эффективность. Необходимо разрабатывать метрики, оценивающие не только количество найденной информации, но и её качество, релевантность и взаимосвязь, а также способность агента к построению связного и обоснованного ответа.

В перспективе, интересно исследовать, как принципы set-based evaluation могут быть адаптированы для оценки не только агентов, но и самих источников информации. Если система кажется сложной, она, вероятно, хрупка. Истинная элегантность заключается в простоте, а значит, в конечном счете, необходимо найти баланс между полнотой и ясностью.


Оригинал статьи: https://arxiv.org/pdf/2601.20975.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-30 09:07