Когда Искусственный Интеллект Слишком Много Ищет: Проблема Избыточного Поиска

Автор: Денис Аветисян


Новое исследование выявило тенденцию у больших языковых моделей с поиском — ненужное обращение к инструментам поиска даже при наличии ответа или невозможности его найти.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В ходе многооборотного диалога наблюдается усиление склонности к избыточному поиску информации, при этом неразрешимый контекст поддерживает стабильную точность воздержания от ответа, демонстрируя даже незначительное улучшение с каждым оборотом, в то время как разрешимый контекст подвергается наиболее заметному снижению точности воздержания, при этом показатель ТPC (total precision cost) закономерно возрастает с увеличением длины диалога для всех типов контекста.
В ходе многооборотного диалога наблюдается усиление склонности к избыточному поиску информации, при этом неразрешимый контекст поддерживает стабильную точность воздержания от ответа, демонстрируя даже незначительное улучшение с каждым оборотом, в то время как разрешимый контекст подвергается наиболее заметному снижению точности воздержания, при этом показатель ТPC (total precision cost) закономерно возрастает с увеличением длины диалога для всех типов контекста.

Анализ и стратегии смягчения проблемы ‘избыточного поиска’ в системах, использующих поиск для расширения возможностей больших языковых моделей.

Несмотря на успехи в решении сложных задач, современные поисково-обогащенные большие языковые модели (LLM) часто демонстрируют избыточное использование инструментов поиска. В работе ‘Over-Searching in Search-Augmented Large Language Models’ проводится систематический анализ феномена «перепоиска» — ненужного обращения к внешним источникам информации, даже когда ответ известен или вопрос не имеет ответа. Исследование показывает, что перепоиск особенно выражен в сложных моделях рассуждений и многооборотных диалогах, приводя к неэффективности и галлюцинациям. Возможно ли разработать эффективные метрики и стратегии смягчения перепоиска для создания более рациональных и экономичных поисково-обогащенных LLM?


Иллюзии и Реальность: Поиск в Эпоху Больших Языковых Моделей

Современные большие языковые модели демонстрируют впечатляющие возможности в генерации текста, переводе и ответах на вопросы. Однако, несмотря на свою мощь, они часто сталкиваются с проблемой фактической точности и актуальности предоставляемой информации. Обученные на огромных, но статичных наборах данных, эти модели могут генерировать убедительные, но ошибочные или устаревшие сведения. Это связано с тем, что они не обладают встроенным механизмом для проверки фактов или доступа к информации в реальном времени, что делает их уязвимыми к распространению дезинформации или предоставлению неактуальных данных. Таким образом, хотя языковые модели и способны к впечатляющему синтезу информации, их надежность в качестве источника достоверных знаний остается под вопросом.

Попытки расширить возможности больших языковых моделей (LLM) за счет интеграции внешних источников информации посредством поисковых инструментов, известных как Search-Augmented LLM, направлены на преодоление присущих им ограничений в плане фактической точности и актуальности знаний. Однако, этот подход не лишен сложностей. Внедрение поиска требует тщательной координации между LLM и внешними данными, что может приводить к увеличению вычислительных затрат и задержек. Кроме того, возникает проблема эффективного использования найденной информации: необходимо не просто извлечь данные, но и интегрировать их в логически связный и релевантный ответ, избегая избыточности и противоречий. Таким образом, создание поисково-обогащенных LLM представляет собой сложную задачу, требующую баланса между расширением знаний и поддержанием эффективности и связности генерируемого текста.

Одной из ключевых проблем, возникающих при использовании поисково-обогащенных больших языковых моделей (LLM), является склонность к избыточному поиску информации. Исследования показывают, что модели часто прибегают к поиску даже в тех случаях, когда это не улучшает качество ответа, что приводит к снижению эффективности и увеличению вычислительных затрат. Для количественной оценки данной проблемы была предложена новая метрика — “Токены на корректность” (Tokens Per Correctness, TPC). Она позволяет оценить баланс между точностью ответа и количеством затраченных токенов на поиск, демонстрируя, что повышение точности не всегда оправдано ростом вычислительной сложности и, следовательно, стоимости использования модели. Оптимизация стратегий поиска и снижение частоты избыточных запросов к внешним источникам представляется важной задачей для повышения практической ценности поисково-обогащенных LLM.

Увеличение количества поисковых итераций в o4-mini сначала значительно повышает точность ответов, достигает пика примерно на 7 итерациях, после чего стабилизируется, однако одновременно снижает точность определения неразрешимых запросов и приводит к монотонному росту затрат (TPC), свидетельствуя о неэффективности дальнейшего поиска из-за несоответствия между увеличением затрат и приростом точности.
Увеличение количества поисковых итераций в o4-mini сначала значительно повышает точность ответов, достигает пика примерно на 7 итерациях, после чего стабилизируется, однако одновременно снижает точность определения неразрешимых запросов и приводит к монотонному росту затрат (TPC), свидетельствуя о неэффективности дальнейшего поиска из-за несоответствия между увеличением затрат и приростом точности.

Воздержание от Ошибок: Надежность и Отрицательные Доказательства

Критически важной характеристикой надёжных больших языковых моделей (LLM) является способность к воздержанию от ответа (abstention) — умение не генерировать ответ на вопрос, если он не имеет ответа или недостаточно подтверждён данными. Воздержание позволяет избежать выдачи неверной или вводящей в заблуждение информации, что особенно важно в приложениях, требующих высокой степени достоверности. В отличие от моделей, которые всегда пытаются дать ответ, LLM с реализованным механизмом воздержания могут идентифицировать вопросы, на которые у них нет достаточных оснований для ответа, и корректно сообщать об этом пользователю или системе. Это повышает общую надёжность и полезность модели, особенно в сценариях, где ложный ответ может привести к негативным последствиям.

Эффективное воздержание от ответа (абстенция) в больших языковых моделях напрямую зависит от наличия доступа к “отрицательным доказательствам” — информации, которая явно указывает на отсутствие поддержки утверждения или ответа на вопрос. Это означает, что модель должна иметь возможность идентифицировать и использовать данные, которые опровергают или не подтверждают конкретное утверждение, чтобы избежать генерации неверных или вводящих в заблуждение ответов. Наличие таких данных позволяет модели с уверенностью отказаться от ответа, когда недостаточно информации для его формирования или когда имеющиеся данные противоречат предполагаемому ответу. Игнорирование отрицательных доказательств приводит к увеличению вероятности генерации ложной информации.

Повышение надежности больших языковых моделей (LLM) напрямую связано с возможностью воздержаться от ответа на вопросы, на которые нет достоверной информации. Эффективное воздержание обеспечивается доступом к негативным доказательствам — информации, явно указывающей на отсутствие поддержки определенного утверждения или ответа. Анализ существующих корпусов знаний показал, что они недостаточно насыщены негативными доказательствами: лишь 13-22% извлеченных документов, относящихся к неразрешимым запросам, содержат подтверждающие данные об отсутствии ответа. Это означает, что для повышения способности LLM уверенно избегать генерации неверных или вводящих в заблуждение ответов, необходимо целенаправленное расширение корпусов знаний за счет включения явных негативных доказательств.

Высокая степень согласованности между тремя независимыми LLM-оценщиками как по точности ответов, так и по точности воздержания от ответа подтверждает надёжность и консистентность предложенной системы LLM-оценки.
Высокая степень согласованности между тремя независимыми LLM-оценщиками как по точности ответов, так и по точности воздержания от ответа подтверждает надёжность и консистентность предложенной системы LLM-оценки.

Оптимизация Поискового Поведения: Смягчение избыточности

Стратегии “Смягчения на уровне запроса” направлены на оптимизацию системных подсказок и проектирования рабочих процессов с целью снижения количества избыточных обращений к поиску. Эти методы предполагают обучение моделей более точно оценивать информационные потребности до инициации поиска, что позволяет избежать повторных запросов на получение уже известной или нерелевантной информации. Повышение эффективности анализа запроса на ранних этапах позволяет сократить вычислительные затраты и время ответа системы, улучшая общую производительность и пользовательский опыт.

Стратегии, направленные на повышение способности моделей оценивать информационные потребности до инициирования поиска, заключаются в обучении их более точно определять, действительно ли необходим внешний поиск для ответа на запрос. Это достигается путем улучшения логики обработки запросов и рабочих процессов, что позволяет моделям выявлять случаи, когда ответ может быть сформирован из уже имеющихся знаний или путем уточнения запроса для более эффективного поиска. Предотвращение избыточных поисковых запросов снижает вычислительную нагрузку и задержку, повышая общую эффективность системы и скорость предоставления информации пользователю.

Использование локального поиска (Local RAG) и комбинирование ресурсов, таких как Wikipedia, с веб-поиском, позволяет обеспечить разнообразие источников знаний и повысить эффективность извлечения информации. Однако, эксперименты показали, что применение более «шумных» корпусов данных, например C5, приводит к увеличению времени обработки запросов (TPC) в 3.6 раза по сравнению с использованием Wikipedia-Latest. Данный факт подчеркивает критическую важность качества используемых данных для оптимизации производительности систем поиска и извлечения информации.

Увеличение максимального числа поисковых запросов для o4-mini сначала повышает точность ответов, достигает пика около 7 запросов, но затем снижает её, одновременно увеличивая количество токенов на корректный ответ с 722 до более 9 тысяч и ухудшая способность модели распознавать неразрешимые запросы (снижение точности отказа с 52.3% до 46.3%).
Увеличение максимального числа поисковых запросов для o4-mini сначала повышает точность ответов, достигает пика около 7 запросов, но затем снижает её, одновременно увеличивая количество токенов на корректный ответ с 722 до более 9 тысяч и ухудшая способность модели распознавать неразрешимые запросы (снижение точности отказа с 52.3% до 46.3%).

Измерение Эффективности: Бенчмарк OverSearchQA и его Значение

Для всесторонней оценки систем, использующих поиск для дополнения больших языковых моделей (LLM), разработан специализированный набор данных — ‘OverSearchQA’. Этот тщательно подобранный бенчмарк позволяет комплексно оценить не только эффективность поиска информации, но и способность модели к воздержанию от ответа в случае недостаточной уверенности. ‘OverSearchQA’ предоставляет стандартизированный инструмент для сравнения различных стратегий смягления проблем, связанных с избыточным поиском, и количественной оценки их влияния на общую производительность системы. Особенностью данного бенчмарка является акцент на оценке как точности ответов, так и способности модели правильно определять границы своей компетенции, что критически важно для надежности и достоверности предоставляемой информации.

Разработанный комплексный эталон ‘OverSearchQA’ предоставляет унифицированную платформу для сопоставления различных стратегий смягления проблем, возникающих в системах, дополненных поиском. Этот подход позволяет объективно оценивать эффективность конкретных методов в улучшении производительности, таких как оптимизация поисковых запросов или внедрение механизмов воздержания от ответа при недостатке достоверной информации. Стандартизированная оценка позволяет исследователям и разработчикам точно измерить влияние каждой стратегии на ключевые показатели, включая точность, эффективность поиска и способность системы правильно определять вопросы, на которые у неё нет ответа, обеспечивая тем самым прогресс в создании более надёжных и ресурсоэффективных систем, использующих возможности поискового дополнения.

Современные системы, такие как модели рассуждений и агенты глубоких исследований, демонстрируют значительный потенциал, однако склонны к избыточному поиску информации. Данная особенность подчеркивает необходимость постоянной оценки и совершенствования подобных систем. Исследования показывают, что применение методов, учитывающих возможность отказа от ответа при недостаточности данных — так называемого “abstention-aware prompting” — позволяет добиться улучшения показателя TPC (Total Performance Change) на 11.5%. Это свидетельствует о том, что оптимизация стратегий поиска и внедрение механизмов, позволяющих моделям осознавать границы своей компетенции, является ключевым фактором повышения эффективности и надежности поисково-дополненных систем.

Эффективное решение проблемы избыточного поиска в современных системах, использующих большие языковые модели и внешние источники информации, способствует не только более рациональному использованию вычислительных ресурсов, но и значительно снижает вероятность генерации вводящих в заблуждение ответов, особенно в сложных многоходовых диалогах. Наблюдается, что, в среднем, системы, дополненные поиском, демонстрируют повышение точности ответов на решаемые вопросы на 24,0%, однако при этом наблюдается снижение точности в ситуациях, когда ответ найти невозможно, на 12,8%. Данный феномен подчеркивает важность разработки стратегий, позволяющих системам корректно оценивать свою способность ответить на вопрос и воздерживаться от генерации неточной информации, что критически важно для обеспечения надежности и доверия к подобным технологиям.

Анализ распределения длины вопросов и визуализация <span class="katex-eq" data-katex-display="false">t-SNE</span> их эмбеддингов показывают, что различия между отвечаемыми и не отвечаемыми вопросами в наборе данных OverSearchQA незначительны и не имеют выраженной семантической структуры, что подтверждается детальным анализом по категориям (см. Приложение, Рисунок 9).
Анализ распределения длины вопросов и визуализация t-SNE их эмбеддингов показывают, что различия между отвечаемыми и не отвечаемыми вопросами в наборе данных OverSearchQA незначительны и не имеют выраженной семантической структуры, что подтверждается детальным анализом по категориям (см. Приложение, Рисунок 9).

Исследование склонности поисково-усиленных больших языковых моделей к чрезмерному поиску, описанное в статье, закономерно. Ещё бы, дать машине возможность искать — это всё равно что дать обезьяне гранату. Она, конечно, попробует, но толку будет мало. Как метко заметил Винтон Серф: «Интернет — это как Швейцарский нож — в нём есть всё, но пользоваться этим не умеют». И действительно, модель, вместо того чтобы признать собственное незнание или нерешаемость задачи, упрямо тратит ресурсы на поиск, даже когда ответ уже известен или вопрос лишен смысла. Эта избыточность — плата за иллюзию всезнания, и напоминает о вечной проблеме техдолга, который накапливается в любой, даже самой элегантной системе.

Что дальше?

Наблюдаемая тенденция к избыточному поиску в моделях, дополненных поиском, закономерна. Каждая элегантная архитектура рано или поздно сталкивается с суровой реальностью: продакшен найдёт способ заставить её искать даже тогда, когда ответ уже известен. Метрики, предложенные в данной работе, — лишь временная передышка, попытка количественно оценить неизбежное. Ведь всё, что можно задеплоить, однажды упадёт, и, скорее всего, с ненужным запросом к поиску.

Вопрос не в том, чтобы полностью искоренить избыточность. Это утопия. Важнее — понять, как сделать её более… изящной. Как научить модель хотя бы красиво умирать, признавая собственное незнание, а не бесконечно перебирая результаты поиска в надежде на чудо. Будущие исследования должны сосредоточиться не только на повышении качества извлекаемой информации, но и на разработке механизмов самооценки модели, её способности к осознанному отказу от поиска.

В конечном итоге, вся эта гонка за точностью и эффективностью — лишь отсрочка неизбежного технического долга. Абстракция умирает от продакшена, но умирает красиво. И это, пожалуй, самое главное.


Оригинал статьи: https://arxiv.org/pdf/2601.05503.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-12 06:57