Автор: Денис Аветисян
Новое исследование показывает, как различные метрики оценки поиска соотносятся с качеством ответов, генерируемых большими языковыми моделями.
Оценка корреляции традиционных метрик (точность, полнота, NDCG) и упрощенной метрики (TT) с качеством ответов, полученных при использовании систем поиска и генерации ответов.
В задачах информационного поиска с постоянно растущими базами знаний точная оценка полноты извлечения (recall) часто оказывается невозможной из-за неизвестного общего числа релевантных документов. В данной работе, посвященной исследованию вопроса ‘How important is Recall for Measuring Retrieval Quality?’, авторы оценивают различные метрики качества поиска, сопоставляя их с оценками качества ответов, сгенерированных языковыми моделями на основе извлеченных документов. Эксперименты показали, что упрощенная метрика (TT) демонстрирует сопоставимые, а в ряде случаев и превосходящие результаты по сравнению с общепринятыми методами оценки. Способны ли новые подходы к оценке качества поиска, не требующие знания полного числа релевантных документов, стать стандартом в эпоху больших языковых моделей и постоянно растущих объемов информации?
Рождение генеративных поисковых систем
Традиционные большие языковые модели, несмотря на впечатляющие способности к генерации текста, сталкиваются с существенными ограничениями в плане актуальности и достоверности информации. Эти модели обучаются на фиксированных наборах данных, что приводит к “разрыву знаний” — неспособности оперировать информацией, появившейся после момента обучения. Более того, в процессе генерации текста модели могут “галлюцинировать”, выдавая правдоподобно звучащие, но фактически неверные утверждения. Это связано с тем, что модели, в первую очередь, стремятся к статистической правдоподобности, а не к фактической точности, и не имеют встроенных механизмов для проверки информации на соответствие реальности. В результате, полагаться исключительно на внутренние знания больших языковых моделей для получения точной и актуальной информации представляется рискованным.
Система генерации с расширенным поиском (RAG) представляет собой инновационный подход, направленный на повышение достоверности и расширение возможностей больших языковых моделей (LLM). Вместо того чтобы полагаться исключительно на знания, заложенные в процессе обучения, RAG интегрирует LLM с внешними базами знаний. Этот механизм позволяет модели обращаться к актуальной и специализированной информации в процессе генерации ответов, существенно снижая вероятность фактических ошибок и преодолевая ограничения, связанные с устаревшими данными. В результате, RAG не только повышает точность генерируемого текста, но и расширяет спектр тем, по которым модель способна предоставлять осмысленные и информативные ответы, делая её более полезной и надежной в различных приложениях.
Оценка качества информационного поиска: метрики и подходы
Точность (Precision) и Полнота (Recall) являются базовыми метриками оценки информационного поиска, однако их применение ограничено в ситуациях, когда общее количество релевантных документов неизвестно. Точность определяет долю релевантных документов среди извлеченных, а Полнота — долю извлеченных документов от общего числа релевантных. Невозможность определения полного набора релевантных документов делает расчет Полноты невозможным, что снижает информативность обеих метрик в реальных сценариях, особенно при работе с большими объемами данных, где ручная оценка всех документов непрактична. В таких случаях, метрики, не требующие знания полного набора релевантных документов, такие как TT Measure, становятся более предпочтительными для оценки качества поиска.
Метрики, такие как TT Measure, nDCG (Normalized Discounted Cumulative Gain) и FeF Measure (F-measure with explicit feedback), предоставляют более детализированную оценку качества информационного поиска по сравнению с традиционными Precision и Recall. В отличие от последних, эти метрики не требуют знания полного набора релевантных документов для проведения оценки. TT Measure, в частности, оценивает долю релевантных документов среди первых возвращенных результатов, в то время как nDCG учитывает позицию релевантных документов в ранжированном списке, придавая больший вес документам, находящимся выше. FeF Measure, в свою очередь, использует явную обратную связь от пользователей для корректировки оценки релевантности, что позволяет более точно отразить предпочтения пользователей и повысить точность оценки.
Коэффициенты корреляции Спирмена и Кендалла Тау используются для оценки согласованности ранжирования результатов поиска между системой извлечения информации и экспертными оценками. Эти коэффициенты предоставляют метрику качества ранжирования, показывающую, насколько хорошо система упорядочивает релевантные документы. Недавний анализ продемонстрировал, что коэффициент корреляции Спирмена при оценке различных методов извлечения информации обычно находится в диапазоне от 0.3 до 0.6, что указывает на умеренную степень согласованности между автоматическим ранжированием и человеческими суждениями.
Анализ показывает, что метрика TT Measure демонстрирует сопоставимую или улучшенную корреляцию с оценками качества, генерируемыми большими языковыми моделями (LLM), по сравнению с метриками FF (FeF Measure) и nDCG. Это было подтверждено на различных наборах данных, включая ARXIV, MSMARCO, HotpotQA и Natural Questions. Данный факт указывает на повышенную эффективность TT Measure как инструмента для оценки качества систем информационного поиска, особенно в контексте использования LLM для оценки релевантности и качества результатов.
Векторные представления для расширенного поиска: модели и оценка
Эффективное представление документов является критически важным компонентом систем генеративного поисковых систем (RAG). В настоящее время в качестве перспективных моделей для создания векторных представлений текста выделяются ALL-MiniLM-L12-v2, Multilingual-e5-small и E5-Small-v2. Эти модели преобразуют текстовые данные в плотные векторные вложения, что позволяет осуществлять быстрый и эффективный поиск по базе знаний на основе семантической близости. Выбор конкретной модели зависит от характеристик данных и требований к производительности, однако перечисленные модели демонстрируют хорошие результаты в различных сценариях применения и являются основой для построения эффективных систем RAG.
В основе эффективного поиска в Knowledge Base лежит преобразование текстовых данных в плотные векторные представления, известные как embeddings. Этот процесс позволяет представить каждый документ или фрагмент текста в виде вектора в многомерном пространстве. Благодаря этому, поиск релевантной информации сводится к вычислению косинусного сходства или других метрик расстояния между векторным представлением запроса и векторами документов в базе знаний. Чем ближе векторы, тем более релевантным считается документ. Использование плотных векторных представлений значительно повышает скорость и точность поиска по сравнению с традиционными методами, основанными на поиске по ключевым словам, особенно в больших объемах данных.
Оценка качества извлечения информации с использованием LLM (Large Language Models) позволяет проводить детальный анализ производительности систем поиска, основанных на векторных представлениях текста. В частности, LLM применяются для оценки релевантности извлеченных документов по отношению к запросу, используя такие общедоступные наборы данных как MSMARCO, Natural Questions, HotpotQA и ARXIV. Этот подход позволяет выявить слабые места в системах RAG (Retrieval-Augmented Generation) и оптимизировать параметры моделей встраивания (embeddings) для достижения более точных и релевантных результатов поиска.
Метрика TT демонстрирует превосходство над nDCG в условиях высоких соотношений K/Np, где K — количество извлеченных документов, а Np — общее количество релевантных документов в базе знаний. Это особенно важно при работе с большими объемами нерелевантной информации, поскольку TT более эффективно оценивает качество поиска в ситуациях, когда большинство извлеченных документов не соответствуют запросу. В то время как nDCG может недооценивать качество поиска при высокой доле нерелевантных результатов, TT позволяет более точно ранжировать системы поиска по их способности находить релевантную информацию среди большого количества нерелевантных документов, что делает ее более подходящей для оценки систем RAG (Retrieval-Augmented Generation) в реальных сценариях.
Перспективы развития систем RAG: устойчивость и адаптация
Дальнейшее совершенствование моделей эмбеддингов, таких как Multi-QA-MiniLM-L6-cos-v1, представляется ключевым фактором для обработки сложных запросов и тонких нюансов информационных потребностей. Эти модели, преобразующие текст в векторные представления, позволяют системам извлекать наиболее релевантную информацию из больших объемов данных. Повышение точности и выразительности эмбеддингов позволит системам RAG не только находить факты, но и понимать контекст, намерения пользователя и сложные взаимосвязи между понятиями. В перспективе, это приведет к созданию систем, способных отвечать на вопросы, требующие синтеза информации из различных источников, и предоставлять более полные и осмысленные ответы, адаптированные к конкретной ситуации.
Для более всесторонней оценки эффективности систем извлечения информации с последующей генерацией (RAG) необходима интеграция передовых метрик оценки, включая корреляционный анализ. Традиционные показатели, такие как точность и полнота, зачастую не отражают всей сложности взаимодействия между извлеченными данными и генерируемым ответом. Корреляционный анализ позволяет установить взаимосвязь между различными метриками, выявляя, насколько согласованно они оценивают систему в разных условиях и на различных наборах данных. Это, в свою очередь, предоставляет возможность более глубокого понимания сильных и слабых сторон RAG-системы, а также выявления факторов, влияющих на ее производительность. Более того, подобный подход позволяет не только количественно оценить качество системы, но и определить, какие аспекты ее работы требуют дальнейшей оптимизации для достижения наилучших результатов в динамично меняющейся информационной среде.
Перспективные исследования направлены на создание систем извлечения и генерации ответов (RAG), отличающихся повышенной устойчивостью к зашумленным данным и способностью адаптироваться к постоянно меняющимся знаниям. Особое внимание уделяется разработке алгоритмов, эффективно фильтрующих нерелевантную или ошибочную информацию, а также механизмам непрерывного обучения, позволяющим системе оперативно учитывать новые данные и корректировать свои знания. Такой подход позволит создавать RAG-системы, способные не только предоставлять точные ответы на сложные вопросы, но и сохранять свою эффективность в динамичной и непредсказуемой информационной среде, что критически важно для практического применения в различных областях, от научных исследований до клиентской поддержки.
Недавний анализ показателей оценки систем RAG, таких как TT, nDCG и FeF, выявил высокую степень их корреляции между различными наборами данных и при различных значениях K/Np. Это свидетельствует о том, что различия в производительности, демонстрируемые этими метриками, носят скорее контекстуальный характер, нежели абсолютный. Иными словами, выбор наиболее подходящей метрики зависит от специфики решаемой задачи и особенностей используемого набора данных. Полученные результаты подчеркивают необходимость осторожного подхода к интерпретации результатов оценки и акцентируют внимание на важности комплексного анализа, учитывающего контекст применения системы и характеристики оцениваемых данных. Вместо однозначного выбора «лучшей» метрики, представляется более продуктивным учитывать совокупность показателей и их взаимосвязь для получения более полной картины производительности системы.
Исследование, представленное в данной работе, акцентирует внимание на несовершенстве традиционных метрик оценки качества извлечения информации, таких как точность и полнота. Авторы показывают, что упрощенные показатели могут демонстрировать сопоставимые, а в некоторых случаях и превосходящие результаты в корреляции с оценками, полученными с помощью больших языковых моделей. Этот подход перекликается с мыслями Анри Пуанкаре: «Математика — это искусство давать точные ответы на вопросы, которые никто не задавал». Подобно тому, как математик стремится к абсолютной точности, данная работа стремится к более адекватной оценке качества извлечения информации, признавая, что существующие метрики могут быть не в полной мере соответствовать реальным потребностям оценки ответов, генерируемых современными системами.
Что дальше?
Представленная работа, подобно любому измерительному инструменту, лишь временно фиксирует текущее состояние системы. Архитектуры оценки извлекаемой информации, как и все прочее, подвержены эрозии. Утверждение о превосходстве упрощенной метрики (TT) над устоявшимися подходами — не окончательный вердикт, а скорее фотография момента, запечатлевшая относительную эффективность в определенных условиях. Время, как среда, неизбежно внесет свои коррективы, и новые модели, новые данные, новые задачи потребуют переосмысления критериев оценки.
Основным узким местом остается корреляция между автоматическими метриками и субъективным качеством ответа, оцениваемым языковой моделью. Эта корреляция — не абсолютная истина, а статистическая закономерность, подверженная шумам и искажениям. Попытки ее улучшения — бесконечный процесс, напоминающий попытки удержать ртуть в ладони. Вопрос не в том, чтобы найти идеальную метрику, а в том, чтобы понимать ее ограничения и использовать ее как один из инструментов, а не как абсолютный авторитет.
Будущие исследования, вероятно, будут сосредоточены на адаптивных метриках, способных учитывать контекст задачи и специфику данных. Более того, неизбежно возникнет потребность в метриках, оценивающих не только релевантность извлеченной информации, но и ее новизну, неожиданность и креативность. Ведь каждая архитектура проживает свою жизнь, и улучшения стареют быстрее, чем мы успеваем их понять.
Оригинал статьи: https://arxiv.org/pdf/2512.20854.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/