Автор: Денис Аветисян
Новая методика QuCo-RAG позволяет оценить уверенность языковой модели, основываясь на статистике данных, на которых она обучалась, и значительно снизить вероятность «галлюцинаций».

Предлагается фреймворк QuCo-RAG для динамической генерации с использованием поиска, который квантифицирует неопределенность на основе статистики претренировочного корпуса и снижает вероятность галлюцинаций больших языковых моделей.
Несмотря на успехи больших языковых моделей, проблема галлюцинаций, возникающих при генерации текста, остается актуальной. В работе ‘QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation’ предложен новый подход к динамическому поиску релевантной информации, основанный на статистическом анализе корпуса предварительного обучения. Метод QuCo-RAG позволяет количественно оценивать неопределенность модели, выявляя пробелы в знаниях и верифицируя сущности в контексте обучения, что значительно снижает вероятность галлюцинаций и повышает точность генерации. Способен ли этот подход стать основой для создания принципиально новых, более надежных систем генерации текста?
Иллюзия Знания: Необходимость Обоснованности
Современные большие языковые модели, несмотря на впечатляющие возможности в генерации текста, подвержены феномену, известному как «галлюцинации». Этот термин описывает склонность моделей генерировать информацию, которая не соответствует действительности или лишена логического смысла. В отличие от человеческого мышления, где знание опирается на реальный мир и подвергается критической оценке, языковые модели оперируют лишь статистическими закономерностями, усвоенными из огромных объемов текстовых данных. В результате, модель может уверенно излагать ложные факты или создавать бессвязные нарративы, представляя их как истинные, что существенно ограничивает область её практического применения и требует разработки методов для повышения надежности генерируемого контента.
Ненадёжность больших языковых моделей (LLM) часто обусловлена недостаточной опорой на внешние источники знаний и неспособностью оценивать степень собственной уверенности в выдаваемом ответе. Отсутствие надёжной «привязки» к проверенным данным приводит к тому, что модели могут генерировать фактические ошибки или бессмысленные утверждения, представляя их как истину. Неумение количественно оценить неопределённость в процессе генерации текста усугубляет эту проблему, поскольку модель не способна указать на области, где её знания ограничены или потенциально неверны. В результате, критически важно развивать методы, позволяющие LLM более эффективно использовать внешние знания и предоставлять информацию о степени достоверности генерируемого контента, чтобы повысить их надёжность и полезность.
Традиционные системы генерации с расширением извлечением (RAG) часто сталкиваются с проблемой извлечения нерелевантной информации, что не позволяет эффективно снизить склонность больших языковых моделей к галлюцинациям. Новый подход, QuCo-RAG, призван решить эту задачу, обеспечивая более точный поиск и, как следствие, более достоверные ответы. Исследования показали, что QuCo-RAG демонстрирует значительное улучшение в точном соответствии (Exact Match, EM) — до 12 процентных пунктов по сравнению с базовыми RAG-системами, что свидетельствует о его повышенной способности предоставлять фактические и релевантные сведения.

QuCo-RAG: Количественная Оценка Неопределенности Через Статистику Корпуса
QuCo-RAG представляет собой динамическую систему извлечения информации (RAG), которая оценивает степень неопределенности генерируемых ответов на основе статистических данных, полученных из обучающего корпуса. В отличие от традиционных RAG-систем, QuCo-RAG использует частоту встречаемости сущностей в корпусе для определения базового уровня осведомленности и последующей оценки достоверности сгенерированных утверждений. Этот подход позволяет количественно оценить, насколько сгенерированный ответ подтверждается имеющимися знаниями в корпусе, обеспечивая возможность выявления потенциально недостоверной или неподкрепленной информации. Система использует статистику корпуса не для простого поиска релевантных документов, а для активной оценки степени поддержки каждого утверждения в генерируемом тексте.
На этапе предварительной оценки знаний, система QuCo-RAG анализирует частоту встречаемости сущностей в используемом корпусе данных. Этот процесс позволяет установить базовый уровень осведомленности системы по различным понятиям и фактам. Определение частоты встречаемости каждой сущности служит основой для оценки достоверности генерируемых ответов и выявления потенциально неподкрепленных утверждений. Более высокая частота встречаемости сущности в корпусе указывает на более надежное знание, в то время как низкая частота может сигнализировать о недостаточной осведомленности системы по данному вопросу и требовать дополнительной проверки.
В процессе ‘Runtime Claim Verification’ система оценивает степень подтверждения утверждений, сгенерированных моделью, посредством анализа совместной встречаемости сущностей в сгенерированном тексте и в обучающем корпусе. Алгоритм выявляет потенциально неподкрепленные утверждения, определяя, насколько часто встречающиеся в сгенерированном ответе сущности также встречаются совместно в исходном корпусе. Низкая частота совместной встречаемости указывает на возможное отсутствие подтверждения в обучающих данных, что позволяет системе сигнализировать о необходимости дополнительной проверки или снижения доверия к данному утверждению.
Для обеспечения эффективного поиска по корпусу в QuCo-RAG используется движок ‘Infini-gram’, основанный на суффиксных массивах. Этот подход позволяет быстро идентифицировать релевантные фрагменты текста, необходимые для верификации утверждений, генерируемых системой. В ходе экспериментов было установлено, что в среднем на один вопрос требуется 1.70 обращения к корпусу для получения необходимой информации, что свидетельствует о высокой эффективности алгоритма поиска и снижает вычислительные затраты.
В ходе экспериментов QuCo-RAG продемонстрировал повышение показателя Exact Match (EM) на 5-12 процентных пунктов по сравнению с базовыми моделями на всех масштабах OLMo-2 (7B, 13B и 32B). Данный прирост указывает на улучшенную точность генерируемых ответов, что подтверждает эффективность подхода к оценке неопределенности посредством анализа статистических данных корпуса. Повышение EM наблюдалось последовательно для всех размеров моделей, что свидетельствует о масштабируемости предложенного метода и его применимости к различным вычислительным ресурсам.

Валидация Неопределенности: Как QuCo-RAG Выявляет Неподтвержденные Утверждения
QuCo-RAG использует данные о совместном появлении сущностей (Entity Co-occurrence) и об отсутствии совместного появления (Zero Co-occurrence) из корпуса предварительного обучения для выявления утверждений, не имеющих подтверждения в исходных данных. Система анализирует статистику встречаемости сущностей в корпусе и определяет, насколько вероятно их совместное появление в контексте заданного утверждения. Отсутствие совместной встречаемости, выявленное в процессе анализа, сигнализирует о потенциальной галлюцинации или отсутствии фактического обоснования для данного утверждения, позволяя системе более точно оценивать достоверность генерируемых ответов.
Система QuCo-RAG выявляет потенциальные галлюцинации, анализируя частоту совместного появления сущностей в предтренировочном корпусе. Вместо поиска подтверждающих данных, система идентифицирует случаи, когда две или более сущности, упомянутые в ответе, не встречаются вместе в исходном корпусе данных. Отсутствие такой совместной встречаемости рассматривается как признак того, что утверждение может быть сгенерировано моделью без фактической основы, что позволяет QuCo-RAG эффективно обнаруживать и помечать потенциально недостоверную информацию.
Использование статистики, полученной из корпуса предварительного обучения, позволяет QuCo-RAG проводить более тонкую оценку достоверности, чем простое сопоставление ключевых слов. Вместо определения наличия конкретных терминов, система анализирует частоту совместного появления сущностей в корпусе. Это позволяет выявлять утверждения, которые, хотя и содержат известные сущности, не имеют статистической поддержки в данных предварительного обучения, что указывает на потенциальную галлюцинацию или отсутствие фактического основания для утверждения. Такой подход учитывает контекстуальные связи между сущностями, что невозможно при использовании только сопоставления ключевых слов.
Оценка эффективности QuCo-RAG проводилась с использованием языковой модели OLMo-2, в результате чего было достигнуто улучшение показателя Exact Match (EM) на 12.0 пункта в наборе данных 2WikiMultihopQA и на 10.8 пункта в HotpotQA (при использовании модели OLMo-2-32B). Данные результаты демонстрируют, что QuCo-RAG значительно превосходит существующие методы в задачах, требующих точного соответствия ответа и ожидаемого значения, и подтверждают эффективность подхода к валидации неопределенности и выявлению неподкрепленных утверждений.
В ходе оценки эффективности системы QuCo-RAG на датасете PubMedQA, специализирующемся на вопросах медицинской тематики, достигнута наивысшая точность в 66.4

За Пределами QuCo-RAG: Интеграция Внутренних Сигналов Модели и Перспективы Развития
В отличие от традиционных систем, опирающихся исключительно на статистику корпуса текстов, QuCo-RAG расширяет возможности адаптивного поиска информации, активно используя “внутренние сигналы” языковой модели. К таким сигналам относятся вероятности токенов и энтропия, которые позволяют оценивать степень уверенности модели в каждом сгенерированном слове. Интеграция этих сигналов позволяет системе не только находить наиболее релевантные фрагменты текста, но и оценивать их надежность, а также учитывать степень неопределенности модели при генерации ответа. Такой подход обеспечивает более точный и обоснованный ответ, поскольку система учитывает не только то, что она «знает», но и то, насколько она уверена в своих знаниях, что существенно повышает доверие к генерируемому контенту.
Исследования в области динамического поиска и генерации ответов (RAG) демонстрируют значительный потенциал адаптации процесса поиска информации на основе внутренних сигналов языковой модели. Методы, такие как ETC (Entity-Based Translation Correction), FLARE (Fine-grained Lexical and Retrieval Enhancement), DRAGIN (Dynamic Retrieval and Generation with INformation) и SeaKR (Search-Enhanced Knowledge Retrieval), подтверждают эффективность использования этих сигналов для улучшения релевантности и точности генерируемых ответов. В отличие от традиционных систем, где поиск информации осуществляется однократно, данные подходы позволяют модели динамически корректировать стратегию поиска, опираясь на оценку собственной уверенности и вероятности токенов, что приводит к более гибкому и контекстуально-зависимому извлечению знаний и, как следствие, к более качественным ответам на запросы.
Повышение калибровки больших языковых моделей (LLM) — приведение соответствия между уверенностью модели в своих ответах и фактической точностью этих ответов — является фундаментальным требованием для создания действительно надежных систем искусственного интеллекта. Некалиброванные модели склонны к выдаче ложных утверждений с высокой уверенностью, что подрывает доверие и ограничивает их применение в критически важных областях. Исследования показывают, что улучшение калибровки не только повышает общую надежность, но и позволяет более эффективно использовать информацию о неопределенности, предоставляемую моделью. Методы калибровки, такие как температурная шкала и ансамблевое обучение, позволяют скорректировать выходные вероятности модели, делая их более репрезентативными для фактической точности. В конечном итоге, хорошо откалиброванная LLM способна не только предоставлять точные ответы, но и честно оценивать свою собственную уверенность, что является ключевым шагом к созданию прозрачных и ответственных систем ИИ.
В основе QuCo-RAG лежат принципы количественной оценки неопределенности и опоры генерации ответов на подтверждающие доказательства, что имеет решающее значение для развития ответственного искусственного интеллекта. Подход позволяет не только повысить надежность предоставляемой информации, но и сделать процесс принятия решений более прозрачным и обоснованным. В отличие от многих других методов, QuCo-RAG достигает этой цели, сохраняя умеренный расход токенов — всего 87 токенов на вопрос, что делает его эффективным и экономичным решением для широкого спектра задач, требующих высокой точности и надежности генерируемого контента.

Исследование, представленное в данной работе, демонстрирует, что оценка неопределенности, основанная на статистике претренировочного корпуса, является ключевым фактором в смягчении галлюцинаций больших языковых моделей. Этот подход, воплощенный в QuCo-RAG, подчеркивает необходимость учитывать не только текущие знания модели, но и контекст, в котором эти знания были сформированы. Как однажды заметила Барбара Лисков: «Программы должны быть спроектированы таким образом, чтобы изменения в одной части не приводили к непредсказуемым последствиям в других». Эта мысль находит отражение в QuCo-RAG, где динамический RAG позволяет адаптироваться к изменяющимся данным и повысить надежность генерируемых ответов, минимизируя влияние устаревшей или недостоверной информации из претренировочного корпуса. Система стремится к эволюции, а не к мгновенному совершенству.
Что же дальше?
Представленная работа, стремясь к смягчению иллюзорности больших языковых моделей через оценку неопределенности, лишь подчеркивает фундаментальную истину: любая система неизбежно стареет. Статистика обучающего корпуса, использованная в QuCo-RAG, является лишь моментом в потоке времени, отражением знания на определенный момент. По мере накопления новых данных, эта статистика устаревает, а вместе с ней и эффективность предложенного подхода. Стабильность, достигнутая сегодня, может оказаться лишь отсрочкой неизбежного столкновения с неполнотой и искажением информации.
Будущие исследования должны сосредоточиться не столько на усовершенствовании механизмов извлечения и аугментации, сколько на разработке систем, способных осознавать свою собственную неполноту. Необходимо выйти за рамки количественной оценки неопределенности и перейти к качественному пониманию границ применимости модели. Поиск способов адаптации к меняющемуся информационному ландшафту, возможно, потребует отхода от статических корпусов и перехода к динамическим, самообучающимся системам.
В конечном счете, задача заключается не в создании идеальной модели, а в разработке системы, способной достойно стареть — признавать свои ошибки, адаптироваться к новым условиям и, возможно, даже предсказывать собственную неспособность к дальнейшему функционированию. Иначе говоря, необходимо стремиться к созданию системы, которая понимает, что время — не метрика, а среда, в которой она существует.
Оригинал статьи: https://arxiv.org/pdf/2512.19134.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Нейронные Операторы в Энергетике: Новый Подход к Моделированию
- Фотонные квантовые вычисления: на пути к практической реализации
- Квантовая оптимизация без ограничений: Новый подход к масштабируемым алгоритмам
- Быстрая генерация текста: от авторегрессии к диффузионным моделям
- Квантовый сенсор: Оптимизация для быстрых и точных измерений
- Адаптивная Квантизация: Новый Подход к Сжатию Больших Языковых Моделей
- Квантовые ядра в работе: новый взгляд на классификацию данных
- Ранговая оптимизация без градиента: Новые границы эффективности
- Синергия лекарств: поиск комбинаций с помощью квантовых вычислений
- Искусство отбора данных: Новый подход к обучению генеративных моделей
2025-12-23 18:55