Поиск ответов: Новый подход к расширенному извлечению знаний

Автор: Денис Аветисян

Исследователи предлагают инновационный метод, позволяющий находить более точные и полные ответы на вопросы, используя структурированные знания.

В рамках разработанной системы ToPG, оперирующей на гетерогенном графе, связывающем сущности и отрывки текста посредством предложений, осуществляется навигация посредством итеративных циклов «Предложение-Отбор», позволяющих реализовать три режима работы: простой поиск фактов, многошаговый вывод и поиск на основе сообществ.

В статье представлена ToPG — платформа, использующая графы предложений и алгоритмы обхода для улучшения производительности систем генерации ответов, основанных на извлечении знаний.

Стандартные подходы к поиску и генерации ответов (RAG) часто оказываются неэффективными при решении сложных многоступенчатых запросов из-за недостатка структурной связности. В данной работе, ‘A Navigational Approach for Comprehensive RAG via Traversal over Proposition Graphs’, предложена новая RAG-структура ToPG, моделирующая базу знаний как гетерогенный граф пропозиций, сущностей и отрывков текста, что объединяет детализацию фактов с возможностью обхода графа. ToPG использует итеративные циклы «Предложение-Отбор» для навигации по графу и отсеивания нерелевантной информации, демонстрируя высокую производительность в различных задачах вопросно-ответной системы. Способна ли предложенная архитектура ToPG стать основой для создания более эффективных и гибких систем структурированного поиска и генерации ответов?

За пределами шаблонов: потребность в осмысленном рассуждении

Несмотря на впечатляющую способность больших языковых моделей (БЯМ) распознавать закономерности в данных, их возможности в решении сложных задач, требующих привлечения внешних знаний, остаются ограниченными. БЯМ эффективно оперируют статистическими связями, выявленными в процессе обучения, однако испытывают трудности при необходимости логического вывода, основанного на фактах, не содержащихся непосредственно в обучающем корпусе. Эта проблема особенно остро проявляется в сценариях, где требуется не просто извлечь информацию, но и установить причинно-следственные связи, провести аналогии или синтезировать новые знания из разрозненных источников. В результате, даже самые продвинутые БЯМ могут допускать ошибки в рассуждениях, если задача выходит за рамки простого сопоставления шаблонов и требует глубокого понимания предметной области.

Традиционные методы извлечения информации для «заземления» больших языковых моделей (LLM) зачастую оказываются неспособны уловить тонкие взаимосвязи между фактами и поддержать многоступенчатый логический вывод. Вместо глубокого понимания контекста, они полагаются на поверхностное сопоставление ключевых слов, что приводит к неполным или ошибочным ответам, особенно когда требуется объединить разрозненные фрагменты знаний. Существующие подходы, как правило, не учитывают семантические нюансы и не способны эффективно отслеживать сложные цепочки рассуждений, необходимые для решения задач, требующих синтеза информации из различных источников. Это ограничивает способность LLM не просто находить релевантные данные, но и логически обрабатывать их для формирования обоснованных и надежных выводов.

Существующие методы доступа к знаниям часто оказываются неэффективными при работе с обширными базами данных, что негативно сказывается на надежности и обоснованности ответов. Проблема заключается в неспособности систем эффективно ориентироваться в сложных структурах знаний, выделять релевантную информацию и объединять её для формирования целостных умозаключений. Вместо глубокого анализа и синтеза, многие подходы ограничиваются поверхностным поиском и сопоставлением, что приводит к неточным или неполным ответам, особенно в ситуациях, требующих многоступенчатого логического вывода и понимания контекста. Необходимы принципиально новые механизмы, позволяющие системам не просто извлекать факты, но и активно рассуждать на их основе, подобно человеческому мышлению, для обеспечения достоверности и обоснованности получаемых результатов.

Из входных текстов извлекаются пропозиции и сущности, формирующие базу знаний, при этом векторные представления сущностей, используемые для разрешения синонимов, не отображаются для упрощения восприятия.

ToPG: Графовый фреймворк для надежного RAG

ToPG представляет знания в виде гетерогенного графа, состоящего из трех основных типов узлов: сущности (entities), пропозиции (propositions) и отрывки текста (passages). Сущности представляют собой конкретные объекты или понятия, пропозиции — утверждения о связях между сущностями, а отрывки текста — источники информации, содержащие эти утверждения. Такое представление позволяет установить явные связи между различными элементами знаний, в отличие от традиционных методов, где информация хранится в изолированных векторных представлениях. Гетерогенность графа обеспечивает более детальное и структурированное представление знаний, что способствует более эффективному поиску и извлечению релевантной информации для ответа на сложные вопросы.

В основе ToPG лежит итеративный процесс «Предложение-Отбор» (Suggestion-Selection), предназначенный для эффективного исследования графа знаний. На каждом шаге, модель генерирует список потенциально релевантных узлов (Предложение), после чего, используя критерии релевантности, выбирает наиболее подходящие для ответа на запрос (Отбор). Этот цикл повторяется несколько раз, позволяя модели последовательно уточнять поиск и выявлять информацию, необходимую для комплексных запросов. Итеративность процесса позволяет эффективно исследовать граф, избегая необходимости полного перебора всех узлов, что существенно повышает скорость и точность поиска релевантных данных.

Подход ToPG объединяет преимущества генерации, дополненной поиском (Retrieval-Augmented Generation, RAG), с возможностями обхода графов, что позволяет создать более мощный и адаптивный механизм рассуждений. В результате, ToPG демонстрирует приблизительно 50%-ный уровень побед над GraphRAG на абстрактных задачах вопросно-ответных систем (abstract QA datasets). Это достигается за счет структурированного представления знаний в виде графа и итеративного процесса поиска релевантной информации, что позволяет более эффективно отвечать на сложные вопросы по сравнению с традиционными методами RAG.

Результаты показывают, что ToPG превосходит GraphRAG и LightRAG по проценту побед при использовании от 200 до 1000 собранных пропозиций и обратной связи в стиле Rocchio.

Адаптивное исследование: наивный, локальный и глобальный режимы

ToPG использует три различных режима работы, оптимизированных под разные типы запросов. В режиме Naive (простом) система предназначена для извлечения фактической информации, отвечая на прямые вопросы, требующие однозначного ответа. Режим Local (локальный) предназначен для решения задач многошагового вывода, когда ответ требует объединения информации из нескольких источников в графе знаний. Режим Global (глобальный) обеспечивает поддержку абстрактных вопросов, требующих обобщения и анализа широкого спектра концепций, и использует методы обнаружения сообществ и алгоритм Rocchio для эффективного поиска релевантной информации.

Локальный режим функционирования системы использует циклы «Предложение-Отбор» для итеративного уточнения ответа. Данный процесс предполагает последовательное генерирование релевантных предложений (suggestions) из графа знаний, за которым следует отбор наиболее подходящих на основе заданных критериев. Каждая итерация позволяет устанавливать связи между разрозненными фрагментами информации, эффективно объединяя доказательства и повышая точность ответа на многошаговые вопросы. Циклическая природа процесса позволяет системе постепенно сужать область поиска и фокусироваться на наиболее перспективных путях в графе знаний.

Глобальный режим функционирования системы использует алгоритмы обнаружения сообществ (community detection) для выявления взаимосвязанных областей знаний в графе знаний. Это позволяет исследовать широкие концептуальные пространства, необходимые для ответа на сложные, абстрактные вопросы. Для ранжирования релевантных документов в рамках этих сообществ применяется алгоритм Rocchio, который выполняет взвешенное суммирование терминов из релевантных и нерелевантных документов, оптимизируя процесс поиска наиболее подходящей информации для заданного запроса.

Гибкость фреймворка ToPG обеспечивается возможностью адаптации к различным типам запросов, что приводит к существенному улучшению результатов в задачах многошагового вопросно-ответного поиска (multi-hop QA). Переключение между режимами Naive, Local и Global позволяет системе оптимизировать процесс поиска в зависимости от сложности вопроса. В сценариях, требующих соединения разрозненных фактов, режим Local обеспечивает итеративное уточнение ответа через циклы Suggestion-Selection. Для абстрактных вопросов, режим Global использует алгоритмы обнаружения сообществ и Rocchio для исследования широкого спектра концепций, что позволяет находить более полные и релевантные ответы по сравнению со статичными подходами.

Схема иллюстрирует последовательные шаги выполнения алгоритма в локальном и глобальном режимах.

Эффективный обход графа с помощью Personalized PageRank

Для эффективного обхода графа знаний ToPG использует алгоритм Personalized PageRank и метод Query-Aware Transition. Personalized PageRank позволяет приоритизировать узлы графа, основываясь на релевантности запросу пользователя, а не на общей структуре графа. Query-Aware Transition дополнительно модифицирует вероятности переходов между узлами во время случайных блужданий, направляя поиск в семантически близкие области, соответствующие входному запросу. Комбинация этих двух методов позволяет значительно сократить пространство поиска и повысить эффективность извлечения релевантной информации из графа знаний.

Метод ToPG значительно сокращает пространство поиска и повышает эффективность извлечения информации за счет смещения случайных блужданий по графу знаний в сторону перспективных узлов. Вместо равномерного обхода, алгоритм направляет блуждания к узлам, имеющим более высокую вероятность содержать релевантную информацию, что позволяет быстрее достичь целевых узлов и снизить количество исследуемых предложений. Это достигается за счет использования персонализированного PageRank, который присваивает более высокий вес узлам, связанным с исходным запросом, и, следовательно, увеличивает вероятность их посещения в процессе случайного блуждания. В результате, алгоритм эффективно концентрируется на наиболее значимых областях графа, минимизируя необходимость в полном обходе и повышая скорость поиска.

Использование интеллектуальной стратегии обхода графа в сочетании с эффективным индексированием позволяет ToPG масштабироваться для работы с большими базами знаний без снижения производительности. В частности, на наборе данных MusiQue, при использовании менее 600 базовых пропозиций, ToPG в некоторых случаях демонстрирует меньшее количество токенов по сравнению с GraphRAG. Это свидетельствует об оптимизации процесса поиска и снижении вычислительных затрат, связанных с обработкой данных, что делает ToPG эффективным решением для работы с крупномасштабными графовыми базами знаний.

Матрица переходов, учитывающая запросы, <span class="katex-eq" data-katex-display="false">MM</span>, построена на гипотетическом подграфе <span class="katex-eq" data-katex-display="false">G^*</span> с четырьмя ключевыми узлами, где ширина стрелок отражает вероятность перехода между ними, а ранжирование, основанное на стационарном распределении вероятностей π с использованием <span class="katex-eq" data-katex-display="false">MM</span>, визуально отображается размером узлов, указывая на их итоговую вероятность и ранг. — Матрица переходов, учитывающая запросы, $MM$ , построена на гипотетическом подграфе $G^*$ с четырьмя ключевыми узлами, где ширина стрелок отражает вероятность перехода между ними, а ранжирование, основанное на стационарном распределении вероятностей π с использованием $MM$ , визуально отображается размером узлов, указывая на их итоговую вероятность и ранг.

К интеллектуальным системам: будущие направления и влияние

Представленная технология ToPG знаменует собой существенный прорыв в области RAG (Retrieval-Augmented Generation), значительно повышая надёжность и обоснованность рассуждений больших языковых моделей. В отличие от традиционных подходов, ToPG позволяет не просто извлекать релевантную информацию из обширных баз знаний, но и устанавливать сложные связи между отдельными фрагментами данных, формируя целостную и аргументированную картину. Это достигается за счёт построения графа знаний, где узлы представляют собой факты, а рёбра — связи между ними, что позволяет модели проводить более глубокий анализ и делать более точные выводы. В результате, языковые модели, использующие ToPG, демонстрируют улучшенные результаты в решении сложных задач, требующих не только доступа к информации, но и способности к логическому мышлению и синтезу знаний.

Рассмотренная схема обладает значительным потенциалом в широком спектре приложений благодаря способности объединять разрозненные фрагменты информации и синтезировать знания из обширных баз данных. В частности, это открывает новые возможности для систем ответов на вопросы, позволяя им предоставлять более точные и полные ответы, основанные на комплексном анализе данных. Не менее важна эта способность для задач открытия знаний, где система способна выявлять скрытые связи и закономерности в больших объемах информации. Кроме того, подобный подход существенно повышает эффективность систем поддержки принятия решений, предоставляя пользователям всесторонний анализ и обоснованные рекомендации, что особенно актуально в областях, требующих обработки сложных и многогранных данных.

Дальнейшие исследования направлены на повышение масштабируемости разработанной системы, что позволит ей эффективно обрабатывать еще более обширные базы знаний и решать сложные задачи. Особое внимание уделяется разработке новых стратегий обхода графов, направленных на оптимизацию поиска релевантной информации и повышение скорости принятия решений. Предполагается интеграция ToPG с другими передовыми методами искусственного интеллекта, такими как обучение с подкреплением и нейросимволические системы, для создания гибридных моделей, способных к более глубокому пониманию и рассуждению. Такой подход откроет возможности для разработки интеллектуальных систем, способных не только отвечать на вопросы, но и активно участвовать в процессе познания и принятия решений в различных областях, от научных исследований до автоматизированного управления.

Сравнение количества токенов между базовыми моделями на наборах данных Agriculture, CS, Legal и MusiQue показывает различия в их сложности и эффективности обработки данных.

Предложенный подход ToPG к организации извлечения информации демонстрирует элегантную простоту. Он не стремится к усложнению, а, напротив, выделяет суть — пропозициональный уровень графа, позволяющий осуществлять навигацию по знаниям, а не просто поиск в них. Как однажды заметил Брайан Керниган: «Простота — это конечное совершенство». Эта мысль особенно резонирует с идеей ToPG, поскольку система ориентирована на четкое и лаконичное представление информации, необходимой для ответа на вопрос. Стремление к ясности, а не к максимальной детализации, лежит в основе эффективности предложенного метода извлечения и генерации ответов.

Куда Далее?

Предложенный подход, хотя и демонстрирует улучшение в извлечении знаний, не решает фундаментальную проблему: сложность порождает неопределенность. Графы предложений, как и любые другие структуры, подвержены искажениям при интерпретации. Дальнейшие исследования должны сосредоточиться не на усложнении графов, а на разработке методов, позволяющих выявлять и минимизировать шум в данных, а также на оценке достоверности извлеченных утверждений.

Особое внимание следует уделить гетерогенным графам. Унификация различных типов знаний — задача, требующая не только технических решений, но и философского осмысления. Необходимо задаться вопросом: достаточно ли просто объединить данные, или необходимо разработать принципы, определяющие их совместимость и взаимосвязь?

В конечном итоге, истинный прогресс заключается не в создании более мощных алгоритмов, а в признании пределов наших знаний. Поиск ответов — это бесконечный процесс, а не достижение конечной цели. Простота — это не слабость, а признак глубокого понимания.

Оригинал статьи: https://arxiv.org/pdf/2601.04859.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-12 00:15

🚀 Квантовые новости