Знания из текста: строим интеллектуальные графы с помощью языковых моделей

Автор: Денис Аветисян

Новый подход позволяет автоматически извлекать структурированные знания из неструктурированного текста, связывая их с глобальной базой знаний Wikidata.

Система Wikontic строит структурированные знания, извлекая тройки сущностей из текста и приводя их в соответствие с онтологией Wikidata: языковая модель выявляет потенциальные связи, после чего типы сущностей уточняются, а несоответствия онтологическим ограничениям корректируются или удаляются, что в конечном итоге приводит к созданию дедуплицированного и согласованного графа знаний, готового к дальнейшему использованию.

Представлен Wikontic — конвейер, использующий большие языковые модели для создания онтологически согласованных графов знаний, демонстрирующий конкурентоспособные результаты в задачах многошагового вопросно-ответного поиска.

Несмотря на растущую роль структурированных знаний в работе с большими языковыми моделями, их потенциал часто ограничивается использованием графов знаний как вспомогательных структур для поиска информации. В данной работе представлена система ‘Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models’, предназначенная для автоматического построения высококачественных графов знаний из неструктурированного текста с использованием LLM и привязкой к онтологии Wikidata. Предложенный конвейер демонстрирует высокую компактность, согласованность и связность полученных графов, достигая конкурентоспособных результатов в задачах многошагового вопросно-ответного поиска. Способна ли данная технология существенно расширить возможности LLM за счет более эффективного использования структурированных знаний и откроет ли она новые перспективы для разработки интеллектуальных систем?

Вызовы структурированных знаний: Хрупкость систем

Традиционные методы извлечения информации сталкиваются со значительными трудностями при работе с неоднозначностью и масштабированием для охвата сложных предметных областей. Проблема заключается в том, что естественный язык по своей природе допускает множество интерпретаций, что затрудняет автоматическое определение точного значения сущностей и отношений между ними. По мере увеличения объема обрабатываемых данных и сложности предметной области, точность и эффективность этих методов снижаются экспоненциально. Например, фраза “Яблоко представила новый телефон” может относиться как к компании Apple, так и к фрукту, в зависимости от контекста, что требует сложных алгоритмов для разрешения неоднозначности. Более того, эти методы часто ограничены предопределенными шаблонами и не способны адаптироваться к новым или неожиданным формам выражения, что препятствует их применению в динамично меняющихся областях знаний.

Создание надежных графов знаний (Knowledge Graphs, KG) сопряжено с существенными трудностями, обусловленными ограничениями в области распознавания сущностей и понимания взаимосвязей между ними. Эффективное извлечение информации требует не просто идентификации объектов, но и точного определения их типа и роли в конкретном контексте. Не менее сложной задачей является выявление отношений между сущностями — например, установление факта, что определенный ученый является автором конкретной научной работы. Современные алгоритмы часто испытывают трудности при работе с неоднозначными формулировками и сложными синтаксическими конструкциями, что приводит к ошибкам при построении связей в графе знаний. Преодоление этих ограничений требует разработки новых методов, сочетающих в себе достижения в области обработки естественного языка, машинного обучения и семантического веба, что позволит создавать более точные и полные представления о знаниях в различных предметных областях.

Существующие методы автоматического построения баз знаний, несмотря на значительный прогресс, часто демонстрируют недостаточную точность, что критически влияет на надежность логических выводов и ответов на вопросы. Неточности в извлечении сущностей и определении связей между ними приводят к формированию неполных или ошибочных графов знаний. В результате, системы, полагающиеся на такие базы данных, могут выдавать некорректные ответы или делать ошибочные заключения, особенно в сложных предметных областях, где контекст и нюансы имеют решающее значение. Повышение точности извлечения и верификации информации является ключевой задачей для создания действительно интеллектуальных систем, способных к надежному и осмысленному анализу данных.

Гибкость естественного языка представляет собой значительную трудность при автоматическом построении графов знаний. Отсутствие строгой грамматической структуры и множественность возможных интерпретаций одного и того же предложения создают сложности для алгоритмов, стремящихся извлечь точные факты и отношения между сущностями. Например, фраза «Александр Пушкин написал роман в Опушкино» может быть интерпретирована по-разному: Пушкин написал роман, действие которого происходит в Опушкино, или же он написал его непосредственно там. Подобная неоднозначность требует разработки сложных лингвистических моделей и методов разрешения неоднозначности, способных учитывать контекст и семантику текста для точного определения взаимосвязей и формирования достоверного графа знаний. Именно эта изменчивость и богатство языка делает автоматизацию процесса создания графов знаний сложной, но перспективной задачей.

Извлечение знаний из неструктурированного текста осуществляется посредством многоэтапного конвейера, включающего извлечение триплетов с помощью LLM, проверку их структуры на основе онтологии и связывание с нормализацией сущностей.

Wikontic: Формирование онтологически согласованных графов знаний

Wikontic представляет собой новый многоэтапный фреймворк, предназначенный для непосредственного построения графов знаний (Knowledge Graphs, KGs), согласованных с данными Wikidata, непосредственно из текстовых источников. В отличие от традиционных подходов, требующих ручной курации или промежуточных этапов преобразования данных, Wikontic автоматизирует процесс создания KGs, используя возможности обработки естественного языка. Фреймворк разработан для обеспечения высокой степени согласованности с существующей онтологией Wikidata, что позволяет интегрировать полученные графы знаний в существующую экосистему данных и повысить их полезность для различных приложений, таких как семантический поиск и анализ данных.

В основе Wikontic лежит использование больших языковых моделей (LLM) для первоначального извлечения триплетов знаний из текста. LLM применяются для идентификации сущностей и отношений между ними, формируя базовый набор утверждений в формате «субъект-предикат-объект». Этот этап позволяет автоматически извлекать информацию из неструктурированного текста, преобразуя её в машиночитаемый формат. Извлеченные триплеты служат отправной точкой для дальнейшей обработки и уточнения в рамках Wikontic, обеспечивая начальное наполнение базы знаний.

Ключевым компонентом фреймворка Wikontic является онтологическая проверка и корректировка извлеченных триплетов с использованием ограничений схемы Wikidata. Этот процесс включает в себя сопоставление извлеченных отношений и типов сущностей с формальным определением свойств и классов, представленным в Wikidata. В частности, проверяется соответствие типов аргументов в триплетах ожидаемым типам, определенным в схеме Wikidata. В случае обнаружения несоответствий, триплеты корректируются или отбрасываются, что обеспечивает согласованность и семантическую корректность формируемого графа знаний. Это позволяет избежать включения неверных или бессмысленных утверждений, повышая надежность и полезность графа знаний.

Нормализация сущностей в Wikontic представляет собой процесс сопоставления извлеченных из текста сущностей с существующими записями в базе знаний Wikidata. Этот этап критически важен для обеспечения согласованности и пригодности полученного графа знаний. В ходе нормализации, каждая идентифицированная сущность сопоставляется с соответствующим элементом Wikidata по его уникальному идентификатору (QID), что позволяет избежать дублирования и неоднозначности. В случае, если точное соответствие не найдено, применяются алгоритмы нечеткого сопоставления и ранжирования, чтобы выбрать наиболее вероятный кандидат. Успешная нормализация существенно повышает возможности интеграции графа знаний с другими источниками данных, а также облегчает использование семантических запросов и логического вывода.

Процесс уточнения триплетов на основе онтологии включает извлечение и расширение типов сущностей с помощью иерархии Wikidata, проверку допустимых связей на основе онтологических ограничений, переранжирование кандидатов на основе семантической близости и финальный отбор конфигурации триплетов с помощью языковой модели.

Усиление рассуждений с помощью структурированных знаний

Использование Wikontic ограничений схемы данных Wikidata значительно повышает качество и надежность построенных графов знаний. Ограничения схемы, определяющие типы сущностей и допустимые отношения между ними, позволяют избежать логических ошибок и противоречий при построении графа. Это приводит к формированию более структурированных и точных представлений знаний, что критически важно для последующего логического вывода и ответа на сложные вопросы. Применение этих ограничений эффективно фильтрует нерелевантную или неверную информацию, обеспечивая целостность и достоверность графа знаний, что в свою очередь положительно сказывается на результатах работы системы.

Архитектура Wikontic поддерживает решение сложных вопросов, требующих многошагового рассуждения (Multi-Hop Question Answering), благодаря возможности анализа и объединения нескольких фактов из построенного графа знаний. В отличие от систем, отвечающих на вопросы на основе единичного факта, Wikontic способен выводить ответы, требующие логического заключения из нескольких взаимосвязанных утверждений. Это достигается за счет эффективного прослеживания связей между сущностями и свойствами в графе знаний, что позволяет системе последовательно применять несколько логических шагов для вывода окончательного ответа. В процессе многошагового рассуждения система не просто извлекает информацию, но и анализирует её контекст и взаимосвязи, обеспечивая более точные и обоснованные ответы.

В Wikontic используется механизм плотного поиска (Dense Retrieval) для повышения эффективности доступа к знаниям и их извлечения. Этот метод предполагает кодирование запросов и элементов графа знаний в векторные представления в общем семантическом пространстве. Поиск осуществляется путем вычисления сходства между векторным представлением запроса и векторами элементов графа знаний, что позволяет быстро идентифицировать наиболее релевантную информацию. В отличие от традиционных методов, основанных на сопоставлении ключевых слов, плотный поиск учитывает семантическое значение слов и фраз, что значительно улучшает точность и скорость извлечения знаний из графа.

Интеграция с Wikidata позволяет фреймворку Wikontic получать доступ к обширному объему семантической информации и внешним знаниям, что значительно расширяет возможности системы. В ходе тестирования на датасете HotpotQA, Wikontic, использующий только построенный на основе Wikidata граф знаний, достиг показателя $F_1$ в 76.0%. Это демонстрирует эффективность подхода к построению и использованию структурированных знаний для решения задач многошагового вопросно-ответного поиска (Multi-Hop Question Answering) и подтверждает качество и полноту информации, предоставляемой Wikidata.

Wikontic позволяет создавать наиболее плотные графы знаний для вопросов MuSiQue, формируя подграфы вокруг сущностей вопроса и оценивая их размер относительно полного графа знаний, включая окрестности радиусом от 1 до 10 скачков и всю связную компоненту, содержащую вопрос.

За пределами рассуждений: расширение возможностей графов знаний

Wikontic выходит за рамки традиционного построения баз знаний, интегрируя их с моделями генерации, дополненной поиском (RAG). Этот подход позволяет системе не просто хранить факты, но и динамически извлекать релевантную информацию из внешних источников во время генерации ответов. В отличие от статических баз знаний, Wikontic использует RAG для контекстуализации извлеченных триплетов, что значительно повышает точность и полноту получаемых знаний. Интеграция с RAG обеспечивает более гибкое и адаптивное решение, способное справляться со сложными запросами и генерировать более содержательные и контекстуально релевантные ответы, чем традиционные системы построения баз знаний.

Внедрение квалификаторов в извлеченные тройки значительно обогащает знания, хранящиеся в графе знаний, добавляя необходимый контекст и нюансы. Вместо простого утверждения “Москва — столица России”, квалификатор может указать, что это “исторически признанная столица” или “де-факто столица”, что позволяет более точно отразить сложность реальности. Такое обогащение повышает не только выразительность графа знаний, но и его полезность для различных приложений, таких как ответы на вопросы, логический вывод и семантический поиск. Благодаря квалификаторам, граф знаний становится не просто хранилищем фактов, а источником структурированной и контекстуализированной информации, способным поддерживать более сложные и точные рассуждения.

В основе архитектуры Wikontic лежит акцент на сохранении информации, что позволило достичь показателя в 86% на бенчмарке MINE-1. Данный результат значительно превосходит аналогичные показатели, продемонстрированные моделями GraphRAG и KGGen. Такая высокая степень сохранения знаний обеспечивается за счет оптимизированного процесса извлечения и структурирования данных, позволяющего эффективно интегрировать новую информацию в существующую базу знаний без потери контекста и значимости. Высокий уровень информационного удержания свидетельствует о способности Wikontic формировать более полные и точные знания, что критически важно для решения сложных задач и генерации осмысленных ответов.

Разработанный конвейер обработки данных демонстрирует значительную эффективность в генерации токенов. В ходе тестирования он генерировал менее 1000 токенов, что в три раза меньше, чем у системы AriGraph, и в двадцать раз меньше, чем у GraphRAG. Такая экономия ресурсов не только снижает вычислительные затраты, но и способствует более быстрой обработке и интеграции полученных знаний в различные приложения, что делает систему особенно привлекательной для задач, требующих высокой производительности и масштабируемости.

Процесс уточнения сущностей при построении базы знаний позволяет уменьшить избыточность и обеспечить постепенное обновление, определяя, следует ли извлеченную сущность сопоставить с существующей или сохранить как новую на основе анализа типа и семантической близости с помощью языковой модели.

Представленная работа демонстрирует, что создание надежных графов знаний — это не просто техническая задача, а скорее процесс взращивания сложной экосистемы. Wikontic, используя возможности больших языковых моделей и опираясь на онтологическую структуру Wikidata, подтверждает, что истинная устойчивость возникает не из абсолютной уверенности в корректности данных, а из способности системы адаптироваться и эволюционировать. Как заметил Дональд Кнут: «Преждевременная оптимизация — корень всех зол». В контексте графов знаний это означает, что стремление к идеальной точности на ранних этапах может затормозить развитие системы и ее способность к обучению на реальных данных. Wikontic, напротив, предлагает гибкий подход, позволяющий системе учиться и совершенствоваться в процессе взаимодействия с информацией.

Куда же всё это ведёт?

Представленный подход, стремясь обуздать хаос неструктурированных данных посредством онтологий и больших языковых моделей, лишь откладывает неизбежное. Архитектура, в конечном счёте, есть способ откладывать хаос, а не устранять его. Вопрос не в построении идеального графа знаний, но в создании системы, способной грациозно переживать его неизбежные деформации. Упор на выравнивание с Wikidata — прагматичный шаг, но он же и признание того, что полная семантическая согласованность — недостижимая иллюзия.

Будущие исследования неизбежно столкнутся с проблемой масштабируемости. С ростом объёма обрабатываемых данных, сложность поддержания когерентности графа знаний будет экспоненциально возрастать. Необходимо сместить фокус с извлечения фактов как таковых, на создание механизмов, способных обнаруживать и разрешать противоречия, а также адаптироваться к меняющимся знаниям. Нет лучших практик, есть лишь выжившие — и выживут те системы, которые научатся эффективно работать с неопределённостью.

В конечном итоге, истинный прогресс заключается не в создании более совершенных инструментов извлечения информации, а в признании того, что порядок — это кеш между двумя сбоями. Задача состоит не в построении идеальной модели мира, а в создании системы, способной учиться на своих ошибках и адаптироваться к непредсказуемости реальности.

Оригинал статьи: https://arxiv.org/pdf/2512.00590.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-02 18:07

🚀 Квантовые новости