Знания в движении: как научить ИИ ориентироваться в корпоративных базах данных

Автор: Денис Аветисян


Новый подход позволяет ИИ-агентам не просто извлекать информацию, а активно исследовать и использовать знания, хранящиеся в корпоративных системах.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Традиционные системы RAG пассивно предоставляют языковой модели фиксированные фрагменты текста, в то время как Corpus2Skill дистиллирует корпус знаний в иерархию навыков, позволяя агенту активно исследовать, возвращаться и углубляться в данные для поиска релевантных доказательств.
Традиционные системы RAG пассивно предоставляют языковой модели фиксированные фрагменты текста, в то время как Corpus2Skill дистиллирует корпус знаний в иерархию навыков, позволяя агенту активно исследовать, возвращаться и углубляться в данные для поиска релевантных доказательств.

Предложена система Corpus2Skill, преобразующая корпоративные базы знаний в иерархии навыков для агентов ИИ, повышая эффективность поиска и ответов по сравнению с традиционными методами генерации с дополнением извлечением.

Несмотря на успехи систем генерации с расширением поиска (RAG), они часто рассматривают корпус знаний как непрозрачный источник данных, ограничивая способность модели к осмысленному исследованию информации. В работе ‘Don’t Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG’ предложен подход Corpus2Skill, преобразующий корпоративные базы знаний в иерархические структуры навыков, доступные для навигации агентами на основе больших языковых моделей. Это позволяет агенту не просто извлекать релевантные документы, а целенаправленно исследовать корпус, отслеживать пройденные пути и комбинировать информацию из различных источников. Способны ли подобные системы значительно повысить эффективность поиска и ответов на вопросы в сложных корпоративных средах?


За гранью простого поиска: Ограничения плоского извлечения

Традиционные методы поиска информации, такие как `FlatRetrieval`, несмотря на свою простоту, зачастую оказываются неэффективными при обработке сложных запросов и выявлении тонких нюансов в потребностях пользователя. Эти системы полагаются исключительно на совпадение ключевых слов, игнорируя семантические связи и контекст внутри корпуса документов. В результате, даже при формальном соответствии запросу, извлеченные фрагменты могут оказаться нерелевантными или неполными, что существенно снижает качество генерируемых ответов и ограничивает возможности систем, использующих подход RAG (Retrieval-Augmented Generation). Ограниченность подобного подхода особенно заметна при работе с нечеткими запросами или вопросами, требующими понимания контекста и вывода заключений.

Традиционные методы поиска информации, основанные на сопоставлении ключевых слов, часто оказываются неэффективными при работе с комплексными запросами. Они не способны улавливать смысловые связи между словами и предложениями в корпусе документов, что приводит к тому, что извлекаемая информация может быть нерелевантной или неполной. Данное ограничение существенно влияет на качество ответов, генерируемых большой языковой моделью (LLM), поскольку та оперирует лишь тем материалом, который ей предоставлен системой поиска. В результате, даже при наличии огромного объема данных, LLM может давать неточные или вводящие в заблуждение ответы, если система поиска не способна предоставить ей контекстно-релевантную информацию, учитывающую семантическую сложность запроса.

Ограничения, накладываемые традиционными методами поиска, существенно влияют на качество ответов, генерируемых системами генерации с расширением поиска (RAG). Неспособность улавливать семантические связи между документами приводит к тому, что извлекаемая информация часто оказывается нерелевантной или неполной для формирования точного и содержательного ответа. Вследствие этого, для достижения действительно высококачественных результатов, требуется переход к более структурированным подходам к извлечению информации, включающим в себя, например, семантический поиск и анализ контекста, что позволит системе RAG эффективно использовать доступные знания и предоставлять пользователям действительно полезные ответы на сложные запросы.

Система Corpus2Skill компилирует текстовые документы в иерархическую структуру навыков, представленную в виде
Система Corpus2Skill компилирует текстовые документы в иерархическую структуру навыков, представленную в виде «леса», что позволяет агенту на основе LLM эффективно перемещаться по знаниям и извлекать необходимую информацию с помощью инструментов навигации и поиска документов.

Corpus2Skill: Строим навигационный граф знаний

Фреймворк Corpus2Skill осуществляет преобразование неструктурированных корпусов документов в иерархическое SkillTree, предназначенное для целенаправленного поиска информации агентами. Процесс включает в себя автоматическое извлечение ключевых понятий и связей из текста, последующую организацию этих данных в древовидную структуру, где каждый узел представляет собой определенный навык или область знаний. В результате создается упорядоченная система, позволяющая агентам исследовать корпус документов не случайным образом, а по заранее определенным направлениям, что значительно повышает эффективность поиска релевантной информации и снижает временные затраты.

Преобразование неструктурированных корпусов документов в иерархическое представление знаний осуществляется посредством иерархической кластеризации (HierarchicalClustering). Данный метод группирует взаимосвязанный контент на основе семантической близости, создавая многоуровневую структуру, отражающую принципы организации человеческих знаний. В результате формируется иерархия кластеров, где каждый уровень представляет собой более широкую категорию, а подкластеры — более узкие специализации. Использование иерархической кластеризации позволяет автоматически выявлять и структурировать знания, содержащиеся в текстовых данных, без необходимости ручной аннотации или определения категорий.

Структура SkillTree обеспечивает агентам эффективную навигацию по корпусу документов, значительно превосходя по скорости и точности методы плоского поиска. Вместо последовательного перебора всех документов, SkillTree позволяет агенту перемещаться по иерархической структуре, сразу фокусируясь на релевантных разделах и исключая ненужную информацию. Это достигается за счет организации знаний в виде узлов и связей, что позволяет агенту, используя алгоритмы обхода графа, быстро находить требуемые данные и снижать вычислительные затраты по сравнению с поиском по всему корпусу без предварительной структуризации.

Агентская навигация и прогрессивное раскрытие информации

Оптимизация доставки контекста к большой языковой модели (LLM) достигается путем комбинирования структуры `SkillTree` с техникой постепенного раскрытия информации (ProgressiveDisclosure). `SkillTree` предоставляет организованный способ доступа к релевантным данным, а ProgressiveDisclosure позволяет предоставлять LLM только ту информацию, которая необходима для текущей задачи. Это минимизирует количество токенов, используемых в запросе, снижая затраты и повышая скорость обработки. Одновременно, целенаправленная подача контекста улучшает качество ответа, поскольку LLM не перегружается избыточной информацией и может сосредоточиться на решении поставленной задачи.

Агент использует `SkillTree` для эффективной навигации по информационному пространству, осуществляя итеративную фильтрацию результатов поиска на основе обратной связи от большой языковой модели (LLM). Этот процесс позволяет агенту динамически уточнять запрос, фокусируясь на наиболее релевантных данных. Каждая итерация включает анализ ответа LLM и корректировку стратегии поиска в `SkillTree`, что приводит к последовательному улучшению точности и релевантности предоставляемой информации. Таким образом, `SkillTree` служит не просто индексом, а адаптивным инструментом для управления поиском, оптимизированным под конкретные запросы и контекст.

Процесс компиляции обеспечивает точное отражение содержания корпуса данных в структуре SkillTree, что критически важно для релевантности извлекаемой информации. В свою очередь, AgentSkills предоставляют процедурные знания, необходимые для эффективного обхода SkillTree, определяя последовательность действий и логику поиска. Компиляция включает в себя анализ и индексацию контента, создавая узлы и связи в SkillTree, а AgentSkills — это набор инструкций, определяющих, как агент перемещается по этой структуре, оценивает релевантность найденной информации и адаптирует стратегию поиска на основе обратной связи от LLM.

Эмпирическая валидация с WixQA: Результаты и выводы

Оценка на наборе данных WixQA показала, что Corpus2Skill, будучи интегрированным с AgenticRAG, демонстрирует превосходство над подходами FlatRetrieval и RAPTOR. Данная комбинация позволила достичь значительного улучшения в качестве ответов, что подтверждается результатами экспериментов. В частности, мы наблюдаем, что Corpus2Skill не только эффективно извлекает релевантную информацию, но и формирует более точные и содержательные ответы, что делает его перспективным решением для задач, требующих глубокого понимания контекста и предоставления достоверных сведений.

В ходе эмпирической проверки на наборе данных WixQA, методика Corpus2Skill продемонстрировала значительное улучшение качества ответов по сравнению с базовой линией Agentic RAG. В частности, зафиксировано относительное повышение на 19%, что подтверждается значением Token F1, достигшим 0.460. Этот показатель свидетельствует о более высокой точности и релевантности предоставляемой информации, что делает Corpus2Skill перспективным подходом к повышению эффективности систем ответов на вопросы. Повышенное качество ответов, достигнутое благодаря Corpus2Skill, позволяет пользователям получать более точные и полезные сведения.

Проведенная оценка на наборе данных WixQA продемонстрировала превосходство подхода Corpus2Skill в обеспечении фактической точности и полноты извлечения контекста. Показатель фактичности (Factuality) Corpus2Skill достиг значения 0.729, что значительно превышает аналогичный показатель для RAPTOR (0.675). Более того, Corpus2Skill продемонстрировал превосходство в полноте извлечения релевантного контекста (Context Recall) — 0.652, превзойдя как RAPTOR (0.616), так и Agentic RAG (0.481). Эти результаты свидетельствуют о повышенной способности системы предоставлять не только релевантные, но и достоверные ответы, основанные на точно извлеченных данных из исходных документов.

Анализ затрат на обработку запросов показывает, что, несмотря на превосходящие результаты, стоимость одного запроса с использованием Corpus2Skill составляет $0.17. Данный показатель на 1.75 раза превышает стоимость аналогичной операции с использованием AgenticRAG, однако значительно — в 14 раз — ниже, чем при использовании RAPTOR. Такой баланс между эффективностью и стоимостью делает Corpus2Skill привлекательным решением, предлагающим существенное улучшение качества ответов и фактической точности при умеренных финансовых затратах.

Исследование предлагает отойти от простой выдачи релевантных документов в пользу навигации по структурированным знаниям. Корпус2Skill, по сути, демонстрирует, что даже самые сложные системы RAG выигрывают от чёткой иерархии навыков, позволяющей агенту не просто найти информацию, но и осмысленно её применить. Как однажды заметил Брайан Керниган: «Хорошая программа — это не только правильно работающий код, но и код, который легко понять и изменить». Подобно этому, эффективная система знаний должна быть не просто богатой информацией, но и организованной таким образом, чтобы её можно было легко использовать и адаптировать к меняющимся требованиям, избегая превращения в сложный и неповоротливый «техдолг».

Куда же мы катимся?

Предложенный подход к организации корпоративных знаний, безусловно, элегантен. Идея преобразовать разрозненные данные в иерархию навыков для агентов кажется логичной… пока эти самые агенты не столкнутся с реальностью. Ведь любое «самовосстанавливающееся» знание — это просто знание, которое ещё не успело сломаться. И, как показывает опыт бесконечных миграций, «стабильная» система — это та, в которой баг воспроизводится, а не та, которую мы просто не можем найти.

Следующим шагом, вероятно, станет попытка автоматизировать процесс создания этих самых «навыков». Но документация, как известно, — это форма коллективного самообмана. И чем больше автоматизации, тем больше вероятность, что система начнёт «знать» вещи, которые не соответствуют действительности. Поэтому, прежде чем мечтать об искусственном интеллекте, стоит убедиться, что у нас есть хоть какой-то интеллект, способный проверить, что этот ИИ говорит.

В конечном итоге, вся эта история — лишь ещё одна попытка навести порядок в хаосе корпоративных данных. И, как показывает практика, этот хаос всегда найдёт способ победить. Но, возможно, в этот раз мы сможем немного замедлить процесс.


Оригинал статьи: https://arxiv.org/pdf/2604.14572.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-17 14:28