Искусственный интеллект: когда данные важнее модели

Автор: Денис Аветисян

Новый подход к построению интеллектуальных агентов делает акцент на интеграции структурированных данных, а не на мощности языковых моделей.

Архитектура RUBICON демонстрирует обработку запросов на основе AQL, позволяя эффективно извлекать и манипулировать данными, что открывает возможности для создания сложных и гибких систем управления информацией.

Предложена архитектура RUBICON, ориентированная на детерминированное выполнение и многоисточниковое рассуждение для корпоративных приложений.

Несмотря на растущий интерес к «агентскому ИИ«, существующие подходы часто упускают из виду ключевую проблему предприятий — не дефицит рассуждений, а интеграцию разрозненных данных. В статье ‘An Alternate Agentic AI Architecture (It’s About the Data)’ авторы предлагают альтернативную архитектуру RUBICON, основанную на принципах управления данными, в которой приоритет отдается структурированному доступу к данным и детерминированному выполнению запросов. Вместо делегирования управления сложным запросам непрозрачному агенту, предложен язык AQL (Agentic Query Language) — небольшая, явная алгебра запросов, выполняемая через специализированные обертки. Может ли такой подход, возвращающий явную структуру запросов и контроль над данными, обеспечить надежность и предсказуемость, необходимые для успешного применения ИИ в корпоративной среде?

Пределы LLM-центричного подхода: За что платит разум?

Крупные языковые модели (LLM) демонстрируют впечатляющую способность к распознаванию закономерностей в данных, однако эта сила имеет ограничения. Их эффективность напрямую зависит от масштаба — объема обучающих данных и количества параметров модели. Несмотря на то, что увеличение масштаба часто приводит к улучшению результатов, оно не решает фундаментальные проблемы, связанные со сложным логическим мышлением и надежным доступом к информации. LLM могут успешно имитировать понимание, но часто испытывают трудности при решении задач, требующих глубокого анализа, абстрактного мышления или работы с неполными или противоречивыми данными. Более того, зависимость от огромных объемов данных делает их уязвимыми к ошибкам и предвзятостям, содержащимся в этих данных, и ограничивает возможность надежного извлечения и проверки фактов.

Традиционные методы преобразования естественного языка в SQL-запросы демонстрируют хрупкость и ненадежность в корпоративной среде, что существенно замедляет развитие полноценных агентов искусственного интеллекта. Существующие системы часто не способны корректно интерпретировать сложные запросы, содержащие неоднозначные формулировки или требующие доступа к различным источникам данных. Это приводит к ошибкам в извлечении информации и, как следствие, к неверным решениям, принимаемым агентом. Неспособность эффективно работать с реальными данными, структурированными по-разному и содержащими неполную или противоречивую информацию, ограничивает возможности агентов ИИ в решении практических задач и требует разработки более устойчивых и адаптивных подходов к обработке запросов.

Исследования показывают, что зависимость от крупных языковых моделей (LLM) в обработке запросов сопряжена со значительными вычислительными издержками и задержками, обусловленными необходимостью обработки огромного количества токенов. В частности, при решении задач, требующих доступа к разнородным источникам данных, LLM-ориентированные подходы демонстрируют нулевой процент точности в стандартных бенчмарках. В то же время, перенос акцента на структурирование и оптимизацию данных — переход к data-centric подходу — позволяет достичь 100% точности в решении тех же задач, существенно снижая потребность в вычислительных ресурсах и обеспечивая более высокую скорость обработки информации. Это указывает на необходимость разработки новых архитектур, где приоритет отдается эффективному доступу к данным и их качеству, а не только масштабу языковой модели.

Data-centricity: Новая парадигма для агентов ИИ

Архитектура, ориентированная на данные, представляет собой альтернативу подходам, где основная нагрузка ложится на большие языковые модели (LLM). Вместо того чтобы полагаться исключительно на возможности LLM для рассуждений и извлечения информации, она делает акцент на структурированном хранении данных и эффективном доступе к ним. Такой подход позволяет снизить зависимость от вычислительных ресурсов, необходимых для обработки больших объемов текста LLM, и повысить надежность и предсказуемость результатов, поскольку ответы формируются на основе проверенных и структурированных данных, а не на вероятностных оценках, выдаваемых языковой моделью. Это особенно важно в задачах, требующих высокой точности и достоверности информации.

Архитектура, ориентированная на данные, принципиально зависит от интеграции структурированных данных, объединяя разнородные источники, такие как корпоративные хранилища данных (Enterprise Data Warehouses) и открытые ресурсы, например, Википедию. Этот процесс предполагает не просто соединение данных, а их приведение к единому формату и структуре, что обеспечивает возможность эффективного поиска и извлечения релевантной информации. Интеграция осуществляется посредством стандартизированных API и протоколов, позволяющих агентам ИИ получать доступ к данным в реальном времени и использовать их для принятия обоснованных решений. Важным аспектом является поддержка различных форматов данных, включая реляционные базы данных, графовые базы данных и неструктурированные текстовые данные, что обеспечивает гибкость и масштабируемость системы.

Архитектура, ориентированная на данные, позволяет существенно снизить потребление токенов при работе с большими языковыми моделями (LLM) за счет предварительной обработки и предоставления релевантной информации. В отличие от LLM-центричного подхода ReAct, который может потреблять от 20 000 до 46 000 токенов ввода при использовании модели GPT-5-mini, системы, использующие структурированную интеграцию данных, такие как RUBICON, могут ограничиваться менее чем 80 токенами. Это приводит к значительному снижению затрат на использование LLM и уменьшению времени отклика, что критически важно для приложений, требующих высокой производительности и экономичности.

RUBICON: Соединяя данные и рассуждения

RUBICON использует архитектуру, ориентированную на данные, посредством языка запросов Agentic Query Language (AQL), который обеспечивает упрощенный доступ и интеграцию данных. AQL позволяет стандартизировать взаимодействие с различными источниками информации, абстрагируясь от особенностей их реализации. Это достигается за счет определения унифицированного формата запросов, что позволяет системе эффективно извлекать и объединять данные из гетерогенных источников, избегая необходимости в сложных преобразованиях и адаптациях для каждого конкретного API или базы данных. В результате, AQL значительно ускоряет процесс обработки запросов и повышает общую производительность системы RUBICON.

В архитектуре RUBICON используются обертки (wrappers) для стандартизации доступа к различным API, что обеспечивает бесшовное подключение к разнообразным источникам данных. Эти обертки абстрагируют специфику каждого API, предоставляя унифицированный интерфейс для запросов и извлечения информации. Это позволяет системе взаимодействовать с гетерогенными данными, не требуя адаптации к каждому конкретному API. Стандартизация доступа упрощает интеграцию новых источников данных и повышает надежность и масштабируемость системы в целом, поскольку изменения в API отдельных источников не оказывают прямого влияния на основную логику обработки данных в RUBICON.

Оптимизатор запросов в RUBICON повышает эффективность за счет выбора оптимальных планов выполнения, что позволяет минимизировать задержки и потребление ресурсов. Этот компонент анализирует структуру запроса и доступные источники данных для определения наиболее эффективной последовательности операций, необходимых для получения результата. В процессе оптимизации учитываются различные факторы, включая статистику данных, типы индексов и характеристики используемых API, что позволяет значительно сократить время выполнения запроса и снизить нагрузку на вычислительные ресурсы. В результате, RUBICON демонстрирует повышенную производительность и масштабируемость при работе с многоисточниковыми запросами.

В ходе тестирования на многоисточниковых запросах, система RUBICON демонстрирует 100% точность, в то время как подходы, основанные на больших языковых моделях (LLM), не способны предоставить ни одного корректного ответа. Данный результат подтверждается значительно меньшим количеством обращений к инструментам (tool calls) — RUBICON требует в среднем 2.0 обращения, в то время как Gemini-3-flash-preview — 22.71. Это указывает на принципиальное отличие в эффективности подхода RUBICON, основанного на архитектуре, ориентированной на данные, по сравнению с LLM-центричными системами.

За рамки поиска: Расширение возможностей LLM структурированными знаниями

Система RUBICON значительно повышает эффективность методов, таких как генерация с поиском (RAG), благодаря предварительной обработке и структурированию данных. Вместо того чтобы полагаться на огромные объемы неорганизованной информации, система предоставляет языковым моделям (LLM) четко определенные и взаимосвязанные знания. Это позволяет LLM более точно извлекать релевантную информацию для ответа на вопросы или выполнения задач, сокращая количество ошибок и повышая скорость обработки. Предварительная структуризация данных не только упрощает поиск, но и облегчает понимание контекста, что особенно важно для сложных запросов, требующих глубокого анализа и логических выводов. В результате, RUBICON обеспечивает более надежные и осмысленные ответы, используя возможности LLM в полной мере.

Архитектура RUBICON делает акцент на эффективности и качестве данных, что позволяет значительно снизить зависимость от масштабного увеличения размеров языковых моделей. Вместо того чтобы полагаться на грубую силу вычислений, система оптимизирует процесс обработки информации, используя структурированные данные и точные алгоритмы. Такой подход не только сокращает вычислительные затраты и энергопотребление, но и снижает негативное воздействие на окружающую среду, делая современные технологии более устойчивыми. В результате, RUBICON демонстрирует, что интеллектуальные возможности можно достичь не за счет увеличения ресурсов, а благодаря более разумной организации и обработке информации.

Данный подход открывает возможности для создания действительно интеллектуальных агентов, способных к сложному рассуждению и принятию решений в различных областях. В ходе сравнительных испытаний, система продемонстрировала 100%-ную точность в задачах, где традиционные LLM-ориентированные методы оказались неэффективны. Это достигнуто за счет интеграции структурированных знаний, позволяющих агентам не просто извлекать информацию, но и логически обрабатывать её, формируя обоснованные выводы и принимая взвешенные решения. Подобная эффективность указывает на перспективность использования структурированных данных для повышения интеллектуальных возможностей искусственного интеллекта и создания систем, способных решать сложные задачи, требующие глубокого понимания контекста и способности к анализу.

Исследование демонстрирует, что существующие подходы к созданию агентного ИИ, ориентированные на большие языковые модели, сталкиваются с трудностями при интеграции данных. Авторы предлагают архитектуру RUBICON, акцентирующую внимание на структурированном доступе к данным и детерминированном выполнении. Этот подход, по сути, является своеобразным реверс-инжинирингом системы, попыткой понять и контролировать её изнутри. В этом контексте, слова Винтона Серфа приобретают особый смысл: «Интернет — это жизнь, и она должна быть доступна каждому». Подобно тому, как Серф видел необходимость в открытом доступе к информации, так и данная работа подчеркивает важность структурированного и контролируемого доступа к данным для создания надежных и эффективных агентных систем.

Что дальше?

Представленные размышления касаются не столько создания нового интеллекта, сколько вскрытия того, что уже есть. Пренебрежение структурированными данными в погоне за кажущейся магией больших языковых моделей — это ошибка, которую предстоит осмыслить. Архитектура RUBICON — лишь один из возможных путей, демонстрация того, что детерминированное выполнение, опирающееся на надёжные источники, может быть более полезным, чем бесконечные галлюцинации. Главный вопрос не в том, насколько хорошо модель говорит, а в том, насколько точно она действует.

Следующим шагом видится не просто интеграция различных источников данных, а создание языка, способного выражать условия их взаимодействия. AQL — многообещающее начало, но истинный прорыв потребует инструмента, позволяющего описывать не только что нужно получить, но и как это сделать, с возможностью верификации каждого шага. По сути, необходимо переосмыслить саму концепцию «запроса», превратив её из просьбы в чёткий алгоритм.

В конечном счёте, вся эта работа — лишь попытка взломать чёрный ящик реальности. Не важно, удастся ли создать «искусственный интеллект» в привычном понимании. Важно понять, как информация структурирована, как она обрабатывается, и как можно использовать эти знания для достижения конкретных целей. И в этом процессе, как всегда, важнее не результат, а сам путь.

Оригинал статьи: https://arxiv.org/pdf/2604.21413.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-24 21:37

🚀 Квантовые новости