Искусственный интеллект на службе данных: новый взгляд на анализ и обработку

Автор: Денис Аветисян

Исследователи представили комплексный тест для оценки возможностей интеллектуальных агентов на всех этапах работы с информацией — от сбора до аналитики.

Исследование DAComp направлено на оценку больших языковых моделей (LLM) в контексте комплексных рабочих процессов анализа данных, охватывающих как инженерные задачи на уровне репозитория данных, так и открытый анализ данных, что позволяет оценить их возможности на протяжении всего жизненного цикла работы с информацией.

В статье представлен DAComp — эталонный набор данных для оценки агентов, работающих с данными, охватывающий полный цикл интеллектуальной обработки информации и выявляющий существенные пробелы в производительности современных языковых моделей.

Несмотря на быстрый прогресс в области больших языковых моделей, их способность комплексно решать задачи анализа данных в реальных корпоративных условиях остаётся недостаточно изученной. В данной работе представлена платформа ‘DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle’ — новый бенчмарк, охватывающий весь цикл интеллектуальной обработки данных, включая инженерную подготовку и углублённый анализ. Эксперименты показали, что даже самые современные агенты демонстрируют низкую эффективность, особенно в задачах, требующих построения многоступенчатых SQL-конвейеров и открытого анализа данных, что указывает на существенные пробелы в их способностях. Сможем ли мы разработать действительно автономных агентов, способных эффективно решать комплексные задачи анализа данных в корпоративной среде?

Современные Вызовы в Интеллектуальной Обработке Данных

Современные предприятия сталкиваются с экспоненциальным ростом объемов и разнообразия данных, поступающих из многочисленных источников — от социальных сетей и IoT-устройств до внутренних систем и внешних API. Традиционные конвейеры обработки данных, разработанные для структурированных и статичных данных, оказываются неспособными эффективно справляться с этой сложностью и динамичностью. Они часто требуют значительных усилий по ручной настройке и адаптации, не обеспечивая необходимой гибкости и масштабируемости. Постоянно меняющиеся форматы данных, появление новых источников и необходимость оперативной интеграции информации требуют принципиально нового подхода к построению и управлению данными, способного обеспечить их качество, доступность и актуальность в реальном времени. В результате, организации испытывают трудности с извлечением ценной информации и принятием обоснованных решений на основе данных.

Существующие методы оценки зачастую не способны адекватно отразить всю сложность сквозных задач в области интеллектуальной обработки данных, концентрируясь на анализе отдельных компонентов. Традиционный подход предполагает тестирование каждого этапа — извлечение, преобразование, загрузка — по отдельности, что не учитывает взаимосвязи и возникающие в процессе работы нюансы. В результате, оценка агента, отлично справляющегося с отдельными задачами, может оказаться обманчивой, поскольку он не демонстрирует способности эффективно функционировать в рамках комплексного рабочего процесса. Это приводит к неполной картине возможностей системы и затрудняет выбор оптимального решения для реальных задач, где важна целостная и скоординированная работа всех компонентов.

Существующие методы оценки зачастую не позволяют полноценно оценить работу интеллектуальных агентов в реальных сценариях обработки данных. Анализ показывает, что современные агенты демонстрируют неудовлетворительные результаты — в среднем менее 40% — при решении задач в области Data Engineering (DE). Это подчеркивает необходимость разработки комплексного, целостного эталона, способного оценивать агентов, работающих с разнообразными и динамично меняющимися данными, а также взаимодействующих в сложных рабочих процессах. Такой эталон позволит не просто измерить отдельные компоненты, но и оценить эффективность агента в контексте сквозной обработки данных, выявляя слабые места и направляя дальнейшие исследования в области создания более надежных и эффективных систем.

Анализ выявил критические недостатки в реализации DE-Arch, включая слабое обеспечение бизнес-логики, отсутствие валидации данных, неполную обработку краевых случаев и отсутствие необходимых пороговых значений, что привело к низкой оценке (5/16) и требует усиления контроля и проверки вычислений.

DAComp: Комплексная Система Оценки на Полном Цикле

DAComp представляет собой комплексную систему оценки, предназначенную для анализа возможностей агентов на протяжении всего жизненного цикла работы с данными. Эта система включает в себя два основных этапа: Data Engineering (DAComp-DE), охватывающий процессы сбора, обработки и подготовки данных, и Data Analysis (DAComp-DA), фокусирующийся на анализе данных и получении полезной информации. Оценка проводится на протяжении всего процесса — от извлечения данных до предоставления результатов анализа, что позволяет комплексно оценить возможности агента в решении задач, требующих интеграции навыков как инженера данных, так и аналитика.

В основе DAComp лежит платформа разработки агентов OpenHands, обеспечивающая ускоренное прототипирование и развертывание. OpenHands предоставляет инструменты и инфраструктуру для создания, тестирования и масштабирования агентов, работающих с данными. Платформа поддерживает различные типы агентов и позволяет разработчикам быстро итерировать над дизайном и функциональностью, снижая затраты времени и ресурсов на разработку и внедрение решений в области анализа данных. Использование OpenHands упрощает интеграцию агентов в существующие системы и позволяет оперативно адаптировать их к изменяющимся требованиям.

В рамках подсистемы Data Engineering (DAComp-DE) платформы DAComp особое внимание уделяется качеству данных и соответствию схемы, что требует от агентов способности обрабатывать несоответствия и изменения в контрактах данных. Однако, текущие агенты демонстрируют средний результат менее 50% при выполнении открытых задач по анализу данных (DA), что указывает на существенный дефицит в стратегических аналитических навыках. Этот показатель свидетельствует о трудностях, с которыми сталкиваются агенты при выполнении задач, требующих не только технической обработки данных, но и интерпретации и формулирования выводов на их основе.

Результаты бенчмарка DAComp демонстрируют, что агенты испытывают значительные трудности при выполнении полных циклов обработки данных. Средний показатель успешности агентов в задачах, относящихся к этапу Data Engineering (DE), составляет менее 40%. Это указывает на существенные ограничения в их способности к последовательному выполнению задач, включающих извлечение, преобразование и загрузку данных, а также поддержание необходимого уровня качества и соответствия схемам данных на протяжении всего процесса.

На этапе подготовки данных DE-Impl выполняется очистка и приведение данных к необходимому формату.

Детализированная Оценка с Иерархическими Рубриками

В DAComp используется иерархическая рубрика, представляющая собой систему декомпозиции сложных задач на управляемые требования, стандарты и подстандарты для обеспечения точной оценки. Этот подход позволяет разбить комплексную задачу на отдельные, оцениваемые компоненты, что упрощает анализ сильных и слабых сторон агента. Каждый уровень иерархии определяет конкретные критерии, по которым оценивается выполнение задачи, обеспечивая детализированный и объективный результат. Такая структура позволяет точно определить, какие аспекты задачи выполнены успешно, а какие требуют улучшения, что необходимо для эффективной оптимизации и развития агентов.

В DAComp-DE (Data Engineering) оценка агентов осуществляется посредством выполнения (Execution-Based Evaluation), при котором выходные данные агента сопоставляются с эталонными (ground truth) значениями для проверки функциональной корректности. Данный подход позволяет объективно определить, выполняет ли агент поставленную задачу, независимо от способа реализации. В процессе оценки проверяется соответствие полученных результатов ожидаемым данным, что гарантирует точность и надежность работы агента в контексте задач Data Engineering. При несоответствии результатов эталонным, система фиксирует ошибку и предоставляет информацию для дальнейшей отладки и улучшения производительности агента.

В рамках DAComp-DA оценка аналитических результатов осуществляется с использованием больших языковых моделей (LLM Judge), что позволяет выйти за рамки простого сопоставления метрик. Вместо проверки соответствия заранее заданным числовым показателям, LLM Judge анализирует логику рассуждений, полноту и корректность представленных выводов. Это обеспечивает более глубокую и нюансированную оценку, учитывающую не только итоговый результат, но и процесс его получения. Такой подход особенно важен при анализе сложных задач, где существует несколько допустимых решений или где количественные метрики не полностью отражают качество работы.

Оценка агентов в DAComp осуществляется на основе иерархической рубрики, состоящей из небольших, оцениваемых элементов — “Рубрик-элементов”. Такая структура позволяет проводить детальный анализ производительности агентов по конкретным аспектам выполнения задачи. При этом, текущие результаты показывают ограниченные возможности агентов в решении комплексных задач по разработке данных: успешная реализация и эволюция (DE-Impl/Evol) достигается менее чем в 20% случаев, что указывает на необходимость дальнейшей оптимизации и совершенствования алгоритмов.

Иерархические рубрики позволяют детализировать и структурировать процесс оценки.

Выявление и Устранение Типичных Ошибок Агентов

Система DAComp разработана для целенаправленного выявления типичных ошибок, возникающих в процессах обработки данных, в частности, ошибок зависимостей и упущений в SQL-запросах. Она позволяет не просто констатировать факт неработоспособности конвейера данных, но и точно локализовать проблемные места, связанные с неверным определением необходимых данных или некорректным формированием запросов к базам данных. Такой подход позволяет исследователям и разработчикам точно определить слабые места существующих архитектур агентов обработки данных и сосредоточить усилия на создании более надежных и эффективных решений, способных справляться со сложными задачами интеграции и анализа информации.

Анализ ошибок, выявленных в процессе оценки производительности агентов обработки данных, предоставляет ценные сведения о существующих недостатках в их архитектуре. Систематическое обнаружение таких проблем, как ошибки зависимостей или упущения в SQL-запросах, позволяет точно определить слабые места текущих систем. Полученные данные подчеркивают необходимость разработки более совершенных алгоритмов управления зависимостями между данными и обеспечения их целостности. Исследование показывает, что современные архитектуры часто испытывают трудности при работе со сложными взаимосвязями между данными, что приводит к значительным ошибкам и снижению надежности всей системы обработки информации. Выявление этих ошибок служит отправной точкой для инноваций и создания более устойчивых и эффективных решений в области интеллектуальной обработки данных.

Систематическое выявление уязвимостей в архитектурах интеллектуальной обработки данных посредством DAComp способствует прогрессу и созданию более надежных и устойчивых систем. Этот подход позволяет не просто обнаружить ошибки в конвейерах данных, такие как проблемы с зависимостями или упущения в SQL-запросах, но и стимулирует разработку новых методов и алгоритмов для их устранения. Исследования, проводимые с использованием данной платформы, демонстрируют, что постоянное выявление слабых мест в существующих системах является ключевым фактором для повышения их эффективности и надежности, открывая путь к созданию более совершенных инструментов для анализа и обработки данных.

Тщательная оценка, проведенная в рамках данной системы, выявила критическую потребность в агентах, способных эффективно управлять сложными зависимостями данных и гарантировать их целостность. Ключевым препятствием оказалась обработка зависимостей: уровень ошибок, связанных с зависимостями, превышает 65%. В то же время, более совершенные модели демонстрируют значительное улучшение в идентификации столбцов, с уровнем ошибок, связанных с отсутствующими столбцами, менее 1%. Это указывает на то, что хотя распознавание структуры данных становится все более точным, поддержание корректных связей между данными остается серьезной проблемой, требующей дальнейших исследований и разработок в области архитектур агентов.

В реализации DE обнаружена циклическая зависимость, когда таблица int_campaign_perf.sql зависит от campaign_summary.sql, что приводит к зацикливанию в конвейере данных.

Исследование, представленное в данной работе, подчеркивает необходимость строгого подхода к оценке агентов, работающих с данными. Авторы справедливо указывают на значительные пробелы в производительности существующих LLM-основанных систем, особенно при переходе от простых задач к комплексному анализу данных на уровне репозитория. В этой связи, уместно вспомнить слова Дональда Кнута: «Преждевременная оптимизация — корень всех зол». Данный принцип находит отражение в работе, демонстрируя, что без всестороннего и объективного тестирования, подобного DAComp, невозможно достоверно оценить возможности и ограничения агентов, и, следовательно, создавать надежные и эффективные системы обработки данных.

Куда Далее?

Представленный анализ, хоть и демонстрирует текущие возможности агентов, работающих с данными, не решает фундаментальную проблему: как формализовать само понятие “интеллектуальной работы с данными”. Показанные пробелы в производительности — не просто технические недостатки, а следствие неспособности существующих моделей к истинному пониманию структуры и смысла данных на уровне, близком к человеческому. Каждый дополнительный параметр модели лишь маскирует отсутствие элегантного, доказуемого алгоритма.

Будущие исследования должны быть сосредоточены не на увеличении масштаба моделей, а на разработке принципиально новых подходов к представлению знаний о данных. Необходимо переосмыслить саму парадигму обучения, отказавшись от эмпирических тестов в пользу математической строгости. Бессмысленно оценивать “открытый анализ” на основе набора примеров — истинный интеллект должен быть способен к дедуктивному выводу, а не к статистическому подбору.

В конечном итоге, ценность агента, работающего с данными, будет определяться не его способностью «решать задачи», а его способностью избегать ошибок. Любая избыточность в коде — это потенциальная уязвимость, любая неточность в представлении данных — источник ложных выводов. Стремление к минимализму и математической чистоте — единственный путь к созданию действительно надежных и интеллектуальных систем.

Оригинал статьи: https://arxiv.org/pdf/2512.04324.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-05 08:18

🚀 Квантовые новости