Искусственный интеллект и эксперт: как совместная работа меняет Data Science

Автор: Денис Аветисян

Новое исследование показывает, что для достижения наилучших результатов в анализе данных совместные усилия человека и ИИ эффективнее полной автоматизации.

В соревновании по анализу данных, базовые модели искусственного интеллекта, такие как GPT-4o (с квантильным баллом 0.143, 17-е место) и Claude Code (0.458, 10-е место), уступают по результатам лучшим командам-участникам (медианный балл 0.156), что указывает на существенный разрыв между автоматизацией на основе ИИ и опытом специалистов в области анализа данных, несмотря на использование как прямого промптинга, так и агенторного кодирования.

AgentDS: Бенчмарк для оценки возможностей человеко-машинного взаимодействия в предметно-ориентированной науке о данных.

Несмотря на значительные успехи в автоматизации рабочих процессов анализа данных, вопрос о превосходстве искусственного интеллекта над экспертами-людьми в предметных областях остается открытым. В данной работе, ‘AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science’, представлена платформа AgentDS — новый бенчмарк для оценки производительности ИИ-агентов и коллаборативных подходов «человек-ИИ» в решении задач анализа данных в различных отраслях. Полученные результаты демонстрируют, что современные ИИ-агенты испытывают трудности с предметно-ориентированным рассуждением, а наиболее эффективные решения достигаются именно в синергии человеческого опыта и возможностей искусственного интеллекта. Подтверждает ли это, что будущее анализа данных лежит в создании интеллектуальных систем, дополняющих, а не заменяющих экспертов-людей?

Пророчество Системы: Вызовы Доменной Экспертизы в ИИ

Современные модели искусственного интеллекта зачастую сталкиваются с трудностями при решении сложных задач в области анализа данных, требующих специализированных знаний. Несмотря на впечатляющие успехи в обработке больших объемов информации, способность к глубокому пониманию контекста и применению экспертных суждений в конкретных областях остается серьезным вызовом. Эта проблема проявляется в неспособности эффективно анализировать данные, требующие понимания специфических принципов, терминологии и нюансов определенной дисциплины, что ограничивает применимость ИИ в таких областях, как медицина, финансы или геология. В результате, даже самые передовые системы демонстрируют ограниченную эффективность в задачах, требующих не просто обработки данных, а их интерпретации и принятия решений на основе экспертных оценок.

Современные модели искусственного интеллекта, несмотря на впечатляющие успехи в обработке больших объемов данных, часто демонстрируют ограниченные возможности в областях, требующих глубокого предметного знания. Основная проблема заключается не в отсутствии вычислительной мощности, а в неспособности эффективно интегрировать и применять специфические рассуждения, характерные для конкретной области науки или практики. Вместо того, чтобы оперировать абстрактными закономерностями, модели испытывают трудности с пониманием контекста, интерпретацией нюансов и применением принципов, которые очевидны для эксперта в данной сфере. Это препятствует их эффективному использованию в реальных задачах, где требуется не просто анализ данных, а и принятие обоснованных решений, основанных на глубоком понимании предметной области.

Недостаток способности к нюансированному пониманию серьезно ограничивает эффективность современных систем искусственного интеллекта в реальных приложениях. Сложность заключается в том, что многие задачи требуют не просто обработки данных, а глубокого осмысления контекста, учета специфических особенностей предметной области и применения экспертных знаний. Например, в медицинской диагностике или финансовом анализе, поверхностная обработка информации может привести к ошибочным выводам и значительным последствиям. Поэтому, несмотря на впечатляющие успехи в отдельных областях, для достижения действительно надежных и полезных результатов необходимо разрабатывать алгоритмы, способные к комплексному анализу и учету тонких оттенков смысла, что является серьезным вызовом для исследователей.

Для преодоления ограничений в применении искусственного интеллекта в специализированных областях необходимо создание эталонных тестов, которые напрямую оценивают способность моделей использовать отраслевые знания. Интересно отметить, что даже передовые агентные системы, такие как GPT-4o, демонстрируют результаты, зачастую уступающие медианному показателю (0.156) в подобных состязаниях, зафиксировав в базовой оценке всего 0.143. Это указывает на существенный пробел в способности современных ИИ-систем эффективно интегрировать и применять глубокие отраслевые знания для решения сложных задач, что подчеркивает потребность в более совершенных методах оценки и разработки.

Анализ квантильных оценок по областям показывает, что GPT-4o во всех шести областях демонстрирует результаты на уровне или ниже медианного значения, особенно слабо проявляя себя в областях электронной коммерции (0.021) и розничного банковского обслуживания (0.000), в то время как Claude Code значительно превосходит GPT-4o во всех областях, особенно в производстве (0.573), производстве продуктов питания (0.532) и розничном банковском обслуживании (0.553), однако обе модели уступают командам экспертов-людей, подтверждая, что универсальный ИИ, даже агентный, пока не может воспроизвести специализированные стратегии экспертов в области анализа данных.

AgentDS: Экосистема для Оценки Интеллекта и Коллаборации

Бенчмарк AgentDS представляет собой стандартизированную платформу для оценки возможностей искусственного интеллекта и совместной работы человека и ИИ в области анализа данных. Платформа обеспечивает унифицированную среду для тестирования и сравнения различных подходов и моделей, позволяя объективно измерить их производительность в решении задач, характерных для реальных проектов в области Data Science. Это достигается за счет предоставления четко определенных задач, метрик оценки и протоколов тестирования, что способствует воспроизводимости результатов и надежному сравнению различных систем. Акцент делается на оценке как точности, так и эффективности решений, включая стратегическое планирование и оптимизацию процесса анализа.

В основе AgentDS Benchmark лежит использование синтетических данных для создания контролируемых и воспроизводимых задач, направленных на оценку навыков решения проблем. Синтетические наборы данных позволяют стандартизировать условия тестирования, исключая влияние неконтролируемых факторов, присущих реальным данным. Это обеспечивает возможность объективного сравнения производительности различных агентов и алгоритмов, а также надежную верификацию результатов. Воспроизводимость задач критически важна для обеспечения научной обоснованности и возможности повторного проведения экспериментов для подтверждения или опровержения полученных выводов.

Важной особенностью AgentDS является акцент на многомодальных данных, что отражает сложность реальных наборов данных в области науки о данных. Бенчмарк использует комбинации различных типов данных — например, табличные данные, текст и изображения — в задачах, требующих анализа и интеграции информации из нескольких источников. Это позволяет более реалистично оценивать возможности агентов искусственного интеллекта в решении задач, характерных для практических приложений, где данные редко бывают однородными и структурированными.

Бенчмарк AgentDS оценивает решения не только по точности, но и по эффективности и стратегическому подходу к решению задач. В ходе тестирования агент Claude Code показал общий квантильный балл 0.458, заняв 10-е место из 29 участвующих команд. Этот результат демонстрирует способность модели превосходить медианный уровень производительности и успешно справляться с задачами, требующими не только корректных ответов, но и оптимального использования ресурсов и планирования действий.

Анализ распределений квантильных оценок по шести предметным областям показал, что Claude Code превосходит GPT-4o в большинстве задач, особенно в областях производства, розничного банкинга и электронной коммерции, однако ни одна из систем не достигает уровня лучших результатов, демонстрируемых экспертами, использующими специализированные знания и итеративную доработку.

Агенты в Действии: Методы и Инструменты для Анализа

В ходе соревнований участники использовали разнообразные агенты искусственного интеллекта, включая большие языковые модели (LLM) такие как GPT-4o и Claude Code, для решения задач в рамках установленных бенчмарков. Применение LLM позволило оценить их возможности в автоматизированном решении сложных проблем, требующих обработки и генерации текста, а также выполнения логических выводов на основе предоставленных данных. Выбор конкретных моделей определялся спецификой каждой задачи и доступными вычислительными ресурсами.

В качестве точки отсчета для оценки эффективности разработанных AI-агентов использовались базовые модели машинного обучения, такие как Random Forest и XGBoost. Эти алгоритмы, известные своей стабильностью и относительно невысокими вычислительными затратами, позволили получить количественную оценку прироста производительности, достигнутого за счет применения более сложных моделей, основанных на больших языковых моделях (LLM). Сравнение с Random Forest и XGBoost позволило объективно оценить вклад новых методов в решение поставленных задач и определить, насколько существенно использование LLM превосходит традиционные подходы к машинному обучению.

Для извлечения признаков из данных изображений в ходе экспериментов применялись методы компьютерного зрения, в частности, модели DINOv3 и ResNet50. DINOv3, самообучающаяся модель, позволила получить векторные представления изображений без использования размеченных данных, что особенно полезно при ограниченном объеме обучающей выборки. ResNet50, глубокая сверточная нейронная сеть, предоставила возможность извлечения иерархических признаков, отражающих различные уровни абстракции в изображениях. Полученные векторные представления использовались в дальнейшем для обучения моделей машинного обучения и анализа данных.

Эффективная разработка признаков (feature engineering) оказалась критически важной для достижения высоких результатов в экспериментах. Анализ показал, что модели, использующие тщательно отобранные и преобразованные признаки, значительно превосходили по производительности те, которые работали с исходными данными или использовали автоматическое извлечение признаков без дополнительной оптимизации. В частности, ручная настройка признаков, основанная на понимании предметной области и специфики данных, позволила выделить наиболее релевантную информацию и улучшить способность моделей к обобщению. Недостаточная подготовка данных и отсутствие качественной разработки признаков приводили к снижению точности и надежности моделей, даже при использовании современных алгоритмов машинного обучения.

Сотрудничество и Обобщение: Влияние на Эффективность ИИ

Численные результаты, полученные в ходе специально разработанного бенчмарка, обеспечивают четкую и объективную метрику для оценки эффективности работы ИИ-агентов. Данный подход позволяет не только количественно сравнить различные модели, но и выявить их сильные и слабые стороны в решении конкретных задач. В ходе тестирования, например, Claude Code продемонстрировал наивысшую производительность в области производства, достигнув показателя 0.573, в то время как GPT-4o показал нулевой результат в сфере розничного банковского обслуживания. Такие различия в производительности, выраженные в числовых значениях, позволяют исследователям и разработчикам более эффективно оптимизировать алгоритмы и улучшать общую надежность и точность ИИ-систем, а также более осознанно подходить к выбору модели для решения определенных задач.

Качественный анализ представленных участниками кодов и отчетов выявил ряд эффективных стратегий, используемых в процессе взаимодействия человека и искусственного интеллекта. Исследование показало, что наиболее успешные подходы основываются на четком разделении задач: люди, как правило, определяли общую стратегию и осуществляли контроль над процессом решения, в то время как ИИ эффективно выполнял рутинные операции и поиск информации. Важным аспектом оказалось умение людей адаптировать свои запросы к возможностям ИИ, предоставляя конкретные инструкции и оперативно корректируя направление работы в случае возникновения ошибок. Кроме того, участники, демонстрирующие наибольшую продуктивность, активно использовали ИИ для генерации альтернативных решений и оценки их потенциальной эффективности, что значительно расширяло возможности для поиска оптимальных стратегий.

Исследование выявило критическую роль стратегического руководства со стороны экспертов-людей в процессе решения задач искусственным интеллектом. Результаты показали, что даже самые продвинутые модели демонстрируют значительно более высокую эффективность при наличии чётких указаний и направлений, заданных человеком. Отсутствие такой направленности приводит к снижению производительности и увеличению вероятности ошибок, даже если модель обладает обширными знаниями в соответствующей области. Таким образом, взаимодействие человека и ИИ представляется наиболее продуктивным, когда человек выступает в роли стратега, определяющего цели и приоритеты, а ИИ — в роли исполнителя, реализующего эти стратегии.

Оценка способности моделей к обобщению, то есть к успешной работе с ранее не встречавшимися данными, являлась важной частью проведенного анализа. Результаты показали значительные различия в производительности различных моделей в разных областях. В частности, Claude Code продемонстрировал наивысшую эффективность в сфере производства, достигнув показателя 0.573, в то время как GPT-4o показал нулевой результат в области розничного банковского обслуживания. Данные расхождения подчеркивают, что эффективность модели сильно зависит от конкретной предметной области и требует тщательной оценки её способности к адаптации к новым задачам и данным.

Исследование демонстрирует, что автоматизация в области анализа данных, несмотря на впечатляющие успехи, не может полностью заменить человеческий опыт, особенно когда речь заходит о специфике предметной области. Этот подход, где агент лишь ассистирует, а не полностью автоматизирует процесс, напоминает о важности гибкости и адаптивности систем. Как однажды заметил Карл Фридрих Гаусс: «Если бы я должен был выбрать между силой и умом, я бы выбрал ум». В данном контексте, «ум» — это способность человека к критическому мышлению и адаптации к новым условиям, что является ключевым фактором в успешном сотрудничестве человека и искусственного интеллекта, особенно при работе с многомодальными данными и сложными задачами, требующими доменных знаний.

Что ждет впереди?

Представленные результаты, касающиеся AgentDS, не столько открывают дорогу к полной автоматизации в предметно-ориентированной науке о данных, сколько подчеркивают фундаментальную истину: системы — это не инструменты, а экосистемы. Попытки построить идеального автоматизированного ученого обречены на провал, ведь каждый архитектурный выбор — это пророчество о будущем сбое. Наблюдается тенденция к гонке за производительностью агентов, но истинный прогресс заключается в понимании границ их возможностей и в искусстве грамотного сотрудничества с человеком.

Ключевой вопрос, который остается без ответа, касается не столько скорости вычислений, сколько способности систем к адаптации к непредсказуемости реальных данных и к нюансам предметной области. Технологии сменяются, зависимости остаются. Акцент должен быть смещен с создания все более сложных агентов на разработку интерфейсов и методологий, облегчающих передачу знаний и опыта от человека к машине, и наоборот.

В конечном итоге, будущее предметно-ориентированной науки о данных — это не противостояние человека и искусственного интеллекта, а их симбиоз. Это не поиск идеального алгоритма, а создание среды, в которой человеческий разум и машинная мощь могут дополнять друг друга, порождая знания, недоступные ни одной из сторон в одиночку. И в этом процессе, архитектура — это не структура, а компромисс, застывший во времени.

Оригинал статьи: https://arxiv.org/pdf/2603.19005.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-20 09:59

🚀 Квантовые новости