Toward AI VIS Co-Scientists: A General and End-to-End Agent Harness for Solving Complex Data Visualization Tasks

Автор: Денис Аветисян

Ключевые возможности искусственного интеллекта, выступающего в роли научного сотрудника-визуализатора, определяют его способность к комплексному анализу и интерпретации данных, позволяя выявлять закономерности и генерировать новые гипотезы, подобно опытному исследователю.

Несмотря на важность визуального анализа данных для научных исследований, создание эффективных инструментов визуализации требует значительной экспертности за пределами предметной области. В данной работе, озаглавленной ‘Toward AI VIS Co-Scientists: A General and End-to-End Agent Harness for Solving Complex Data Visualization Tasks’, представлен агентный каркас, способный автономно разрабатывать и внедрять интерактивные приложения для визуализации научных данных, выступая в роли «цифрового коллеги-визуализатора». Предложенный подход позволяет автоматически анализировать данные и создавать кастомизированные решения для визуализации, объединяя различные агенты и специализированные навыки. Не откроет ли это путь к созданию полноценных AI-ассистентов для учёных, способных самостоятельно решать сложные задачи анализа данных и визуализации?

Раздвигая границы визуализации: Интеллектуальный со-учёный для науки

Current visualization workflows rely heavily on manual effort and expert knowledge, creating bottlenecks in scientific discovery.

Предлагается разработка VIS Co-Scientist — интеллектуальной системы, способной автономно проектировать, реализовывать и оценивать визуализации данных. Эта система призвана существенно ускорить научные открытия, беря на себя рутинные задачи, связанные с созданием и анализом графических представлений информации. Вместо простого генерирования диаграмм, VIS Co-Scientist стремится к настоящему партнерству с исследователями, самостоятельно определяя оптимальные методы визуализации для конкретных наборов данных и задач, а также оценивая качество и информативность полученных результатов. Такой подход позволит ученым сосредоточиться на интерпретации данных и формулировке новых гипотез, значительно повышая эффективность научного процесса.

This system aims to move beyond simple chart generation towards a true partnership with researchers, handling the complexities of visual analysis.

Реализация подобного интеллектуального помощника требует принципиально нового подхода к искусственному интеллекту, выходящего за рамки традиционного анализа данных. Недостаточно просто выявлять закономерности в числовых рядах; система должна овладеть навыками визуального мышления, уметь интерпретировать данные с точки зрения их графического представления и эффективно коммуницировать результаты анализа посредством визуальных образов. Это подразумевает разработку алгоритмов, способных не только генерировать графики, но и оценивать их адекватность, выбирать наиболее подходящие типы визуализации для конкретных данных и задач, а также адаптировать визуальные представления в соответствии с потребностями исследователя. В конечном итоге, подобный ИИ должен стать не просто инструментом для создания графиков, а полноценным партнером в процессе визуального исследования, способным активно участвовать в выявлении скрытых закономерностей и формировании новых научных гипотез.

Figure 2:VIS co-scientist output for the 2025 materials-discovery case study: a candidate landscape, embedding view, relationship matrix, pathway panel, and ranking/compare view linked in one workspace.

Оркестровка автономии: Архитектура Agent Harness

Инфраструктура Agent Harness предназначена для декомпозиции сложных задач визуализации на более мелкие, управляемые подзадачи. Вместо выполнения всей задачи одним монолитным процессом, система распределяет эти подзадачи между специализированными агентами. Каждый агент обладает конкретным набором навыков и отвечает за выполнение определенной части общей задачи, например, предварительную обработку данных, выбор оптимального типа диаграммы или настройку визуальных параметров. Такой подход позволяет повысить эффективность, масштабируемость и гибкость системы, упрощая разработку и поддержку сложных визуализаций.

A central Main Agent coordinates the workflow, leveraging Subagents with specific expertise — such as data processing and visual encoding — to achieve a desired outcome.

Модульная архитектура Agent Harness обеспечивает простоту расширения и адаптации системы к разнообразным задачам визуализации. Благодаря разделению функциональности на независимые компоненты, добавление новых возможностей или изменение существующих осуществляется без необходимости модификации ядра системы. Это достигается путем внедрения новых под-агентов, специализирующихся на конкретных типах обработки данных или методов визуализации, что позволяет системе эффективно решать широкий спектр задач, от базовых диаграмм до сложных интерактивных визуализаций. Такая гибкость особенно важна при работе с постоянно меняющимися требованиями к визуализации и при интеграции с новыми источниками данных и инструментами.

The system utilizes Model Context Protocol (MCP) Connectors, including Playwright-MCP, to interact with external tools and environments, extending its capabilities beyond its core functionality.

Визуализация данных, полученных в ходе конкурса SciVis 2025 по поиску материалов, демонстрирует использование различных методов - корреляционных матриц, PCA-вложений и параллельных координат - для анализа данных Challenge 1, Task 1, а также сводку по семейству кандидатов для Challenge 1, Task 2. — Визуализация данных, полученных в ходе конкурса SciVis 2025 по поиску материалов, демонстрирует использование различных методов — корреляционных матриц, PCA-вложений и параллельных координат — для анализа данных Challenge 1, Task 1, а также сводку по семейству кандидатов для Challenge 1, Task 2.

Память и оценка: Обучение на опыте и совершенствование системы

We’ve implemented a Hierarchical Memory System, inspired by LLM Wiki, to store insights and lessons learned across visualization sessions, allowing the system to build upon past successes.

В системе реализована «Рабочая тетрадь» (Scratchbook), предназначенная для записи промежуточных результатов вычислений и шагов логического вывода. Это обеспечивает полную прозрачность процесса генерации визуализаций, позволяя отслеживать ход решения задачи. Сохранение промежуточных данных в Scratchbook значительно упрощает отладку и анализ ошибок, поскольку позволяет разработчикам и пользователям детально изучить каждый этап работы системы и выявить потенциальные проблемы или неэффективности в алгоритмах.

В системе реализована система оценки, состоящая из фреймворка оценки и субагента «Оценщик», предназначенных для систематической оценки качества генерируемых визуализаций в соответствии с поставленными задачами. Фреймворк определяет метрики и критерии оценки, в то время как субагент «Оценщик» выполняет фактическую оценку, анализируя визуализацию и сопоставляя ее с заданными целями. Это позволяет системе объективно определять эффективность визуализации и выявлять области для улучшения, обеспечивая соответствие результатов требованиям пользователя.

В ходе соревнований 2025 года система обработала 368 616 входных токенов, использовала 5 183 488 кэшированных токенов и сгенерировала 58 374 выходных токена. Данные показатели демонстрируют эффективное управление ресурсами при решении сложных задач, что подтверждает возможность обработки значительных объемов информации и генерации релевантных визуализаций без существенного снижения производительности.

The VIS Designer subagent handles complex visualization encodings and employs a render-debug-verify cycle to ensure visual accuracy and effectiveness.

Figure 6:Additional baseline coding-agent plots for the 2025 SciVis Contest materials-discovery case. Top left: composition-phase-property pathway view for Challenge 1, Task 2. Top right: stage-influence summary for Challenge 1, Task 2. Bottom left: Pareto-front plot for Challenge 2, Task 1. Bottom right: sensitivity heatmap for Challenge 2, Task 1.

Подтверждение работоспособности: На пути к обобщенному интеллекту и научному прогрессу

The system is being rigorously evaluated through SciVis Contests, challenging it to solve complex visualization problems under realistic constraints.

Система продемонстрировала свою эффективность и универсальность посредством создания функциональных приложений визуализации данных (VIS Apps) для престижных конкурсов IEEE SciVis в период с 2021 по 2026 год. Успешное участие в этих конкурсах, охватывающих различные научные области, подтверждает способность системы адаптироваться к новым задачам и генерировать визуализации, отвечающие высоким стандартам качества и интерпретируемости. Постоянно демонстрируемая производительность на протяжении нескольких лет подчеркивает не только надежность системы, но и её потенциал для автоматизации ключевых этапов процесса визуализации, что позволяет исследователям сосредоточиться на более глубоком анализе данных и формулировании научных вопросов.

Для оценки качества генерируемых визуализаций, система подвергается тщательному тестированию с использованием общепринятых метрик визуальной грамотности. Этот подход позволяет не просто измерить техническую корректность графиков, но и убедиться в их способности эффективно передавать информацию и способствовать глубокому пониманию данных. В процессе оценки особое внимание уделяется способности визуализаций к ясной и недвусмысленной интерпретации, а также их соответствию принципам эффективного визуального представления. Результаты этих тестов демонстрируют, что система способна создавать не только функциональные, но и интуитивно понятные визуализации, что крайне важно для широкого круга исследователей и специалистов, не являющихся экспертами в области визуализации данных.

Система демонстрирует способность к автоматическому созданию артефактов — отчётов, планов и оценочных таблиц — что существенно упрощает коммуникацию и обеспечивает прозрачность процесса визуализации данных. Автоматически генерируемые отчёты содержат не только сами визуализации, но и подробное описание использованных методов, предположений и логики построения графиков, позволяя исследователям и заинтересованным сторонам полностью понимать контекст и обоснованность представленных результатов. Планы, формируемые системой, описывают последовательность шагов, необходимых для решения конкретной задачи визуализации, а оценочные таблицы позволяют количественно оценить качество и эффективность различных подходов. Такой комплексный подход к созданию артефактов не только повышает доверие к результатам, но и облегчает процесс совместной работы и обмена знаниями между исследователями.

Expert audits have shown high scores on EDA assumptions, implementation insights, and coordinated views, indicating the quality of the system’s design and output.

By successfully automating key aspects of the visualization pipeline, the VIS Co-Scientist empowers researchers to focus on higher-level scientific questions.

На снимке экрана приложения VIS, представленного на конкурс SciVis 2021 года, демонстрируется пользовательский интерфейс для анализа данных.

Исследование демонстрирует стремление к созданию автономного агента, способного самостоятельно разрабатывать интерактивные визуализации для анализа научных данных. Этот подход перекликается с философией глубокого понимания системы для её последующего преобразования. Карл Фридрих Гаусс однажды сказал: «Если вы не можете объяснить что-то простыми словами, значит, вы сами этого не понимаете». Подобно тому, как агент стремится «взломать» задачу визуализации, разбирая её на составные части и находя оптимальное решение, Гаусс подчеркивал важность ясного и всестороннего понимания принципов, лежащих в основе любого явления. Создание AI VIS co-scientist — это, по сути, попытка воплотить эту идею в искусственном интеллекте, обучая систему не просто генерировать визуализации, а понимать суть данных и эффективно их представлять.

Что дальше?

Представленная работа, по сути, лишь первая ласточка в попытке автоматизировать не просто отображение данных, но и сам процесс их визуального осмысления. Предположение о возможности создания «со-ученого» в области визуализации, безусловно, амбициозно, но оставляет за бортом фундаментальный вопрос: как научить машину не просто генерировать графики, но и задавать правильные вопросы к данным? Проблема не в алгоритмах рендеринга, а в алгоритмах постановки задачи.

Очевидным направлением дальнейших исследований является развитие способности агентов к самообучению и адаптации к различным типам данных и научным дисциплинам. Необходимо преодолеть зависимость от предопределенных шаблонов визуализации и научить систему самостоятельно оценивать эффективность той или иной визуальной стратегии. Крайне важно также исследовать возможности интеграции таких агентов в существующие научные рабочие процессы, позволяя им не просто создавать визуализации, но и активно участвовать в процессе анализа данных, предлагая новые гипотезы и проверяя их.

В конечном счете, успех этой парадигмы зависит от способности выйти за рамки простой автоматизации рутинных задач. Истинный «со-ученый» должен быть способен к творчеству, к неожиданным открытиям, к переосмыслению существующих знаний. А это, как известно, задача куда более сложная, чем просто написание кода.

Оригинал статьи: https://arxiv.org/pdf/2605.21825.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-22 16:16

🚀 Квантовые новости