Автор: Денис Аветисян
Исследователи разработали метод, позволяющий автоматически генерировать редактируемые векторные изображения из растровых графиков, открывая новые возможности для визуализации данных.

В статье представлен VFig — система, использующая модели, объединяющие зрение и язык, для генерации SVG-изображений научных диаграмм с использованием тщательно подобранных данных и специализированных метрик оценки.
Потеря исходных векторных файлов технических иллюстраций и научных диаграмм часто приводит к использованию растровых изображений, затрудняющих редактирование и масштабирование. В работе ‘VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models’ предложен подход VFIG, использующий модели «зрение-язык» для автоматической генерации редактируемых векторных изображений SVG из растровых исходников. Ключевым нововведением является создание масштабного датасета VFIG-DATA и двухэтапной стратегии обучения, сочетающей контролируемое обучение и обучение с подкреплением для достижения высокой точности и структурной целостности диаграмм. Сможет ли VFIG значительно упростить процесс создания и модификации сложных визуализаций в научных публикациях и цифровом дизайне?
От растра к вектору: вызовы масштабируемой графики
Традиционные растровые изображения, состоящие из сетки пикселей, сталкиваются с серьезными ограничениями при изменении масштаба. При увеличении, изображение неизбежно теряет четкость, превращаясь в размытое, зернистое представление. Более того, редактирование отдельных элементов растровой графики — трудоемкий процесс, требующий ручной работы с каждым пикселем. Эти недостатки существенно ограничивают применение растровых изображений в динамических приложениях, таких как интерактивные карты, масштабируемые пользовательские интерфейсы и приложения, требующие высокой степени детализации при различных уровнях увеличения. В отличие от них, векторная графика, описывающая изображение математическими формулами, сохраняет четкость при любом масштабе, однако автоматизированное преобразование растрового изображения в векторное долгое время оставалось сложной задачей.
Исторически, создание векторной графики, несмотря на её преимущество в масштабируемости, представляло собой трудоемкий процесс, часто требовавший ручного построения каждого элемента изображения. Альтернативой служили автоматизированные алгоритмы, такие как Potrace, которые преобразовывали растровые изображения в векторные, однако их возможности были ограничены, особенно при работе со сложными фигурами и детализированными изображениями. Эти алгоритмы, как правило, не могли точно воспроизвести все нюансы оригинала, что приводило к потере качества или требовало последующей ручной доработки. Таким образом, до недавнего времени, создание действительно качественной и масштабируемой векторной графики оставалось сложной задачей, требующей значительных временных и ресурсных затрат.
Необходимость автоматической, высококачественной векторизации сложных изображений обусловлена ограничениями традиционных методов и стремительно растущими потребностями в масштабируемой графике. Существующие алгоритмы, такие как Potrace, зачастую не справляются с высокой детализацией или требуют значительной ручной доработки. В связи с этим, исследователи обращаются к возможностям искусственного интеллекта, в частности, к глубокому обучению, для разработки систем, способных автоматически преобразовывать растровые изображения в векторные, сохраняя при этом точность и эстетическое качество. Новые подходы, использующие сверточные нейронные сети и генеративные модели, позволяют создавать векторные представления, которые не только точно отражают исходное изображение, но и обеспечивают возможность масштабирования без потери четкости и детализации, открывая новые перспективы в области компьютерной графики, дизайна и обработки изображений.

VFig: Модель для сложной векторизации на основе визуального и языкового понимания
Семейство моделей VFig представляет собой мощный инструмент в области компьютерного зрения и обработки естественного языка, разработанный специально для преобразования сложных изображений в редактируемую векторную графику формата Scalable Vector Graphics (SVG). В отличие от существующих моделей, ориентированных на общую генерацию изображений, VFig оптимизирован для точного воспроизведения геометрических форм и контуров, что позволяет создавать векторные представления, пригодные для дальнейшего редактирования и масштабирования без потери качества. Модели VFig способны обрабатывать различные типы изображений, включая схемы, диаграммы и иллюстрации, и генерировать соответствующие SVG-файлы, содержащие информацию о кривых, линиях и других векторных элементах.
Обучение VFig осуществляется в два этапа. На первом этапе используется контролируемое обучение (Supervised Fine-Tuning, SFT), в ходе которого модель обучается на размеченных данных, устанавливая базовую связь между визуальными элементами и векторным представлением. Второй этап — обучение с подкреплением (Reinforcement Learning, RL), направленное на уточнение и оптимизацию полученных результатов, а также на повышение качества генерируемого векторного кода. RL позволяет модели совершенствовать навыки преобразования сложных фигур, используя систему вознаграждений, основанную на корректности и эффективности созданных векторных графических файлов.
Для эффективной адаптации и снижения вычислительных затрат, VFig использует метод LoRA (Low-Rank Adaptation). LoRA позволяет обучать лишь небольшое количество дополнительных параметров, оставляя основную часть предобученной модели неизменной. Это существенно снижает требования к памяти и вычислительным ресурсам, необходимым для обучения, при этом сохраняя и даже улучшая производительность модели в задаче векторизации сложных фигур. Такой подход позволяет добиться высокой эффективности обучения и масштабируемости VFig без значительных затрат на аппаратное обеспечение.

VFig-Bench: Комплексная оценка генерации SVG
VFig-Bench представляет собой комплексный эталон для оценки генерации SVG из изображений, использующий протокол оценки от общего к частному. Этот протокол включает в себя последовательную проверку сначало глобальных характеристик, таких как общая структура и расположение элементов, а затем — детальную оценку отдельных компонентов и их визуального соответствия оригиналу. Такой подход позволяет выявить как грубые ошибки в генерации, так и незначительные дефекты, обеспечивая всестороннюю оценку качества сгенерированных векторных изображений. Оценка проводится на нескольких уровнях детализации для обеспечения надежности и воспроизводимости результатов.
Для оценки качества генерируемых SVG-изображений в VFig-Bench используется многоуровневый подход, включающий анализ на различных гранулярностях. Помимо стандартных метрик, таких как структурное сходство (SSIM), метрика LPIPS (Learned Perceptual Image Patch Similarity) и VisualSim, оценивающие восприятие визуальных различий, применяется комплексный анализ, учитывающий как низкоуровневые детали, так и высокоуровневое соответствие исходному изображению. Использование нескольких метрик позволяет получить более объективную и всестороннюю оценку качества генерируемых векторных изображений, выявляя недостатки, которые могут быть не замечены при использовании только одной метрики.
Для всесторонней оценки качества генерации SVG из графиков в VFig-Bench используется комбинация экспертной оценки, выполненной людьми, и автоматизированной оценки с помощью больших многомодальных моделей (VLMs), таких как Gemini и GPT-5.2. Экспертная оценка позволяет учесть нюансы визуальной точности и соответствия структуры графика исходным данным, в то время как VLM обеспечивают масштабируемость и объективность. Результаты оценки с использованием VLM-Judge показали, что модель VFig достигла показателя 0.829 на бенчмарке VFig-Bench, что свидетельствует о высокой степени соответствия сгенерированных SVG-изображений исходным графикам как в плане структурной корректности, так и визуальной достоверности.

Сила мультимодального понимания: расширяя границы графики
Успех VFig обусловлен синергией визуального и языкового понимания, достигаемой благодаря использованию передовых моделей, таких как CLIP, DINO и SigLIP. Эти модели позволяют системе не просто “видеть” изображение, но и интерпретировать его содержание, связывая визуальные элементы с текстовыми описаниями. CLIP, например, обучен сопоставлять изображения и текст, что позволяет VFig понимать, что изображено на картинке и какие концепции она представляет. DINO, в свою очередь, обеспечивает эффективное выделение визуальных признаков, а SigLIP объединяет эти возможности для комплексного анализа. Такой мультимодальный подход позволяет VFig генерировать и понимать сложные диаграммы и изображения, значительно превосходя по качеству и эффективности другие аналогичные системы с открытым исходным кодом.
Визуальный показатель VisualSim, опираясь на передовые мультимодальные модели, представляет собой мощный инструмент для оценки сходства изображений и качества генерируемых векторных графических файлов SVG. В отличие от традиционных метрик, основанных исключительно на пиксельных значениях, VisualSim учитывает семантическое содержание изображений, позволяя более точно определять, насколько два изображения визуально похожи с точки зрения восприятия человеком. Это достигается благодаря использованию моделей, обученных на больших объемах данных изображений и текста, что позволяет VisualSim оценивать не только визуальные характеристики, но и концептуальное соответствие между изображениями. По сути, данный показатель позволяет количественно оценить, насколько хорошо сгенерированное SVG-изображение соответствует исходному изображению или заданным требованиям, что критически важно для автоматизированного создания сложных диаграмм и графиков.
Разработанный подход открывает возможности для автоматического создания сложных диаграмм и графических изображений из различных источников данных, значительно расширяя возможности научной коммуникации и анализа. Система VFig, построенная на этих принципах, демонстрирует превосходство над другими решениями с открытым исходным кодом по ключевым показателям, таким как SSIM (структурное сходство), VisualSim (визуальная схожесть), чистота изображения и скорость рендеринга. Это позволяет исследователям и аналитикам быстро и эффективно визуализировать данные, создавать наглядные представления сложных концепций и улучшать понимание результатов исследований, избегая трудоемкого ручного создания графики.

Перспективы развития: расширяя возможности графики на основе искусственного интеллекта
Архитектура VFig обладает значительным потенциалом для расширения возможностей создания графики, позволяя пользователям настраивать стиль и уровень детализации изображений. В отличие от существующих систем, ориентированных на фиксированные шаблоны, VFig предоставляет гибкую основу для генерации векторной графики, адаптированной под конкретные художественные предпочтения и требования к визуализации данных. Это достигается за счет модульной конструкции, позволяющей легко интегрировать новые стили отрисовки, эффекты и алгоритмы детализации. В перспективе, пользователи смогут не только выбирать из предустановленных стилей, но и определять собственные параметры визуализации, создавая уникальные и выразительные изображения, отвечающие их индивидуальным творческим задачам и потребностям в научной коммуникации. Такая адаптивность открывает широкие возможности для применения VFig в различных областях, от дизайна и искусства до научных исследований и образовательных целей.
Интеграция фреймворка VFig с существующими инструментами научной визуализации и конвейерами анализа данных открывает беспрецедентные возможности для автоматизированного создания графиков. Представьте себе, что результаты сложных вычислений и моделирования, обработанные в таких программах, как Paraview или Matplotlib, могут быть автоматически преобразованы в векторные иллюстрации профессионального качества, готовые для публикации или презентаций. Такая интеграция позволит исследователям сосредоточиться на интерпретации данных, а не на трудоемком процессе ручного создания графиков, значительно ускоряя научные открытия и повышая эффективность работы. Более того, автоматизация позволит создавать более сложные и информативные визуализации, которые ранее были бы слишком трудоемкими для реализации, открывая новые горизонты в области визуализации научных данных и позволяя выявлять скрытые закономерности.
Дальнейшие исследования в области обучения с подкреплением направлены на существенное улучшение качества и эффективности генерации векторной графики с использованием искусственного интеллекта. Особое внимание уделяется разработке специализированных систем вознаграждения. Структурно-ориентированные вознаграждения (R_{structure}) стимулируют алгоритм к созданию графиков с четкой и логичной структурой, облегчающей восприятие информации. Вознаграждения, учитывающие особенности рендеринга (R_{rendering}), позволяют оптимизировать визуальное представление графиков, добиваясь максимальной четкости и эстетической привлекательности. Сочетание этих подходов позволяет не только автоматизировать процесс создания графиков, но и значительно повысить их информативность и визуальную ценность, открывая новые возможности для научных исследований и визуализации данных.

Исследование, представленное в данной работе, демонстрирует, что визуальные данные не просто набор пикселей, но и источник информации, требующий тщательной интерпретации. Авторы, подобно исследователям, стремящимся понять закономерности в сложных системах, используют curated data и двухэтапный процесс обучения для достижения state-of-the-art результатов в генерации SVG-фигур. Этот подход к figure-to-SVG преобразованию, особенно для научных диаграмм, подчеркивает важность структурированной оценки и использования данных как гипотез, требующих проверки. Как однажды заметил Джеффри Хинтон: «Иногда лучший способ понять проблему — это попытаться её решить.» Данное исследование является ярким примером этого принципа, демонстрируя, как решение сложной задачи генерации векторной графики позволяет глубже понять принципы работы vision-language моделей.
Куда же дальше?
Представленная работа, безусловно, демонстрирует прогресс в области генерации векторной графики из растровых изображений. Однако, как часто бывает, решение одной задачи неизбежно обнажает новые грани нерешенных проблем. Автоматическое воссоздание сложных научных диаграмм, несмотря на достигнутые успехи, по-прежнему требует значительных усилий в области курации данных. Возникает вопрос: достаточно ли простого увеличения объема обучающей выборки, или же необходим принципиально новый подход к представлению и структурированию знаний о визуальных элементах?
Очевидным направлением дальнейших исследований представляется разработка более устойчивых к шуму и неполноте данных методов. Существующие модели, вероятно, испытывают трудности при обработке изображений низкого качества или содержащих артефакты. Более того, оценка качества сгенерированных диаграмм остается сложной задачей, требующей разработки метрик, учитывающих не только визуальное сходство, но и семантическую точность.
В конечном итоге, успех в этой области зависит от способности выйти за рамки простого копирования визуальных паттернов и перейти к пониманию лежащих в основе принципов построения научных диаграмм. Иными словами, необходимо стремиться не к созданию «умного автомата», а к модели, способной к творческому анализу и синтезу визуальной информации.
Оригинал статьи: https://arxiv.org/pdf/2603.24575.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Плоские зоны: от теории к новым материалам
- Искусственный интеллект в разговоре: что обсуждают друг с другом AI?
- S-Chain: Когда «цепочка рассуждений» в медицине ведёт к техдолгу.
- Искусственный интеллект на службе редких болезней
- Язык тела под присмотром ИИ: архитектура и гарантии
- Наука, управляемая интеллектом: новая эра открытий
- Квантовый дозор: Новая система обнаружения аномалий для умных сетей
- Генерация без рисков: как избежать нарушения авторских прав при работе с языковыми моделями
- Квантовый Переворот: От Теории к Реальности
- Искусственный интеллект: оценка по результату, а не по задаче
2026-03-28 20:04