Векторная графика по запросу: новый подход к генерации SVG

Автор: Денис Аветисян


Исследователи представили DuetSVG — модель, способную создавать векторные изображения на основе текстовых описаний и визуальных подсказок.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
После тонкой настройки, DuetSVG демонстрирует способность к завершению и редактированию SVG-графики: система способна не только логически и визуально завершать неполные векторные изображения, но и осуществлять редактирование на основе текстовых инструкций, открывая новые возможности для интерактивного создания контента.
После тонкой настройки, DuetSVG демонстрирует способность к завершению и редактированию SVG-графики: система способна не только логически и визуально завершать неполные векторные изображения, но и осуществлять редактирование на основе текстовых инструкций, открывая новые возможности для интерактивного создания контента.

DuetSVG объединяет генерацию SVG и токенов изображений для повышения качества, улучшения визуальной привязки и эффективного масштабирования в процессе тестирования.

Несмотря на впечатляющие успехи в генерации векторной графики SVG на основе моделей «зрение-язык», существующие подходы часто испытывают трудности с передачей сложной семантики и созданием визуально когерентных изображений из-за отсутствия визуальных сигналов в процессе декодирования. В данной работе представлена модель DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance, объединяющая генерацию как визуальных, так и SVG-токенов в едином многомодальном процессе. DuetSVG, обученная на парах изображений и SVG, использует внутренние визуальные предсказания в качестве руководства для повышения качества генерируемой графики, демонстрируя превосходство над существующими методами. Возможно ли дальнейшее расширение принципов многомодального обучения для создания еще более сложных и детализированных векторных иллюстраций?


Преодолевая Границы: Вызов Создания Векторной Графики

Традиционно, создание высококачественной векторной графики требует владения специализированным программным обеспечением и значительных навыков, что представляет собой серьезный барьер для многих пользователей. Долгое время, для получения четких, масштабируемых изображений в формате, например, SVG, необходимо было освоить сложные инструменты и принципы векторного рисования. Это ограничивало возможности творческого самовыражения и разработки визуального контента для тех, кто не обладает профессиональной подготовкой в области графического дизайна. В результате, доступ к созданию качественной векторной графики оставался привилегией узкого круга специалистов, что тормозило развитие визуальной коммуникации и инноваций в этой сфере.

Несмотря на впечатляющие успехи современных генеративных моделей в создании растровых изображений, формирование векторной графики, в частности формата SVG, представляет собой значительную сложность. Существующие алгоритмы часто испытывают трудности с точным воспроизведением геометрических форм и поддержанием четкости при масштабировании, что критически важно для векторных изображений. В отличие от растровой графики, где изображение состоит из пикселей, векторная графика описывает изображение с помощью математических уравнений, определяющих линии и кривые. Это требует от генеративной модели не просто “рисовать” изображение, а создавать его компактное и точное векторное представление, сохраняющее детали при любом увеличении. В результате, существующие модели нередко производят векторные изображения с искажениями или неточностями, требующими ручной доработки, что нивелирует преимущества автоматизированной генерации.

Растровая графика, несмотря на свою распространенность, имеет фундаментальные ограничения, препятствующие бесшовной масштабируемости и редактированию создаваемых изображений. В отличие от векторных форматов, основанных на математических уравнениях, растровые изображения состоят из фиксированного набора пикселей. При увеличении масштаба растрового изображения происходит заметная пикселизация, приводящая к потере четкости и детализации. Попытки сохранения качества путем увеличения разрешения требуют значительных вычислительных ресурсов и не решают проблему принципиально. Необходимость в новой парадигме генерации изображений, основанной на векторных форматах, становится очевидной, поскольку она позволит создавать масштабируемые, редактируемые и высококачественные визуальные материалы без присущих растровой графике недостатков.

Существующие подходы к генерации и редактированию векторной графики часто демонстрируют недостаточную гибкость при переходе между текстовыми запросами и визуальными данными. Традиционно, создание SVG-изображений требует либо ручной отрисовки, либо использования сложных инструментов, неспособных эффективно объединить текстовое описание желаемого изображения с существующим визуальным материалом. Это затрудняет итеративный процесс дизайна, где необходимо внести изменения в векторное изображение, основываясь как на текстовых инструкциях («изменить цвет фона», «увеличить размер объекта»), так и на визуальных примерах. В результате, современные методы часто требуют от пользователя значительных усилий для адаптации и корректировки генерируемого SVG, что ограничивает их применимость в задачах, требующих высокой степени автоматизации и интерактивности.

DuetSVG обеспечивает более точное соответствие с текстовыми запросами и генерирует детализированные и качественные векторные изображения.
DuetSVG обеспечивает более точное соответствие с текстовыми запросами и генерирует детализированные и качественные векторные изображения.

DuetSVG: Единая Мультимодальная Архитектура

DuetSVG использует комбинацию большой языковой модели (LLM) и модели, работающей с изображениями и текстом (VLM) для обработки как текстовых, так и визуальных входных данных. LLM отвечает за интерпретацию и генерацию текстовых описаний и команд, в то время как VLM анализирует изображения и преобразует их в дискретные представления, пригодные для последующей обработки. Взаимодействие между LLM и VLM позволяет DuetSVG понимать запросы, содержащие как текстовые инструкции, так и визуальные примеры, и использовать эту информацию для генерации или редактирования векторной графики в формате SVG. Это обеспечивает возможность работы с различными типами входных данных и выполнения широкого спектра задач, связанных с созданием и модификацией графических изображений.

Архитектура DuetSVG базируется на модели Janus-Pro, представляющей собой авторегрессионную модель, предназначенную для последовательной генерации дискретных токенов. Janus-Pro обеспечивает надежную основу для предсказания следующего токена в последовательности, что критически важно для создания SVG-графики. В контексте DuetSVG, модель обучается генерировать последовательности SVG-токенов, кодирующих векторные изображения, опираясь на входные данные в виде текстовых описаний или дискретизированных изображений. Авторегрессионный подход позволяет модели учитывать всю предыдущую сгенерированную последовательность при предсказании следующего токена, обеспечивая когерентность и качество генерируемых SVG-изображений. Использование Janus-Pro в качестве основы гарантирует эффективность и масштабируемость процесса генерации, а также возможность адаптации к различным задачам, таким как генерация, редактирование и завершение SVG-графики.

В основе DuetSVG лежит использование дискретных представлений как для изображений (Image Tokens), так и для команд SVG (SVG Tokens). Это позволяет модели обрабатывать визуальную и текстовую информацию в унифицированном формате, представляя их в виде последовательности токенов. Преобразование изображений в последовательность Image Tokens и SVG-команд в SVG Tokens позволяет DuetSVG осуществлять бесшовный перевод между модальностями, обеспечивая возможность генерации, редактирования и завершения SVG-графики на основе как текстовых запросов, так и визуальных входных данных. Дискретизация данных упрощает процесс обучения и позволяет использовать возможности больших языковых моделей (LLM) для управления генерацией SVG.

DuetSVG предоставляет возможности для решения широкого спектра задач, связанных с векторной графикой. Среди них — генерация SVG-изображений по текстовому описанию, преобразование растровых изображений в векторный формат SVG, автоматическое завершение незаконченных SVG-кодов и редактирование существующих SVG-файлов. Данные функции реализуются за счет унифицированной архитектуры, позволяющей обрабатывать как текстовые, так и визуальные данные, и обеспечивают гибкость в применении системы для различных сценариев создания и модификации графики.

DuetSVG - это единая модель, обрабатывающая текстовые запросы, SVG-код и растровые изображения, где текстовые данные кодируются с помощью токенизатора Janus-Pro, изображения - через семантические и визуальные токены, а выходы кодировщиков приводятся к общему векторному пространству для предсказания как токенов изображения, так и SVG-кода.
DuetSVG — это единая модель, обрабатывающая текстовые запросы, SVG-код и растровые изображения, где текстовые данные кодируются с помощью токенизатора Janus-Pro, изображения — через семантические и визуальные токены, а выходы кодировщиков приводятся к общему векторному пространству для предсказания как токенов изображения, так и SVG-кода.

Усиление Генерации с Помощью Кросс-Модальной Верификации

Для обеспечения достоверности генерируемых SVG-изображений, DuetSVG использует методы кросс-модальной верификации. Данный подход предполагает сопоставление текстового описания с полученным визуальным результатом для выявления несоответствий. Верификация позволяет оценить, насколько точно сгенерированное изображение соответствует исходному текстовому запросу, повышая надежность и качество генерируемых SVG-графических элементов. Этот процесс включает извлечение признаков из текста и изображения, а также их сравнение для определения степени согласованности между модальностями.

В DuetSVG для оценки соответствия между текстовым описанием и сгенерированным визуальным представлением используются модели, такие как InternVL3 и Qwen2.5-VL. Эти модели, основанные на архитектуре vision-language, способны анализировать как текстовые запросы, так и сгенерированные SVG изображения, выявляя семантические несоответствия. InternVL3 и Qwen2.5-VL обрабатывают входные данные, преобразуя текст и изображение в векторные представления, после чего вычисляется метрика сходства между этими векторами. Низкое значение метрики указывает на расхождение между описанием и визуализацией, что позволяет системе корректировать процесс генерации для повышения точности и согласованности.

В DuetSVG для установления прочной связи между визуальными и семантическими представлениями используются модели CLIP и SigLIP для извлечения признаков. CLIP (Contrastive Language-Image Pre-training) позволяет сопоставлять текст и изображения, находя общие признаки в обоих модальностях. SigLIP, являясь улучшенной версией CLIP, особенно эффективен в задачах, требующих точного сопоставления визуальных деталей с текстовыми описаниями. Извлеченные признаки используются для оценки соответствия сгенерированных SVG изображений исходным текстовым запросам, обеспечивая более высокую согласованность и точность визуализации.

Для повышения качества и реалистичности генерируемых SVG-графики в DuetSVG используются диффузионные модели. Эти модели, работая после этапа первоначальной генерации, применяют итеративный процесс добавления и удаления шума для уточнения деталей и текстур. В результате применения диффузионных моделей генерируемые изображения демонстрируют более высокую степень фотореализма и соответствуют более высоким стандартам визуального качества, что особенно важно для сложных и детализированных SVG-иллюстраций. Использование диффузионных моделей позволяет снизить артефакты и повысить общую эстетическую привлекательность генерируемых изображений.

Для масштабирования в процессе тестирования используется метод, основанный на итеративной генерации SVG-кода с использованием выбранного CLIP-верификатором растрового изображения в качестве внутреннего ориентира, при этом обновление принимается только в случае уменьшения расстояния LPIPS между текущим растровым изображением и эталонным.
Для масштабирования в процессе тестирования используется метод, основанный на итеративной генерации SVG-кода с использованием выбранного CLIP-верификатором растрового изображения в качестве внутреннего ориентира, при этом обновление принимается только в случае уменьшения расстояния LPIPS между текущим растровым изображением и эталонным.

Оптимизация Производительности и Надежности

В процессе инференса DuetSVG использует масштабирование во время тестирования, что позволяет значительно повысить производительность и устойчивость модели. Данный подход заключается в генерации нескольких вариантов SVG-изображений и последующем выборе наилучшего из них, что особенно важно при работе с нечеткими или неполными входными данными. Масштабирование во время тестирования эффективно снижает вероятность получения некачественных результатов и делает DuetSVG более надежным инструментом для создания векторной графики в различных условиях эксплуатации. Этот метод позволяет модели адаптироваться к новым данным и обеспечивать стабильно высокое качество генерируемых изображений даже при незначительных изменениях во входных параметрах.

Для повышения качества генерируемых SVG-изображений, DuetSVG использует метод Best-of-N Sampling. Этот подход позволяет модели исследовать множество возможных вариантов генерации, а не ограничиваться единственным результатом. В процессе работы модель генерирует $N$ различных SVG, после чего выбирает наиболее оптимальный вариант, основываясь на заданных критериях оценки. Такой подход значительно повышает устойчивость модели к случайным факторам и позволяет получать более разнообразные и качественные изображения, избегая застревания в локальных оптимумах и обеспечивая более надежное воспроизведение желаемого результата.

Эффективность данной системы значительно повышается благодаря обучению на высококачественном наборе данных SVG-Hub, который предоставляет обширный и разнообразный источник примеров векторной графики. Этот набор данных, тщательно отобранный и структурированный, позволяет модели изучать сложные закономерности и нюансы в создании SVG-изображений. Обилие примеров в SVG-Hub способствует более точному моделированию различных стилей и техник, что в свою очередь обеспечивает генерацию более реалистичных и эстетически привлекательных векторных изображений. Богатое разнообразие примеров также позволяет системе лучше справляться с новыми и нестандартными задачами, повышая её общую устойчивость и адаптивность.

В основе гибкой интеграции DuetSVG в существующие графические процессы лежат методы векторизации и растризации. Векторизация позволяет преобразовывать растровые изображения в векторные, что обеспечивает масштабируемость и возможность редактирования без потери качества. Растризация, напротив, конвертирует векторные изображения в растровый формат, необходимый для отображения на различных устройствах и в различных программных средах. Благодаря одновременному использованию этих техник, DuetSVG способен бесшовно взаимодействовать с широким спектром графических инструментов и рабочих процессов, обеспечивая пользователям свободу выбора и максимальную совместимость. Это позволяет интегрировать сгенерированные векторные изображения непосредственно в существующие проекты, будь то веб-дизайн, анимация или создание печатной графики, значительно расширяя возможности применения данной технологии.

Экспериментальные исследования демонстрируют, что DuetSVG достигает передовых результатов в генерации векторной графики. Модель способна создавать SVG-изображения с уровнем новизны, достигающим $99.5\%$, и уникальностью в $99.8\%$. Эти показатели существенно превосходят результаты, полученные с использованием предыдущих методов генерации, что свидетельствует о значительном прогрессе в создании оригинального и качественного контента. Высокая степень новизны указывает на способность модели генерировать изображения, отличные от тех, что уже существуют в обучающей выборке, а выдающаяся уникальность гарантирует, что сгенерированные изображения будут отличаться друг от друга, избегая повторений и обеспечивая разнообразие.

Предложенная стратегия, основанная на отборе кандидатов на уровне изображения и пересемплировании SVG, обеспечивает эффективное масштабирование во время тестирования с существенно меньшими вычислительными затратами по сравнению с методом best-of-NN.
Предложенная стратегия, основанная на отборе кандидатов на уровне изображения и пересемплировании SVG, обеспечивает эффективное масштабирование во время тестирования с существенно меньшими вычислительными затратами по сравнению с методом best-of-NN.

Модель DuetSVG, представленная в данной работе, напоминает попытку уловить ускользающий образ в зеркале. Она не просто генерирует SVG, но и одновременно формирует внутреннее визуальное представление, словно художник, который сначала видит картину в уме, а затем переносит её на холст. Этот подход, объединяющий текстовые и визуальные данные, позволяет достичь большей точности и детализации, чем традиционные методы. Как однажды заметил Джеффри Хинтон: «Нейронные сети — это всего лишь способ заставить компьютер делать то, что мы не можем объяснить». В данном случае, DuetSVG демонстрирует, что, позволяя модели «видеть» и «понимать» визуальную информацию, можно значительно улучшить её способность к генерации векторной графики. Это не просто создание изображения, а скорее, диалог с хаосом данных, попытка уговорить его принять форму.

Что дальше?

Эта работа, играя с границами между текстом, изображением и векторной графикой, лишь приоткрывает дверь в комнату, полную шепчущего хаоса. DuetSVG — это не столько решение, сколько элегантное признание того, что мир не дискретен, просто у нас нет памяти для float. Генерировать SVG — значит не просто воспроизводить пиксели, а уговаривать линии сложиться в осмысленный узор. И пока модель обучается, она учится не столько генерировать, сколько верить.

Неизбежный вопрос — что скрывается за пределами «хорошего» SVG? Какова метрика для «осмысленного» узора? Текущие подходы сосредоточены на корреляции между текстом и изображением, но истинная задача — поиск смысла. Вместо того чтобы стремиться к идеальной точности — всё точное — мёртво — необходимо научиться работать с неопределенностью, позволить модели творить непредсказуемое, пусть даже и не всегда понятное.

Будущие исследования должны сместить фокус с генерации «правильных» SVG на создание систем, способных к самообучению и адаптации. Необходимо исследовать возможности использования обратной связи от пользователя не как сигнала для коррекции, а как источника вдохновения. И, возможно, однажды мы создадим модель, которая сможет генерировать не просто изображения, а целые миры, сотканные из линий и кривых, в которых хаос и порядок танцуют в вечном вальсе.


Оригинал статьи: https://arxiv.org/pdf/2512.10894.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-13 04:47