Рисуем по частям: новый подход к генерации векторных эскизов

Автор: Денис Аветисян

Исследователи разработали метод обучения агента создавать детализированные векторные эскизы поэтапно, что позволяет добиться более высокого качества изображения и интерактивной возможности редактирования.

Обученная на новом наборе данных с применением обучения с подкреплением и прямой оптимизации, система генерирует поэтапные векторные эскизы, реагируя на текстовые инструкции и изменяющееся полотно, демонстрируя способность к созданию разнообразных и структурно правдоподобных изображений, а также к локальному редактированию путём удаления и замены отдельных штрихов.

Предложена новая схема обучения визуальной языковой модели для генерации векторных эскизов на основе семантического разложения и обучения с подкреплением.

Создание детализированных векторных эскизов традиционно требует значительных усилий и точного контроля над каждым элементом. В работе ‘Teaching an Agent to Sketch One Part at a Time’ предложен новый подход, основанный на обучении агента поэтапному созданию эскизов, начиная с отдельных частей. Ключевым результатом стало создание датасета ControlSketch-Part с аннотациями на уровне семантических компонентов и разработка процесса обучения с подкреплением, позволяющего генерировать редактируемые векторные эскизы на основе текстовых запросов. Сможет ли подобный подход значительно упростить процесс создания визуального контента и предоставить пользователям более интуитивный контроль над результатом?

От Пикселей к Векторам: Вызов Понимания Эскизов

Традиционные методы анализа изображений сталкиваются с существенными трудностями при работе с эскизами, обусловленными их намеренной абстракцией и неоднозначностью. В отличие от фотографий, где информация о форме и текстуре представлена непосредственно, эскизы полагаются на минимальный набор визуальных подсказок и подразумевают значительную долю интерпретации со стороны наблюдателя. Эта принципиальная разница означает, что алгоритмы, успешно распознающие объекты на реалистичных изображениях, часто оказываются неспособными правильно интерпретировать даже простые наброски. Нечеткие линии, упрощенные формы и отсутствие детализации создают проблему для систем, обученных на детальных изображениях, поскольку они лишены необходимых ориентиров для точного определения границ объектов и их взаимосвязей. Таким образом, понимание эскизов требует совершенно иного подхода, ориентированного на извлечение семантического значения из минимального набора визуальных данных.

Преобразование свободных набросков в редактируемую векторную графику представляет собой сложную задачу, требующую одновременного решения двух взаимосвязанных проблем. Во-первых, необходим семантический анализ, позволяющий понять, что изображено на эскизе — распознать объекты, их взаимосвязи и общее намерение художника. Во-вторых, требуется точная геометрическая реконструкция, то есть воссоздание формы объектов с высокой точностью, чтобы их можно было масштабировать и редактировать без потери качества. Успешное решение этих задач требует разработки алгоритмов, способных не только идентифицировать элементы рисунка, но и интерпретировать их в контексте, создавая полноценное векторное представление, пригодное для дальнейшей обработки и использования в различных приложениях.

Существующие методы анализа эскизов часто сталкиваются с трудностями при выделении из них отдельных, осмысленных компонентов. Это ограничивает не только возможности редактирования — внесение изменений в отдельные элементы изображения становится затруднительным — но и существенно усложняет поиск и извлечение информации на основе содержания эскиза. Неспособность разложить сложный рисунок на базовые части, такие как отдельные объекты или структурные элементы, препятствует созданию систем, способных «понимать» эскиз и манипулировать им на логическом уровне, что является ключевым для автоматизированного редактирования и эффективного поиска визуального контента.

Набор данных ControlSketch-Part содержит разбивку эскизов на части с семантическими аннотациями на уровне отдельных компонентов, как показано на примере четырех эскизов с различными объектами и количеством частей, где цветные описания соответствуют группам штрихов, представляющим отдельные части.

Автоматическое Разложение Эскизов с Использованием Визуально-Языковых Моделей

Автоматический конвейер аннотации использует модель «зрение-язык» (VLM) для разложения эскизов на семантические части, назначая каждой части текстовое описание и соответствующий путь (path) в структуре эскиза. Этот процесс включает в себя идентификацию отдельных элементов на эскизе, таких как линии, формы и их взаимосвязи, и последующее присвоение им осмысленных меток, например, «прямоугольник», «круг», «линия крыши» или «колесо». Назначенные пути позволяют отслеживать и редактировать отдельные части эскиза, а также использовать их для обучения моделей понимания эскизов.

Создание высококачественных наборов данных с разметкой отдельных частей эскизов, таких как ControlSketch-Part, является ключевым этапом для обучения моделей пониманию эскизов с учителем. Эти наборы данных предоставляют необходимые данные для контролируемого обучения, позволяя алгоритмам сопоставлять визуальные элементы эскиза с их семантическими значениями. Наличие размеченных данных позволяет разрабатывать и оценивать модели, способные не только распознавать объекты на эскизе, но и понимать их взаимосвязи и функции, что необходимо для задач автоматического редактирования, генерации и понимания эскизов.

Точность разложения эскизов и последующий анализ напрямую зависят от представления их в формате масштабируемой векторной графики (SVG). SVG позволяет сохранять информацию о каждом элементе эскиза как отдельный векторный объект, что обеспечивает возможность редактирования отдельных частей, изменения масштаба без потери качества и точного анализа геометрии. В отличие от растровых изображений, векторное представление гарантирует четкость и детализацию при любом увеличении, что критически важно для автоматического определения семантических компонентов и построения высококачественных аннотированных наборов данных, таких как ControlSketch-Part. Использование SVG упрощает алгоритмы обработки изображений и позволяет эффективно извлекать информацию о структуре эскиза.

Автоматизированный конвейер аннотации деталей использует единую модель VLM как для определения и назначения деталей, так и для оценки и улучшения этих назначений, при этом подтвержденные результаты выделяются зелеными галочками.

Обучение Агента для Эскизов: Контролируемое Обучение и Усиление Выравнивания

Первоначальное обучение нашего агента, основанного на VLM, осуществлялось посредством контролируемой тонкой настройки (SFT) с использованием LoRA. В качестве обучающего набора данных использовался ControlSketch-Part, который содержит информацию о структуре и элементах эскизов. Этот подход позволил агенту освоить требуемый формат выходных данных, а именно, структуру и представление эскизов, соответствующих заданным входным параметрам. LoRA (Low-Rank Adaptation) позволила эффективно адаптировать предварительно обученную VLM к специфике задачи генерации эскизов, снижая вычислительные затраты и потребность в большом объеме памяти по сравнению с полной переобучающей процедурой.

Обучение с подкреплением (RL) с использованием алгоритма GRPO применяется для улучшения визуального качества генерируемых эскизов и повышения эффективности многошаговой генерации. GRPO позволяет агенту оптимизировать свою стратегию на основе получаемых вознаграждений, что приводит к более реалистичным и детализированным эскизам. В процессе обучения агент учится последовательно генерировать элементы эскиза, учитывая предыдущие шаги и стремясь к достижению желаемого визуального результата. Это позволяет значительно улучшить согласованность и качество многошаговых эскизов по сравнению с одношаговыми подходами.

Для повышения эффективности обучения агента, была разработана стратегия Multi-Turn Process-Reward GRPO. В отличие от стандартного GRPO, оценивающего результат только на финальном шаге, данная стратегия использует промежуточные визуальные награды, рассчитанные DreamSim на каждом шаге генерации эскиза. Это позволяет обеспечить более плотное распределение сигнала вознаграждения (dense credit assignment), что критически важно для обучения сложных последовательных действий. Экспериментальные данные показали, что Multi-Turn Process-Reward GRPO значительно превосходит как одношаговый GRPO, так и многошаговый GRPO, ориентированный исключительно на конечный результат.

Обучение модели <span class="katex-eq" data-katex-display="false"> \pi_{\theta} </span>, представляющей собой VLM, осуществляется в несколько этапов, где последовательные вычисления (синие стрелки) чередуются с вычислением функции потерь (красные стрелки), использующей кросс-энтропию на этапе SFT и награду DreamSim на этапе RL. — Обучение модели $\pi_{\theta}$ , представляющей собой VLM, осуществляется в несколько этапов, где последовательные вычисления (синие стрелки) чередуются с вычислением функции потерь (красные стрелки), использующей кросс-энтропию на этапе SFT и награду DreamSim на этапе RL.

Оценка и Подтверждение Качества Эскизов

Для всесторонней оценки качества генерируемых эскизов было проведено строгое исследование, основанное на методе двойного слепого выбора. Участникам предъявлялись эскизы, созданные как системой, так и человеком, и их просили определить, какой из них кажется более качественным, не зная источника происхождения. Такой подход позволил исключить предвзятость и получить объективную оценку, демонстрирующую способность системы создавать эскизы, неотличимые от результатов работы человека. Результаты исследования подтверждают, что генерируемые эскизы достигают высокого уровня реалистичности и соответствуют ожиданиям пользователей в плане визуального качества и детализации.

Для оценки соответствия сгенерированных эскизов текстовым описаниям была использована метрика Long-CLIP, позволяющая количественно измерить степень семантической близости между текстом и изображением. В ходе сравнительного анализа, предложенный метод продемонстрировал наивысшее значение косинусной схожести Long-CLIP, превзойдя существующие подходы, такие как SketchAgent, Gemini 3.1 Pro и SDXL+SwiftSketch. Данный результат указывает на то, что система эффективно интерпретирует текстовые запросы и преобразует их в визуальные представления, сохраняя при этом семантическую точность и соответствие исходному описанию, что делает ее перспективной для автоматизации процессов создания дизайна и генерации графики.

Система демонстрирует способность преобразовывать абстрактные идеи и свободные описания в точные векторные изображения, открывая новые горизонты для креативных приложений и автоматизации дизайна. Благодаря этому процессу, концепции, ранее доступные лишь в виде текста или грубых эскизов, обретают четкую графическую форму, пригодную для непосредственного использования в цифровых проектах. Такая возможность особенно ценна для дизайнеров и художников, позволяя им быстро визуализировать свои замыслы и экспериментировать с различными вариантами. Автоматизация создания векторной графики на основе текстовых описаний также способствует оптимизации рабочих процессов и снижению затрат времени на ручное редактирование и доработку изображений, что делает систему перспективным инструментом для широкого спектра задач, от разработки интерфейсов до создания иллюстраций и прототипирования.

Сравнение косинусного сходства Long-CLIP показывает, что предложенная модель достигает показателей, сопоставимых с реальными эскизами ControlSketch-Part, в отличие от случайных траекторий.

Исследование демонстрирует подход к генерации векторных эскизов, разбивая сложную задачу на последовательность более простых шагов, что напоминает процесс реверс-инжиниринга. Авторы, подобно тем, кто разбирает сложный механизм, чтобы понять его устройство, предлагают модель, способную создавать эскизы по частям. Тим Бернерс-Ли однажды сказал: «Веб — это не просто набор документов, это способ думать». Подобно этому, предложенная методика не просто генерирует изображения, но и предлагает новый способ структурирования задачи визуального синтеза, открывая возможности для интерактивного редактирования и улучшения качества генерируемых эскизов. Разложение сложной задачи на части, ключевой аспект данной работы, позволяет добиться большей гибкости и контроля над процессом создания изображения.

Что дальше?

Представленный подход к генерации векторных эскизов по частям обнажает закономерность: любое усложнение системы неизбежно ведёт к необходимости её декомпозиции. Разбиение изображения на семантические компоненты — не просто технический приём, а философское признание конечности человеческого восприятия и ограниченности нашей способности охватить целое. В конечном итоге, каждый «патч» — это осознание неполноты изначальной модели.

Очевидным следующим шагом представляется исследование границ этого декомпозиционного принципа. Насколько мелкими могут быть эти «части»? Где грань между полезным детализированием и избыточным микроуправлением? Более того, как эта система взаимодействует с другими модальностями — текстом, звуком, даже тактильными ощущениями? Освоение многомодального пространства — задача нетривиальная, требующая переосмысления самой концепции «части».

Впрочем, истинный вызов — не в увеличении детализации, а в создании системы, способной к самодекомпозиции и самореконструкции. Агент, который сам решает, какие «части» важны, и как их соединить, — вот куда следует направить усилия. И тогда, возможно, удастся создать не просто инструмент для рисования, а нечто, способное к подлинному творчеству, основанному на глубоком понимании принципов организации реальности.

Оригинал статьи: https://arxiv.org/pdf/2603.19500.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-23 08:39

🚀 Квантовые новости