Визуальная генерация по запросу: Новый подход к обучению моделей

Автор: Денис Аветисян


Исследователи разработали усовершенствованную систему обучения моделей генерации изображений по текстовому описанию, решающую проблему конфликтов между последовательными шагами генерации.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Количество токенов запроса, варьирующееся во времени при генерации VAR, демонстрирует значительные колебания, что приводит к непостоянству сходства задач и потенциальным конфликтам стратегий в процессе RL-оптимизации.
Количество токенов запроса, варьирующееся во времени при генерации VAR, демонстрирует значительные колебания, что приводит к непостоянству сходства задач и потенциальным конфликтам стратегий в процессе RL-оптимизации.

Предлагаемый метод использует обучение с подкреплением и инновационные техники формирования вознаграждений для повышения стабильности и качества визуальной авторегрессии.

Несмотря на успехи авторегрессионных моделей в генерации изображений, обучение с подкреплением (RL) для визуальной авторегрессии (VAR) сталкивается с проблемой асинхронных конфликтов политик. В работе ‘VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation’ предложен новый фреймворк, включающий инновационные методы формирования вознаграждения и оптимизации, позволяющие эффективно разрешать эти конфликты. Предложенный подход демонстрирует значительное улучшение качества генерируемых изображений и согласованности с заданным текстом, обеспечивая стабильное обучение VAR-моделей. Позволит ли данная методика расширить возможности управления генеративными моделями и добиться еще более реалистичных и согласованных результатов?


Вызов долгосрочной визуальной генерации

Существующие модели генерации изображений часто сталкиваются с трудностями при создании последовательностей большой длительности, особенно когда речь идет о рендеринге текста. Проблема заключается в постепенной потере связности и детализации по мере увеличения длины генерируемой последовательности. В частности, при попытке включить текст в изображение, модели нередко искажают буквы, делают их нечитаемыми или нарушают общую композицию. Это связано с тем, что поддержание согласованности на протяжении всего процесса генерации требует от модели способности эффективно «помнить» и учитывать предыдущие шаги, что является сложной задачей при работе с многослойными и сложными изображениями. В результате, генерируемые изображения могут выглядеть фрагментированными или нереалистичными, что ограничивает возможности применения этих моделей в задачах, требующих высокой степени визуальной точности и последовательности.

Проблема поддержания согласованности и детализации при генерации длинных визуальных последовательностей связана с трудностями эффективной передачи информации между различными уровнями разрешения в процессе создания изображения. Существующие модели часто сталкиваются с потерей контекста и искажениями по мере увеличения длины генерируемой последовательности, поскольку информация о начальных кадрах или деталях не может быть адекватно распространена на последующие этапы. Это особенно заметно при рендеринге текста, где даже незначительные ошибки на ранних стадиях могут привести к полному искажению смысла. Успешное решение требует разработки механизмов, обеспечивающих сохранение и точную передачу информации на всех уровнях детализации, подобно тому, как человеческий мозг обрабатывает визуальную информацию, последовательно уточняя детали от общего плана к мелким элементам.

Для преодоления трудностей, связанных с генерацией длинных и детализированных визуальных последовательностей, требуется принципиально новый подход к обучению с подкреплением и разработке системы вознаграждений. Существующие методы часто сталкиваются с проблемой “забывания” начальных деталей и последовательности при создании изображений большой длины. Новая стратегия фокусируется на разработке таких вознаграждений, которые будут поощрять модель не только за локальную четкость и реалистичность каждого кадра, но и за глобальную согласованность и непрерывность всей последовательности. Это предполагает использование более сложных функций вознаграждения, учитывающих не только пиксельную точность, но и семантическую связность объектов и сцен, а также долгосрочные зависимости между кадрами. Такой подход позволит модели эффективно распространять информацию на протяжении всей генерации, обеспечивая сохранение деталей и согласованность визуального повествования.

Обучение с подкреплением позволило значительно улучшить качество рендеринга текста, исправив ошибки в порядке символов, неверные глифы, а также пропуски и лишние символы, как видно на примерах, включающих фразы и отдельные слова.
Обучение с подкреплением позволило значительно улучшить качество рендеринга текста, исправив ошибки в порядке символов, неверные глифы, а также пропуски и лишние символы, как видно на примерах, включающих фразы и отдельные слова.

NextFlow: Визуальная авторегрессионная основа

NextFlow использует возможности визуальных авторегрессионных (VAR) моделей для генерации изображений пошагово, токен за токеном, на различных разрешениях. В основе лежит последовательное предсказание следующих элементов изображения на основе уже сгенерированных, что позволяет создавать изображения высокого качества. Многомасштабный подход, реализуемый посредством генерации на разных разрешениях, повышает детализацию и общую визуальную целостность результата. Каждый сгенерированный токен учитывает историю предыдущих токенов, обеспечивая согласованность и реалистичность изображения.

Архитектура NextFlow обеспечивает генерацию высококачественных изображений посредством последовательного предсказания последующих элементов на основе уже сгенерированных. Данный подход, основанный на принципе авторегрессии, позволяет модели учитывать контекст предыдущих пикселей или токенов при создании новых, что приводит к более когерентным и реалистичным результатам. Каждый новый элемент изображения формируется как вероятностное распределение, зависящее от предыдущих, что позволяет учитывать сложные взаимосвязи между различными частями изображения и создавать детализированные визуализации. По сути, процесс генерации имитирует последовательное построение изображения, шаг за шагом, обеспечивая контроль над каждым элементом и повышая общее качество и визуальную согласованность.

Архитектура NextFlow предоставляет надежную основу для обучения с подкреплением (Reinforcement Learning), обеспечивая точный контроль над процессом генерации изображений. Это достигается за счет возможности определения функции вознаграждения, которая оценивает качество каждого сгенерированного токена или элемента изображения. Агент обучения с подкреплением, используя VAR-модель NextFlow, может итеративно улучшать стратегию генерации, максимизируя накопленное вознаграждение и, следовательно, качество и соответствие желаемым критериям итогового изображения. Такой подход позволяет не только генерировать изображения, но и оптимизировать их под конкретные задачи и требования, например, для достижения определенного стиля или композиции.

Маски токенов распространяются в обратном порядке по многомасштабной иерархии модели, переходя от более мелких к более крупным масштабам признаков.
Маски токенов распространяются в обратном порядке по многомасштабной иерархии модели, переходя от более мелких к более крупным масштабам признаков.

Value as Middle Return: Оптимизация согласованности

Алгоритм обучения с подкреплением Value as Middle Return (VMR) представляет собой новый подход, основанный на декомпозиции сигнала вознаграждения на префиксные и суффиксные сегменты. В отличие от традиционных методов, VMR разделяет оценку качества генерируемой последовательности на промежуточные этапы, оценивая не только конечный результат, но и вклад каждого сегмента в общую структуру. Это достигается путем вычисления вознаграждения для префикса (начальной части) и суффикса (окончательной части) генерируемой последовательности, что позволяет более точно оценить вклад каждого этапа в формирование конечного результата и, соответственно, оптимизировать процесс генерации.

Алгоритм Value as Middle Return (VMR) является развитием GRPO и предназначен для эффективного решения проблем асинхронных конфликтов политик при генерации длинных последовательностей. В отличие от традиционных методов, VMR позволяет смягчить расхождения между политиками, возникающие на разных этапах генерации, за счет декомпозиции сигнала вознаграждения и фокусировки на промежуточных значениях. Это особенно важно при генерации изображений или текстов большой длины, где небольшие несоответствия на ранних этапах могут привести к значительным ошибкам в итоговом результате. VMR обеспечивает более стабильное и согласованное поведение агента, минимизируя влияние асинхронных обновлений политик на качество генерируемого контента.

Алгоритм Value as Middle Return (VMR) повышает связность и консистентность процесса создания изображения за счет акцентирования внимания на промежуточных значениях. Вместо оценки только конечного результата, VMR декомпозирует сигнал вознаграждения на префикс и суффикс, что позволяет оценивать и оптимизировать не только финальное изображение, но и его промежуточные этапы. Это обеспечивает более плавный и логичный переход между стадиями генерации, минимизируя расхождения и артефакты, и способствует созданию более когерентного и целостного визуального результата. Оптимизация промежуточных значений позволяет VMR эффективно справляться с асинхронными конфликтами политик, возникающими при генерации длинных последовательностей данных, что особенно важно для создания сложных изображений.

Сравнение кривых обучения GRPO и GRPO с VMR при различных масштабах префикса демонстрирует, что добавление VMR улучшает стабильность и скорость сходимости алгоритма.
Сравнение кривых обучения GRPO и GRPO с VMR при различных масштабах префикса демонстрирует, что добавление VMR улучшает стабильность и скорость сходимости алгоритма.

Уточнение обучения с помощью маскированной пропагации и нормализации по действиям

Метод маскированной пропагации (Mask Propagation, MP) направлен на оптимизацию процесса назначения вознаграждения (credit assignment) в обучении с подкреплением. Вместо равномерного распределения сигнала вознаграждения по всему изображению, MP фокусируется на областях, которые непосредственно влияют на предпринятое действие и последующий результат. Это достигается путем создания маски, выделяющей каузально релевантные регионы изображения, и распространения сигнала вознаграждения преимущественно через эти области. Такой подход позволяет более эффективно использовать данные, ускоряет обучение и повышает стабильность алгоритма, поскольку уменьшает влияние нерелевантных визуальных элементов на процесс обучения агента.

Нормализация весов по действиям (Per-Action Normalization Weighting, PANW) применяется для решения проблемы неравномерной длины последовательностей токенов, возникающей при обработке данных во временных горизонтах. Метод предполагает взвешивание вклада каждого временного шага в общую функцию потерь, обеспечивая более стабильное обучение. Веса рассчитываются таким образом, чтобы компенсировать разницу в длине последовательностей, предотвращая доминирование более длинных последовательностей в процессе обучения и обеспечивая равномерный учет информации со всех временных шагов. Это позволяет алгоритму эффективно работать с переменной длиной контекста и повышает устойчивость обучения в задачах, требующих обработки временных рядов.

Комбинирование методов маскированной пропагации (Mask Propagation — MP), нормализации весов по действиям (Per-Action Normalization Weighting — PANW) и визуального маршрутизатора воспоминаний (Visual Memory Router — VMR) позволяет создать устойчивый и эффективный конвейер обучения с подкреплением. MP улучшает распределение вознаграждения, фокусируясь на причинно-следственных связях в изображении, в то время как PANW стабилизирует обучение, балансируя вклад различных временных шагов, особенно при работе с последовательностями переменной длины. Совместное использование этих методов с VMR обеспечивает эффективное извлечение и использование визуальной информации для принятия решений, что в совокупности приводит к повышению скорости обучения и улучшению производительности агента в различных задачах обучения с подкреплением.

Распределение количества текстовых регионов различается между обучающими и оценочными наборами данных, при этом оценочный набор ограничен диапазоном от 2 до 5 регионов с вероятностями 0.2, 0.3, 0.3 и 0.2 соответственно.
Распределение количества текстовых регионов различается между обучающими и оценочными наборами данных, при этом оценочный набор ограничен диапазоном от 2 до 5 регионов с вероятностями 0.2, 0.3, 0.3 и 0.2 соответственно.

Оценка и перспективы развития в области визуальной генерации

Оценка разработанного фреймворка проводилась с использованием метрик OCR Reward и HPSv3, что позволило продемонстрировать значительное улучшение качества рендеринга текста. Применение данных метрик позволило объективно оценить четкость и разборчивость сгенерированных изображений, содержащих текст. Результаты показали, что фреймворк способен создавать изображения с высоким уровнем детализации и удобочитаемости даже в длинных текстовых последовательностях, что подтверждает его эффективность в задачах, требующих высокой степени визуальной точности и последовательности.

В ходе оценки предложенного подхода на бенчмарке CVTG-2K зафиксировано значительное повышение точности распознавания текста. Результаты демонстрируют абсолютное улучшение в 2.21 пункта по показателю Word Accuracy, достигнув значения 0.7841, что свидетельствует о существенном прогрессе в качестве генерируемого текста. Кроме того, наблюдается абсолютное улучшение в 0.1265 пункта по метрике NED, с итоговым значением 0.9081, подтверждающее повышение достоверности и читаемости сгенерированных изображений с текстом. Данные показатели свидетельствуют об эффективности разработанного подхода в задачах визуальной генерации, требующих высокой точности и разборчивости текста.

Результаты оценки предложенной системы показали значительное улучшение качества генерируемых изображений, подтвержденное показателем CLIPScore, достигшим значения 0.8224. Этот показатель, оценивающий семантическое соответствие между изображением и текстовым описанием, превзошел результат базовой модели на 0.016 пункта. Достигнутое улучшение свидетельствует о более высокой способности системы генерировать изображения, точно соответствующие заданным текстовым запросам, что является ключевым фактором для широкого спектра приложений в области компьютерного зрения и генеративного искусства.

Результаты оценки предложенного подхода с использованием метрики HPSv3 достигли значения 10.64, что позволило установить новый стандарт производительности в области генерации изображений. Данный показатель свидетельствует о значительном прогрессе в создании визуально реалистичных и правдоподобных изображений, превосходящем существующие аналоги. Высокий результат HPSv3 указывает на способность системы генерировать изображения с высокой степенью детализации и согласованности, что особенно важно для сложных визуальных задач и приложений, требующих высокой точности и реализма.

Разработанный подход демонстрирует способность генерировать изображения с высокой степенью детализации и четкости, даже при создании протяженных последовательностей текста или сложных визуальных сцен. В отличие от существующих методов, которые часто сталкиваются с размытием или искажением при увеличении длины генерируемого контента, данная технология сохраняет ясность и читаемость на протяжении всей последовательности. Это достигается за счет оптимизации процесса генерации, позволяющей точно воспроизводить мельчайшие детали и обеспечивать визуальную когерентность даже в сложных композициях, открывая новые возможности для создания реалистичных и информативных изображений.

Дальнейшие исследования направлены на адаптацию разработанной структуры к решению более сложных задач визуальной генерации, выходящих за рамки текущего фокуса. Особое внимание будет уделено разработке новых, инновационных функций вознаграждения, способных стимулировать генерацию изображений с еще более высоким уровнем детализации, реалистичности и соответствия заданным требованиям. Предполагается, что эксперименты с различными архитектурами вознаграждения позволят преодолеть существующие ограничения и добиться значительного прогресса в области автоматизированного создания визуального контента, открывая новые возможности для приложений в различных сферах, от искусства и дизайна до образования и научных исследований.

Визуальные примеры из оценочного набора HPSv3 демонстрируют, что применение обучения с подкреплением (RL) позволяет улучшить качество изображений в каждой категории, как видно по сравнению исходных изображений (слева) с результатами после RL (справа).
Визуальные примеры из оценочного набора HPSv3 демонстрируют, что применение обучения с подкреплением (RL) позволяет улучшить качество изображений в каждой категории, как видно по сравнению исходных изображений (слева) с результатами после RL (справа).

В представленной работе наблюдается стремление к изысканности в решении сложных задач генерации изображений на основе текста. Авторы демонстрируют, что гармоничное сочетание обучения с подкреплением и визуальной авторегрессии требует тонкой настройки системы вознаграждений и оптимизации стратегий. Как однажды заметил Эндрю Ын: «Мы должны стремиться к созданию систем, которые не просто работают, но и элегантны в своей простоте». Именно к такой элегантности, к поиску оптимального баланса между функциональностью и эффективностью, стремится данное исследование, в частности, в контексте решения проблем асинхронных конфликтов стратегий, что позволяет достичь впечатляющих результатов и стабильности в генерации изображений.

Куда же дальше?

Представленная работа, несомненно, демонстрирует элегантность подхода к обучению генеративных моделей, но, как и любое решение, она лишь отодвигает некоторые проблемы, не решая их окончательно. Устойчивость, столь ценная в любой системе, все еще требует более глубокого понимания. Сложность формирования вознаграждения, даже с применением предложенных техник, остается камнем преткновения. Необходимо признать, что «правильное» вознаграждение — это не просто функция, максимизирующая метрики, а отражение тонкого баланса между технической эффективностью и эстетической гармонией.

Будущие исследования, вероятно, будут сосредоточены на преодолении ограничений, связанных с асинхронными конфликтами политик, а также на разработке более адаптивных и универсальных методов формирования вознаграждения. Интересно, как предложенный подход соотносится с другими направлениями, такими как диффузионные модели, и какие синергии могут возникнуть при их объединении. В конечном счете, истинный прогресс требует не просто улучшения существующих алгоритмов, а переосмысления самой концепции «обучения» и «творчества».

Необходимо помнить: простота — это не упущение, а признак глубокого понимания. Задача состоит не в том, чтобы создать максимально сложный алгоритм, а в том, чтобы найти элегантное решение, которое будет не только эффективным, но и понятным. И в этом, пожалуй, заключается истинная красота научного поиска.


Оригинал статьи: https://arxiv.org/pdf/2601.02256.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-07 00:42