Искусство настройки: как улучшить генерацию изображений с помощью Diffusion Transformers

Автор: Денис Аветисян

Новый метод Calibri позволяет тонко настраивать блоки Diffusion Transformers для повышения качества изображений и ускорения работы без необходимости полной переподготовки модели.

Калибр демонстрирует сравнимую производительность с Flow-GRPO на SD-3.5M, при этом требуя на 10510^{5} параметров меньше и предлагая возможность улучшения целевых метрик за счет интеграции с методами выравнивания.

Calibri — параметрически эффективный подход к калибровке Diffusion Transformers, использующий методы оптимизации и обратной связи для улучшения генерации изображений.

Несмотря на впечатляющие успехи диффузионных трансформаторов (DiT) в задачах генерации, их производительность часто ограничена необходимостью тонкой настройки большого числа параметров. В данной работе, посвященной ‘Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration’, предложен эффективный метод калибровки DiT, позволяющий значительно улучшить качество генерируемых изображений и сократить количество шагов инференса. Ключевым нововведением является оптимизация всего около ста параметров с использованием эволюционного алгоритма, рассматривающего калибровку DiT как задачу оптимизации вознаграждения. Способно ли подобное параметрически-эффективное решение открыть новые горизонты в области генеративных моделей и сделать их более доступными для широкого круга задач?

За пределами свёрток: Диффузионные Трансформеры на сцене

Традиционные свёрточные нейронные сети, несмотря на свою эффективность в обработке локальных признаков, испытывают значительные трудности при моделировании зависимостей между удалёнными участками изображения. Эта проблема особенно остро проявляется при генерации изображений высокого разрешения, где глобальный контекст имеет решающее значение для создания реалистичных и когерентных деталей. Свёрточные операции, по своей природе, ориентированы на локальные связи, требуя большого количества слоёв для захвата глобальных зависимостей, что приводит к вычислительной сложности и потенциальной потере информации. Неспособность эффективно моделировать эти долгосрочные связи ограничивает способность свёрточных сетей генерировать сложные текстуры, согласованные объекты и реалистичные сцены, что подталкивает исследователей к поиску альтернативных архитектур, способных эффективно обрабатывать глобальный контекст изображения.

Диффузионные Трансформеры (DiT) представляют собой перспективную альтернативу традиционным сверточным нейронным сетям в задачах генерации изображений высокого разрешения. В отличие от сверточных сетей, которые испытывают трудности с улавливанием зависимостей между отдаленными областями изображения, DiT используют механизмы внимания. Эти механизмы позволяют модели устанавливать связи между любыми двумя пикселями изображения, независимо от расстояния между ними. Это особенно важно для создания реалистичных изображений, где глобальный контекст и сложные взаимосвязи между объектами играют ключевую роль. Благодаря способности эффективно моделировать эти долгосрочные зависимости, DiT демонстрируют значительный прогресс в генерации высококачественных изображений, превосходя традиционные подходы в ряде задач.

Несмотря на перспективность Diffusion Transformers (DiT) в генерации изображений высокого разрешения, достижение оптимальной производительности требует тонкой настройки отдельных слоев и блоков. Исследования показывают, что эффективность DiT напрямую зависит от калибровки параметров каждого блока, включая выбор оптимального количества слоев и размеров внимания. Неправильная калибровка может привести к ухудшению качества генерируемых изображений, увеличению вычислительных затрат и снижению скорости обучения. Тщательная валидация и эксперименты с различными конфигурациями архитектуры, а также применение методов регуляризации и оптимизации, позволяют добиться значительного улучшения результатов и раскрыть полный потенциал DiT в задачах генерации изображений.

Эксперимент показал, что производительность DiT-блоков может быть значительно улучшена путем простого масштабирования выходных данных с помощью скалярного множителя, что указывает на их неполную оптимизацию.

Калибровка DiT: Эффективная настройка без переобучения

Calibri представляет собой параметрически-эффективный метод калибровки моделей DiT, позволяющий улучшить качество генерации без масштабного переобучения. В отличие от традиционных подходов, требующих оптимизации большого количества параметров, Calibri использует лишь около 102 параметров для калибровки. Это достигается за счет оптимизации коэффициентов масштабирования для каждого блока DiT, что позволяет эффективно регулировать вклад различных слоев в процесс генерации и повышать общую производительность модели при минимальных вычислительных затратах.

Calibri использует эволюционную стратегию ковариационного обучения адаптации (CMA-ES) для определения оптимальных коэффициентов масштабирования для каждого блока DiT. CMA-ES позволяет итеративно настраивать эти коэффициенты, максимизируя вклад каждого блока в финальный результат генерации изображения. В процессе оптимизации алгоритм оценивает влияние каждого коэффициента на качество сгенерированных данных и, основываясь на этой оценке, корректирует коэффициенты для улучшения производительности модели. Такой подход позволяет эффективно настраивать баланс между различными блоками DiT, усиливая вклад наиболее важных из них и подавляя менее значимые, что приводит к повышению качества генерируемых изображений без необходимости полной переподготовки модели.

Метод Calibri демонстрирует улучшение качества генерируемых изображений при одновременном снижении количества шагов инференса на 15%. Полученные результаты сопоставимы по качеству с моделями, требующими 30-50 шагов (Flux), 40 шагов (SD-3.5M) и 50 шагов (Qwen-Image). Это достигается за счет оптимизации калибровки DiT моделей с использованием минимального количества параметров, что позволяет получить изображения высокого качества при меньших вычислительных затратах и времени генерации.

Оптимизация баланса между слоями в архитектуре DiT позволяет добиться лучшего соответствия с предпочтениями пользователей и генерировать более привлекательные визуальные результаты. Достигается это путем тонкой настройки вклада каждого слоя в итоговое изображение, что позволяет акцентировать наиболее важные детали и характеристики, соответствующие ожиданиям пользователя. Такой подход, в отличие от полной переподготовки модели, позволяет добиться улучшения качества генерируемых изображений без значительных вычислительных затрат и сохраняя при этом целостность исходной модели.

Алгоритм CMA-ES оптимизирует калибровочные коэффициенты для масштабирования слоя FLUX.

Ансамбль Calibri: Синергия откалиброванных моделей

Ансамбль Calibri представляет собой систему, объединяющую несколько независимо откалиброванных моделей для создания более надежной и универсальной генеративной системы. Вместо использования одной модели, ансамбль использует коллективный вывод нескольких моделей, что позволяет снизить зависимость от особенностей любой конкретной модели и повысить стабильность генерации. Каждая модель в ансамбле обучается независимо, а затем их результаты комбинируются для получения итогового результата. Такой подход позволяет компенсировать недостатки отдельных моделей за счет сильных сторон других, повышая общую производительность и надежность системы генерации.

Ансамблевый подход в Calibri Ensemble предполагает объединение нескольких независимо откалиброванных моделей для достижения более высокой производительности и надежности генеративной системы. Каждая модель вносит свой вклад, используя свои сильные стороны для компенсации недостатков других. Это позволяет эффективно решать задачи, которые могут быть сложными или невыполнимыми для отдельной модели, и повышает устойчивость системы к различным входным данным и условиям. Такой подход особенно полезен в ситуациях, когда отдельные модели имеют разные специализации или обучались на различных наборах данных, что позволяет комбинировать их экспертизу для получения более качественных и разнообразных результатов.

Метод Skip Layer Guidance позволяет повысить качество генерации в ансамбле Calibri без дополнительного обучения моделей. Суть подхода заключается в использовании промежуточных результатов (активаций) из отдельных, предварительно откалиброванных моделей напрямую в процессе генерации, минуя некоторые слои основной модели. Это позволяет эффективно комбинировать сильные стороны различных моделей и компенсировать их недостатки, что приводит к улучшению метрик качества генерируемых данных без необходимости проведения ресурсоемкого процесса дообучения.

Анализ с использованием Stable Flow позволил выявить слои модели FLUX, наиболее выигрывающие от калибровки и интеграции в ансамбль. Данные показали, что оптимизация этих конкретных слоев оказывает наибольшее влияние на общую производительность генеративной системы. Стоимость калибровки FLUX составила 32 GPU-часа на базе H100, что позволяет оценить вычислительные затраты на оптимизацию отдельных компонентов ансамбля и планировать дальнейшие усилия по оптимизации с учетом этих ресурсов.

Сравнение производительности модели Calibri Ensemble с исходной моделью показывает улучшение результатов на нескольких шагах инференса.

Мультимодальность: Калибровка для MM-DiT и за её пределами

Принципы калибровки успешно применимы к мультимодальным диффузионным трансформерам (MM-DiT), открывая возможности для генерации изображений на основе комбинации текстовых и визуальных входных данных. Эта адаптация позволяет моделям эффективно объединять информацию из различных источников, создавая более согласованные и реалистичные результаты. В отличие от традиционных подходов, калибровка MM-DiT оптимизирует взаимодействие между модальностями, обеспечивая плавный переход между текстовым описанием и визуальным представлением. В результате, модель способна не просто воспроизводить заданные элементы, но и интерпретировать их в контексте общего запроса, генерируя изображения, которые соответствуют как тексту, так и визуальным ориентирам, что существенно расширяет творческий потенциал и точность работы системы.

Техника масштабирования вентилей (Gate Scaling) представляет собой специализированный метод калибровки, применяемый к мультимодальным моделям для оптимизации потока информации между различными модальностями, такими как текст и изображение. Этот подход позволяет более эффективно управлять взаимодействием между различными входными данными, обеспечивая более согласованную и реалистичную генерацию результатов. Суть метода заключается в тонкой настройке параметров, управляющих «вентилями», которые регулируют вклад каждой модальности в итоговый результат. Благодаря этому, модель способна лучше интегрировать информацию из разных источников, избегая доминирования одной модальности над другой и создавая более сбалансированные и качественные мультимодальные выходные данные.

Тонкая настройка управляющих вентилей в мультимодальных диффузионных трансформаторах позволяет добиться более связных и реалистичных результатов генерации изображений. Этот процесс оптимизирует поток информации между различными модальностями — например, текстом и визуальными данными — обеспечивая, чтобы сгенерированное изображение точно отражало комбинированный входной запрос. Управляя силой влияния каждого входного сигнала, модель способна более эффективно интегрировать информацию и создавать изображения, которые не только соответствуют заданным параметрам, но и визуально более правдоподобны и согласованы с исходными данными. В результате, достигается более высокая степень соответствия между входным запросом и полученным изображением, что существенно улучшает качество и полезность мультимодальной генерации.

Исследования показывают, что современные модели генерации изображений, такие как FLUX и Stable Diffusion 3, использующие архитектуру DiT и метод потокового сопоставления (flow matching), демонстрируют значительное улучшение качества работы при применении техник калибровки. В частности, калибровка позволяет поддерживать высокий уровень разнообразия генерируемых изображений — около 0.20 — в то время как альтернативные подходы, такие как Flow-GRPO, приводят к его снижению до 0.15. Это свидетельствует о том, что калибровка играет важную роль в обеспечении не только реалистичности, но и широкого спектра возможных результатов при генерации изображений по комбинированным текстовым и визуальным запросам.

Количественный анализ показывает, что калибровка внутренних слоев модели Flux с разной степенью детализации позволяет оптимизировать её производительность.

Будущее генеративных моделей: Согласование с человеческими предпочтениями

Прямая оптимизация предпочтений (DPO) и моделирование вознаграждений представляют собой мощный подход к согласованию генеративных моделей с человеческими предпочтениями. Вместо традиционного обучения с подкреплением, требующего сложного этапа оценки и формирования функции вознаграждения, DPO непосредственно оптимизирует политику модели, используя пары предпочтений, предоставленные человеком. По сути, модель обучается различать желаемые и нежелательные результаты, напрямую максимизируя вероятность выбора предпочтительного варианта. Этот метод значительно упрощает процесс обучения, повышает стабильность и позволяет создавать генеративные системы, которые более точно соответствуют субъективным критериям качества и эстетики, задаваемым пользователем. Такой подход особенно ценен в задачах, где сложно формализовать желаемый результат в виде четкой функции вознаграждения, например, при создании творческого контента или диалоговых системах.

Сочетание методов оптимизации прямых предпочтений и моделирования вознаграждений с калибровочными подходами, такими как Calibri, позволяет создать замкнутый цикл обучения для генеративных моделей. В рамках этого процесса, модель непрерывно адаптируется на основе обратной связи от пользователей. Калибровка обеспечивает более точную оценку предпочтений, позволяя модели не только максимизировать вознаграждение, но и понимать нюансы человеческих оценок. Благодаря этому, генеративные модели способны улучшать качество выдаваемого контента, всё лучше удовлетворяя потребности и ожидания пользователей, и, в конечном итоге, демонстрируя более высокий уровень соответствия человеческим ценностям и эстетическим предпочтениям.

Метод Flow-GRPO представляет собой усовершенствованную технику обучения генеративных моделей, основанную на максимизации вознаграждения в процессе тренировки. В отличие от традиционных подходов, где модель обучается на заранее определенных данных, Flow-GRPO динамически адаптируется к предпочтениям пользователя, постоянно оптимизируя свои параметры для достижения наивысшей оценки. Данный процесс позволяет модели не просто генерировать контент, соответствующий заданным критериям, но и активно стремиться к наиболее предпочтительному результату с точки зрения обратной связи от пользователя. Благодаря этому, Flow-GRPO обеспечивает более тонкую настройку и значительно повышает качество генерируемого контента, приближая его к идеальному соответствию ожиданиям.

Сочетание методов прямой оптимизации предпочтений, моделирования вознаграждений и калибровки открывает принципиально новые возможности для генеративных моделей. Такой синергетический подход позволяет не просто создавать контент, соответствующий заданным параметрам, но и формировать системы, способные действительно понимать и учитывать человеческие потребности. В результате, генеративные модели перестают быть лишь инструментами для автоматизированного производства, превращаясь в интеллектуальных помощников, адаптирующихся к индивидуальным предпочтениям и предоставляющих персонализированные решения. Перспективы применения таких систем охватывают широкий спектр областей — от создания контента и разработки программного обеспечения до научных исследований и образовательных технологий, что свидетельствует о значительном потенциале для дальнейшего развития и внедрения.

Сравнение алгоритмов CMA-ES и Flow-GRPO показывает, что Flow-GRPO обеспечивает более эффективную оптимизацию калибровочных коэффициентов.

Наблюдатель отмечает, что стремление к совершенству в генеративных моделях неизменно сталкивается с суровой реальностью продакшена. Как и предрекали, даже самые элегантные архитектуры, вроде Diffusion Transformers, нуждаются в постоянной калибровке. Предложенный в статье метод Calibri — попытка обуздать этот процесс, оптимизируя существующие блоки вместо полной переподготовки. Это, конечно, лишь отсрочка неизбежного — всё, что можно задеплоить, однажды упадёт. Но в данном случае, падение может быть более грациозным, а изображения — более качественными. Как заметила Фэй-Фэй Ли: «Искусственный интеллект — это не замена человеческому интеллекту, а его усиление». И в данном контексте, Calibri — это как раз инструмент для такого усиления, позволяющий выжать максимум из существующих моделей.

Что дальше?

Предложенный метод, безусловно, уменьшает количество параметров, требующих переобучения, что всегда приятно. Но не стоит забывать, что каждая «оптимизация» — это лишь отложенный технический долг. В лучшем случае, через полгода обнаружится, что «эффективная» калибровка на самом деле просто маскирует более фундаментальные проблемы в архитектуре Diffusion Transformers. Сейчас это назовут AI и получат инвестиции, но в итоге всё равно придётся переписывать большую часть кода, когда кто-нибудь поймёт, что все эти «эффективные» методы просто замедляют сходимость. Документация, как обычно, соврёт, и придётся разбираться наощупь.

Интересно, что в погоне за скоростью и уменьшением вычислительных затрат, часто упускается из виду качество генерируемых изображений. Возможно, истинный прогресс заключается не в ухищрениях с параметрами, а в разработке принципиально новых подходов к обучению генеративных моделей. Впрочем, это потребует реальных исследований, а не просто «тюнинга» существующих решений. Начинаю подозревать, что все эти «эволюционные стратегии» — это просто модные слова, призванные замаскировать отсутствие понимания.

В конечном итоге, сложная система, которую все восхваляют за «эффективность», когда-то была простым bash-скриптом. И рано или поздно, кто-нибудь вспомнит об этом, и придётся возвращаться к истокам, чтобы разобраться в хаосе. Возможно, в будущем, вместо того, чтобы калибровать Diffusion Transformers, мы будем просто писать более понятный и поддерживаемый код. Но это, вероятно, уже слишком утопично.

Оригинал статьи: https://arxiv.org/pdf/2603.24800.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-27 16:59

🚀 Квантовые новости