Видео по заказу: Новый подход к генерации видеороликов

Автор: Денис Аветисян


Исследователи представили DreaMontage — систему, способную создавать длинные видеоролики из произвольных промежуточных изображений или видео, открывая новые возможности для редактирования и синтеза видеоконтента.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Модель DreaMontage позволяет создавать длинные видеоролики по одному запросу, управляемые произвольными ключевыми кадрами или видеоклипами, точно привязанными ко временным меткам.
Модель DreaMontage позволяет создавать длинные видеоролики по одному запросу, управляемые произвольными ключевыми кадрами или видеоклипами, точно привязанными ко временным меткам.

DreaMontage использует инновационную архитектуру на основе Diffusion Transformer и сегментной авторегрессии для генерации видео, управляемой произвольными кадрами.

Техника «одного кадра», столь ценимая в кинематографе, зачастую затруднена высокими затратами и сложностью реализации. В данной работе представлена система DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation, предназначенная для генерации плавных, выразительных и продолжительных видеороликов на основе произвольных ключевых кадров. Предложенный фреймворк сочетает в себе усовершенствованную архитектуру DiT, высококачественный обучающий набор данных и инновационные стратегии обучения, позволяющие создавать кинематографичные эффекты с высокой вычислительной эффективностью. Сможет ли DreaMontage открыть новую эру в создании видеоконтента, делая профессиональные приемы доступными для широкой аудитории?


Вызов долгой видеогенерации: проблема согласованности

Существующие методы генерации видео, в особенности те, что основываются на задании начального и конечного кадров, сталкиваются с серьезными трудностями при обеспечении временной согласованности в длинных видеороликах. Вместо плавного и логичного развития событий, такие системы зачастую демонстрируют “скачки” в повествовании, внезапные изменения в объектах или их свойствах, и общую фрагментацию визуального потока. Причина кроется в сложности моделирования долгосрочных зависимостей между кадрами — системам трудно “помнить” предыдущие состояния сцены и поддерживать их непрерывность на протяжении длительного времени. В результате, генерируемые видеоролики, несмотря на визуальную привлекательность отдельных кадров, могут казаться непоследовательными и лишенными естественного течения времени, что значительно снижает общее качество и реалистичность получаемого контента.

Создание связных, продолжительных видеороликов требует не просто установки ключевых кадров в начале и конце, но и тонкого контроля над промежуточными этапами. Исследования показывают, что простая интерполяция между начальной и конечной точками часто приводит к нереалистичным движениям и визуальным артефактам. Для достижения последовательности и правдоподобия необходимо моделировать динамику сцены на протяжении всего видео, учитывать физические законы и взаимодействие объектов. Разработка алгоритмов, способных учитывать эти нюансы и генерировать плавные переходы между кадрами, является ключевой задачей в области искусственного интеллекта и компьютерной графики, открывающей возможности для создания реалистичных и захватывающих видеоматериалов большой продолжительности.

Современные методы генерации видео, сталкиваясь с задачей создания продолжительных роликов, часто демонстрируют появление артефактов и неспособность достоверно воспроизводить сложные, динамичные сцены на протяжении всей длительности видео. Эта проблема обусловлена тем, что существующие алгоритмы, как правило, фокусируются на генерации начального и конечного кадров, не обеспечивая достаточного контроля над промежуточными этапами. В результате, даже при кажущейся плавности перехода, наблюдаются визуальные искажения, нереалистичные движения объектов или потеря детализации, особенно в сценах с быстрым действием или сложной геометрией. Таким образом, создание продолжительных, визуально когерентных видеороликов остается сложной задачей, требующей разработки новых подходов к управлению временной последовательностью и обеспечению стабильности генерируемого контента.

Стратегия Interm-Cond Adaptation решает проблему неточности условий, возникающую из-за временного понижения дискретизации в Causality VAE, путем выравнивания распределений обучения и инференса посредством перекодирования отдельных кадров и пересемплирования последующих кадров из латентного пространства.
Стратегия Interm-Cond Adaptation решает проблему неточности условий, возникающую из-за временного понижения дискретизации в Causality VAE, путем выравнивания распределений обучения и инференса посредством перекодирования отдельных кадров и пересемплирования последующих кадров из латентного пространства.

DreaMontage: произвольный контроль и согласованность сцен

DreaMontage представляет собой новую систему генерации видео, способную создавать видеоролики за один проход (one-shot generation). В отличие от существующих методов, DreaMontage обеспечивает возможность управления генерацией видео посредством произвольных входных кадров. Это позволяет пользователям задавать конкретные визуальные элементы или сцены, которые должны быть включены в генерируемое видео, что значительно расширяет творческие возможности и позволяет получать более точные и контролируемые результаты по сравнению с системами, полагающимися исключительно на текстовые запросы или случайную генерацию.

В основе DreaMontage лежит 3D Video Variational Autoencoder (VideoVAE), представляющий собой нейронную сеть, предназначенную для сжатия видеоданных в компактное латентное пространство. Этот процесс кодирования позволяет снизить вычислительную сложность последующей генерации видео, поскольку операции выполняются не с исходными пикселями, а с существенно меньшим объемом данных в латентном пространстве. VideoVAE обучается реконструировать видео из сжатого представления, что обеспечивает сохранение ключевой визуальной информации и позволяет эффективно генерировать новые видеофрагменты, манипулируя данными в латентном пространстве. Использование трехмерной архитектуры позволяет учитывать временную последовательность кадров, улучшая когерентность генерируемого видео.

В основе DreaMontage лежит интеграция текстового энкодера, позволяющего использовать текстовые запросы в качестве дополнительного управляющего сигнала при генерации видео. Это дополняет возможность управления генерацией на основе произвольных входных кадров. Текстовый энкодер преобразует текстовое описание в векторное представление, которое затем объединяется с латентным представлением видео, полученным из VideoVAE. Такой подход обеспечивает гибкое управление процессом генерации, позволяя пользователю комбинировать визуальные ориентиры (входные кадры) и текстовые инструкции для получения желаемого видеоконтента. Использование текстовых подсказок расширяет возможности контроля над сценой, позволяя задавать атрибуты, действия и стиль генерируемого видео.

DreaMontage использует многоэтапный процесс обучения, включающий адаптивную настройку, SFT с визуальным выражением и Tailored DPO, для генерации длинных видео посредством авторегрессии, управляемой опорными изображениями/видео и перефразированными запросами.
DreaMontage использует многоэтапный процесс обучения, включающий адаптивную настройку, SFT с визуальным выражением и Tailored DPO, для генерации длинных видео посредством авторегрессии, управляемой опорными изображениями/видео и перефразированными запросами.

Адаптивная настройка: построение произвольного контроля над кадрами

Для обеспечения возможности условной генерации на основе произвольных кадров, DreaMontage проходит этап адаптивной настройки (Adaptive Tuning). Этот процесс направлен на совершенствование способности модели реагировать на входные кадры, независимо от их временной позиции в видеопоследовательности. Адаптивная настройка позволяет DreaMontage учитывать информацию из любого кадра, что необходимо для создания согласованного и визуально правдоподобного контента при произвольном выборе ключевых кадров или промежуточных состояний. Оптимизация проводится путем тонкой настройки параметров генератора, чтобы максимизировать соответствие генерируемых кадров входным данным, независимо от временного смещения.

Процесс адаптивной настройки DreaMontage усиливается за счет использования признаков CLIP (Contrastive Language-Image Pre-training) для фильтрации данных и обнаружения сцен. Признаки CLIP, полученные из анализа изображений и текстовых описаний, позволяют идентифицировать и отфильтровывать кадры, не соответствующие желаемой визуальной эстетике или тематике. Это обеспечивает более точное соответствие генерируемого контента заданным параметрам и стилю, повышая согласованность и качество итогового видеоряда. В частности, CLIP используется для оценки семантического соответствия кадров, что позволяет исключить кадры с нежелательными объектами или сценами.

В процессе обучения DreaMontage промежуточное кондиционирование играет ключевую роль, позволяя генератору обучаться на основе и точно воспроизводить промежуточные кадры в качестве управляющих сигналов. Этот метод предполагает использование промежуточных кадров, сгенерированных или полученных из обучающих данных, для направления процесса генерации. Подача промежуточных кадров в качестве входных данных позволяет генератору лучше понимать временную согласованность и динамику сцены, что приводит к более реалистичным и когерентным результатам. Эффективность промежуточного кондиционирования заключается в предоставлении генератору более детальной информации о желаемом конечном результате на каждом шаге процесса, что повышает точность и качество генерируемых кадров.

Для устранения артефактов генерации, разработан метод Tailored DPO, использующий два конвейера: автоматический, с привлечением VLM-дискриминатора для устранения резких переходов, и ручной, с аннотированием сложных случаев для обеспечения физической правдоподобности движений, что позволяет оптимизировать политику <span class="katex-eq" data-katex-display="false">\pi_{\theta}</span> относительно референсной модели <span class="katex-eq" data-katex-display="false">\pi_{\text{ref}}</span>.
Для устранения артефактов генерации, разработан метод Tailored DPO, использующий два конвейера: автоматический, с привлечением VLM-дискриминатора для устранения резких переходов, и ручной, с аннотированием сложных случаев для обеспечения физической правдоподобности движений, что позволяет оптимизировать политику \pi_{\theta} относительно референсной модели \pi_{\text{ref}}.

Повышение точности: Shared-RoPE и не только

Внедрение Shared-RoPE в систему позволило значительно снизить количество артефактов и повысить общее качество генерируемых последовательностей, особенно в процессе промежуточного обуславливания. Этот подход к кодированию позиционной информации оказался эффективным для поддержания согласованности и реалистичности видео, демонстрируя улучшение на 53.55

Архитектура системы значительно расширяет возможности управления повествованием и визуальной сложностью генерируемого видео благодаря поддержке многоключевых кадров. Данный подход позволяет более точно задавать желаемый стиль и содержание, что подтверждается заметным улучшением показателей GSB — на 15.79

Разработка DreaMontage открывает новые горизонты в сфере создания контента и виртуальной реальности. Внедрение метода Visual Expression SFT позволило добиться повышения оценки GSB на 20.34

Стратегия Shared-RoPE позволяет модели суперразрешения устранять артефакты за счет последовательного кондиционирования, при котором кадры условия дополняются к последовательности и разделяют значения RoPE с целевыми кадрами, к которым они применяются (например, <span class="katex-eq" data-katex-display="false">C_{i}</span> разделяет RoPE с <span class="katex-eq" data-katex-display="false">t_{1}</span>), причём для видео-кондиционирования это применяется только к первому кадру.
Стратегия Shared-RoPE позволяет модели суперразрешения устранять артефакты за счет последовательного кондиционирования, при котором кадры условия дополняются к последовательности и разделяют значения RoPE с целевыми кадрами, к которым они применяются (например, C_{i} разделяет RoPE с t_{1}), причём для видео-кондиционирования это применяется только к первому кадру.

Исследование представляет собой элегантное решение задачи генерации видео, опирающееся на принципы математической точности. DreaMontage, предложенная авторами, демонстрирует способность к последовательному и логически завершённому построению длинных видеофрагментов на основе произвольных промежуточных кадров. Это особенно важно, поскольку существующие методы часто сталкиваются с трудностями при обеспечении согласованности на протяжении всего видео. Как заметил Джеффри Хинтон: «Иногда лучший способ улучшить алгоритм — это упростить его». DreaMontage, сочетая архитектурные инновации, такие как Diffusion Transformer (DiT), и прогрессивный процесс обучения, подтверждает эту мысль, предлагая эффективный и доказуемый подход к генерации видео, избегая излишней сложности и фокусируясь на фундаментальных принципах согласованности и логики.

Куда же это всё ведёт?

Представленная работа, безусловно, демонстрирует элегантность подхода к генерации видео, однако, истинная проверка любого алгоритма — не в демонстрации успеха, а в выявлении границ его применимости. Возможность управления генерацией через произвольные промежуточные кадры — шаг вперёд, но вопрос о стабильности и предсказуемости результатов при существенном отклонении от тренировочных данных остаётся открытым. Эффективность метода напрямую зависит от качества промежуточных кадров; в реальных приложениях, где эти кадры могут быть получены из неидеальных источников, потребуется дополнительная работа по повышению робастности.

В дальнейшем, представляется логичным исследование возможности интеграции представленного подхода с моделями, способными к самообучению и генерации промежуточных кадров, тем самым создавая полностью автономную систему генерации видео. Особый интерес вызывает вопрос о масштабируемости — увеличение длительности генерируемых видео неизбежно влечёт за собой кумулятивные ошибки. Поиск архитектур, способных поддерживать когерентность на больших временных интервалах, представляется ключевой задачей. Истинная красота алгоритма проявится лишь в его способности справляться со сложностью, а не избегать её.

Наконец, следует помнить, что генерация видео — лишь инструмент. Настоящий прогресс заключается не в создании всё более реалистичных симуляций, а в понимании того, как эти симуляции могут быть использованы для решения реальных проблем. Эффективность алгоритма должна оцениваться не по его способности обмануть глаз, а по его способности расширить возможности человеческого разума.


Оригинал статьи: https://arxiv.org/pdf/2512.21252.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-26 00:50