Бесконечная История: Создание Долгоиграющих Видео с Реалистичным Миром

Автор: Денис Аветисян


Новая разработка позволяет генерировать часовые видеоролики с сохранением визуальной связности и плавными переходами между кадрами, словно созданные профессиональным режиссером.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Предлагаемый конвейер генерации видео по сюжету использует последовательную структуру: ключевые кадры, создаваемые на основе нарратива, преобразуются в видеофрагменты с помощью модели
Предлагаемый конвейер генерации видео по сюжету использует последовательную структуру: ключевые кадры, создаваемые на основе нарратива, преобразуются в видеофрагменты с помощью модели «изображение в видео» (I2V), а плавные переходы между этими фрагментами обеспечиваются алгоритмом «первый-последний кадр в видео» (FLF2V), использующим следующий ключевой кадр и последний кадр предыдущего фрагмента, что позволяет создать связное и последовательное видео.

Представлен фреймворк InfinityStory, использующий многоагентное планирование и новую модель переходов для создания долгоиграющих видео с согласованным миром и персонажами.

Создание длинных видеороликов с последовательным визуальным повествованием остается сложной задачей в области синтеза видео. В данной работе представлена система ‘InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions’, предлагающая новый подход к генерации часовых видео с сохранением визуальной согласованности и плавными переходами между кадрами. Ключевым достижением является разработка конвейера генерации, обеспечивающего устойчивость фона и идентичность персонажей, а также модели, способной создавать плавные переходы в сложных динамических сценах с участием нескольких объектов. Открывает ли это путь к созданию полностью автоматизированного конвейера для кинематографического повествования?


Вызов кинематографического масштаба: Искусство связного повествования

Создание убедительных многокадровых видеороликов по-прежнему представляет собой сложную задачу для искусственного интеллекта, требующую не только технической реализации, но и последовательного повествования и визуальной связности. Для достижения реалистичного результата необходимо, чтобы ИИ мог не просто генерировать отдельные кадры, но и выстраивать между ними логическую связь, формируя единую историю с узнаваемыми персонажами и постоянным окружением. Сохранение визуальной консистентности — поддержание неизменности внешнего вида объектов и фона на протяжении всего видео — является ключевым аспектом, требующим от алгоритмов способности к долгосрочному планированию и запоминанию. Неспособность обеспечить эту связность приводит к фрагментарным и неестественным результатам, снижая общее восприятие и реалистичность сгенерированного контента.

Существующие методы искусственного интеллекта, предназначенные для генерации продолжительных видеопоследовательностей, часто сталкиваются с серьезными трудностями в поддержании целостности визуального повествования. Особое препятствие представляет сохранение узнаваемости персонажей на протяжении всего ролика — незначительные изменения во внешности или пропорциях могут привести к ощущению неестественности и разрыва связности. Не менее проблематична и стабильность фоновых элементов: несоответствия в освещении, текстурах или даже общей геометрии заднего плана создают визуальный диссонанс, нарушая погружение зрителя. В результате, даже при наличии правдоподобной анимации и логичной сюжетной линии, сгенерированные видео часто характеризуются заметными «скачками» и визуальными артефактами, что существенно снижает их качество и реалистичность.

Планирование ключевых кадров осуществляется на основе сценариев основных событий.
Планирование ключевых кадров осуществляется на основе сценариев основных событий.

InfinityStory: Агентный подход к созданию историй

InfinityStory использует агентивную многоагентную систему для иерархического планирования видеоконтента. Процесс создания видео разбивается на уровни: главы, сцены и отдельные кадры. Каждый уровень планируется отдельным агентом, что позволяет системе эффективно управлять сложностью видеопроизводства. Иерархическая структура обеспечивает согласованность повествования и визуальную связность, поскольку решения, принятые на верхних уровнях (например, планирование глав), влияют на планирование более низких уровней (сцен и кадров). Такой подход позволяет автоматически генерировать сложные видеосюжеты, поддерживая при этом контроль над ключевыми аспектами повествования и визуального стиля.

Для обеспечения нарративной связности и визуальной консистентности генерируемого видео в InfinityStory используется совместная работа специализированных агентов. Агент главы (Chapter Agent) отвечает за высокоуровневое планирование повествования и определение основных сюжетных точек. Агент сцены (Scene Agent) детализирует каждую главу, разбивая её на отдельные сцены и определяя необходимые события и взаимодействия. Агент кадра (Shot Agent) отвечает за генерацию конкретных кадров внутри каждой сцены, обеспечивая соответствие визуального стиля и преемственность между кадрами, а также координируя работу с агентом локаций для поддержания единого визуального окружения.

Специализированный агент Локаций отвечает за создание и поддержание переиспользуемой библиотеки фонов, что является критически важным для обеспечения визуальной согласованности между отдельными кадрами видео. Эта библиотека содержит детальные описания и визуальные представления различных мест действия, позволяя агентам, отвечающим за сцены и кадры, последовательно выбирать и применять одни и те же фоны. Это обеспечивает преемственность повествования и предотвращает визуальные несоответствия, которые могли бы возникнуть при случайном выборе или генерации фонов для каждого кадра. Эффективное управление библиотекой локаций позволяет значительно снизить вычислительные затраты и повысить качество генерируемого видеоконтента.

Агентное планирование сюжета позволяет структурировать историю в виде последовательных глав.
Агентное планирование сюжета позволяет структурировать историю в виде последовательных глав.

Кинематографический синтез переходов с множеством объектов: Плавность и контроль

Представляется Кинематографический синтез переходов с множеством субъектов (CMTS) — новый подход к генерации плавных переходов, ориентированный на явную обработку входа, выхода и замены персонажей. В отличие от существующих методов, CMTS обеспечивает контролируемое изменение состава сцены, что критически важно для поддержания визуальной согласованности и избежания артефактов, возникающих при неконтролируемых изменениях числа объектов в кадре. Данный подход позволяет создавать переходы, в которых появление и исчезновение персонажей происходит естественно и логично, что повышает общее качество генерируемых видеоматериалов.

В рамках подхода Cinematic Multi-Subject Transition Synthesis (CMTS) используется фильтрация на основе визуальных языковых моделей (VLM Filtering) для обеспечения корректного количества персонажей в сгенерированных переходах. Этот механизм критически важен для предотвращения визуальных аномалий, таких как внезапное появление или исчезновение объектов, или несоответствие между количеством людей в последовательных кадрах. VLM Filtering анализирует видеопоследовательность и, основываясь на данных о персонажах, полученных из визуальной и языковой информации, корректирует процесс генерации кадров, гарантируя, что количество и идентичность персонажей остаются согласованными на протяжении всего перехода.

Обучение и оценка предложенного подхода осуществляется на основе специально разработанного набора данных — Multi-Subject Transition Dataset. Этот набор данных содержит видеопоследовательности, акцентирующие внимание на сложных переходах с участием нескольких объектов или персонажей. Он включает в себя сценарии с входом, выходом и заменой субъектов в кадре, что позволяет эффективно обучать и тестировать модели на корректную обработку динамически меняющегося числа объектов и поддержание визуальной согласованности при переходах. Набор данных тщательно аннотирован и структурирован для обеспечения надежной оценки качества генерируемых переходов и выявления потенциальных артефактов, возникающих при работе с несколькими субъектами.

В рамках системы используется комбинация двух моделей: `I2V Model` и `FLF2V Model` для генерации визуально согласованных кадров и переходов. Модель `I2V` (Image-to-Video) отвечает за создание видеопоследовательностей на основе отдельных изображений, обеспечивая начальную визуальную основу. В свою очередь, `FLF2V Model` (Frame Latent Fusion to Video) выполняет слияние латентных представлений кадров, что позволяет достичь более плавных и когерентных переходов между сценами и поддерживать визуальную непрерывность в динамичных последовательностях с участием нескольких объектов. Совместное использование этих моделей позволяет эффективно решать задачу генерации реалистичных и связных видеороликов.

Разработанная система создает обширный набор данных для обучения модели First-Last-Frame-to-Video (FLF2V) путем генерации видео-переходов с использованием четырех агентов, фильтрации некачественных видео с помощью VLM и комбинирования полученных подсказок с исходным и конечным кадрами видео.
Разработанная система создает обширный набор данных для обучения модели First-Last-Frame-to-Video (FLF2V) путем генерации видео-переходов с использованием четырех агентов, фильтрации некачественных видео с помощью VLM и комбинирования полученных подсказок с исходным и конечным кадрами видео.

Согласованная визуализация и количественные результаты: Подтверждение эффективности

Система InfinityStory демонстрирует заметный прогресс в поддержании визуальной связности генерируемых видеороликов. Исследования показали значительное улучшение как консистентности фона (достигая показателя 88.94), так и консистентности объектов (82.11). Это означает, что создаваемые видео отличаются более реалистичным и плавным изображением, где элементы окружения и сами объекты сохраняют свою идентичность и не подвержены внезапным изменениям или искажениям на протяжении всего ролика. Достижение стабильности в этих аспектах является ключевым фактором для повышения воспринимаемого качества и правдоподобия сгенерированного контента.

Система InfinityStory демонстрирует впечатляющие результаты в оценке качества генерируемых видео, что подтверждается использованием метрики VBench. Средний рейтинг, полученный системой, составил 2.80, что позволило ей занять первое место среди всех сравниваемых базовых моделей и установить новый стандарт в данной области. Такой показатель свидетельствует о значительном улучшении реалистичности и визуальной привлекательности создаваемых видеороликов, а также подтверждает эффективность предложенного подхода к генерации видеоконтента. Результаты, полученные с помощью VBench, позволяют объективно оценить качество видео и подтверждают превосходство InfinityStory над существующими аналогами.

Система InfinityStory предоставляет уникальный инструмент для количественной оценки динамичности видео, используя алгоритм RAFT Optical Flow. Этот подход позволяет измерять степень изменения визуальных элементов во времени, выявляя ритм и энергетику видеоряда. Получаемый показатель, названный “Степенью Динамичности”, отражает интенсивность движения и трансформации в кадре, предоставляя объективную метрику для сравнения различных видео. Анализ динамичности открывает возможности для более глубокого понимания визуального воздействия контента и может быть использован для оптимизации видеопроизводства и создания более привлекательных и захватывающих визуальных историй.

Для обеспечения согласованности фона используется подсказка, зависящая от местоположения.
Для обеспечения согласованности фона используется подсказка, зависящая от местоположения.

Работа, представленная в данной статье, демонстрирует стремление к элегантности в создании продолжительных видео, где каждый кадр — часть гармоничной симфонии. InfinityStory, используя многоагентное планирование и инновационную модель переходов, стремится к визуальной последовательности и плавности повествования. Как однажды заметил Ян Лекун: «Машинное обучение — это искусство переводить сложные данные в понятные образы». В данном случае, сложность долгосрочной генерации видео успешно преобразуется в связный и увлекательный визуальный опыт, где стабильный фон и плавные переходы между кадрами подчеркивают глубокое понимание принципов кинематографического повествования. Это не просто техническое достижение, а свидетельство того, что истинная красота кода проявляется через простоту и ясность реализации.

Куда Ведет Бесконечность?

Представленная работа, несомненно, приближает нас к созданию продолжительных визуальных повествований, но иллюзия совершенства всегда хрупка. Стабильность фона и связность персонажей — это, конечно, прогресс, однако истинная красота заключается в нюансах, в случайных отклонениях от идеала. Сохранение согласованности на протяжении часа — задача сложная, но куда более трудным представляется овладение искусством не быть согласованным, когда этого требует сюжет. Следующим шагом видится не увеличение продолжительности, а углубление понимания того, как контролируемо вносить дефекты, чтобы создать правдоподобность.

Возникает вопрос о масштабируемости. Увеличение числа агентов и сложности сцен неизбежно приведет к экспоненциальному росту вычислительных затрат. Элегантность — не опция, а признак глубокого понимания, и будущее за алгоритмами, способными достичь впечатляющих результатов с минимальными ресурсами. Рефакторинг, а не перестройка — вот путь к созданию действительно устойчивых систем. Необходимо переосмыслить архитектуру, отказавшись от избыточности и сосредоточившись на фундаментальных принципах повествования.

И, наконец, самое главное — это вопрос смысла. Бесконечные видео — это захватывающе, но что они рассказывают? Технология — лишь инструмент, а истинное искусство заключается в умении использовать его для передачи эмоций и идей. Необходимо отойти от простого воспроизведения визуальных шаблонов и сосредоточиться на создании историй, которые заставляют задуматься, удивляться и сопереживать. Красота масштабируется, беспорядок — нет.


Оригинал статьи: https://arxiv.org/pdf/2603.03646.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-05 12:59