Автор: Денис Аветисян
Новая разработка позволяет генерировать правдоподобные видеоролики с участием людей, сохраняя узнаваемость и естественность движений.

Представлен масштабный набор данных Actor-18M и фреймворк WildActor, использующий асимметричное внимание и адаптивную выборку для создания устойчивых и последовательных видео с участием человека.
Воспроизведение реалистичных видео с участием людей требует сохранения строгой идентичности объекта при изменении ракурса и динамики, что остается сложной задачей для существующих методов. В работе ‘WildActor: Unconstrained Identity-Preserving Video Generation’ представлен масштабный набор данных Actor-18M, включающий 1.6 миллиона видео и 18 миллионов изображений людей, а также фреймворк WildActor, использующий асимметричный механизм внимания и адаптивную выборку для обеспечения устойчивой генерации видео с сохранением идентичности с любого ракурса. Предложенный подход демонстрирует превосходство над существующими методами в сложных условиях, обеспечивая согласованность тела и лица при значительных изменениях ракурса и движениях. Сможем ли мы в будущем создавать полностью синтетические видео с человеческими актерами, неотличимые от реальных?
Идентификационный тупик в генерации видео: проблема, которую никто не хочет решать
Современные генеративные модели, такие как Diffusion Transformers, демонстрируют впечатляющую реалистичность при создании видеоматериалов, однако сохранение последовательной идентичности объекта на протяжении всей последовательности представляет собой серьезную проблему. Несмотря на способность воспроизводить детализированные текстуры и освещение, эти модели часто сталкиваются с трудностями при поддержании узнаваемости лица или формы объекта при изменении угла обзора или позы. Данный недостаток критически важен для широкого спектра приложений, включая создание реалистичных цифровых двойников, персонализированный видеоконтент и виртуальную реальность, где последовательное представление личности или объекта является ключевым фактором для погружения и достоверности. Неспособность обеспечить постоянство идентичности приводит к визуальным артефактам и неестественным трансформациям, снижая общее качество и правдоподобность сгенерированного видео.
Несоответствия в сгенерированных видео возникают из-за сложности отделения информации о содержании сцены от информации, определяющей личность или объект на ней, в так называемом латентном пространстве модели. В процессе генерации, когда модель пытается воссоздать видео, эти два типа информации переплетаются, что приводит к визуальным артефактам — искажениям черт лица, неестественным изменениям формы или цвета. По сути, модель не способна четко выделить «кто» или «что» изображено на видео и как это «кто» или «что» должно выглядеть последовательно во времени, что и проявляется в виде нереалистичных трансформаций и потери идентичности персонажа или объекта на протяжении всего видеоряда.
Существующие методы генерации видео часто демонстрируют ограниченную применимость из-за зависимости от фиксированных ракурсов и сложностей с воспроизведением поз, не представленных в обучающей выборке. Это означает, что создаваемые видео могут реалистично выглядеть только при определенных углах обзора или в знакомых положениях тела, что существенно ограничивает их использование в практических приложениях, таких как создание виртуальных аватаров или реалистичная анимация. Неспособность к обобщению на новые ракурсы и позы приводит к визуальным артефактам и неестественным трансформациям, снижая общее качество и правдоподобность генерируемого контента. Таким образом, сохранение идентичности объекта при изменении ракурса и позы остается серьезной проблемой, требующей разработки более гибких и адаптивных алгоритмов.
Для преодоления проблемы сохранения идентичности в генерируемых видео, требуется разработка принципиально новых подходов к разделению и сохранению информации об облике на протяжении всего процесса генерации. Исследователи сосредотачиваются на создании таких латентных пространств, где характеристики объекта, определяющие его уникальность, чётко отделены от других параметров, таких как поза или освещение. Это позволит моделям более точно контролировать изменения, не искажая при этом визуальную идентичность. Перспективные направления включают использование специализированных нейронных сетей, обученных на огромных базах данных изображений и видео, а также разработку новых методов регуляризации, направленных на стабилизацию и сохранение ключевых признаков лица или объекта в процессе генерации. Успешное решение данной задачи откроет возможности для создания реалистичных и последовательных видеороликов с сохранением узнаваемости персонажей и объектов.

WildActor: Как мы пытаемся обуздать непостоянство видео
Механизм асимметричного внимания, сохраняющего идентичность (Asymmetric Identity-Preserving Attention), в WildActor обеспечивает однонаправленный поток информации об идентичности от референсных токенов к видео-токенам. Это достигается путем принудительного ограничения влияния видео-токенов на референсные, что предотвращает искажение или потерю информации об исходной идентичности. Такой подход гарантирует последовательное представление личности на протяжении всей генерируемой видеопоследовательности, сохраняя визуальные характеристики и особенности, заданные референсным изображением или видео.
В основе WildActor лежит метод Viewpoint-Adaptive Monte Carlo Sampling, который позволяет улучшить обобщающую способность модели путем адаптивного взвешивания референсных изображений в процессе обучения. Данный метод переоценивает вклад изображений, демонстрирующих разнообразие точек обзора, и недооценивает вклад изображений с похожими углами зрения. Это достигается за счет использования Монте-Карло сэмплирования, где вероятность выбора конкретного референсного изображения зависит от его угла обзора относительно текущего кадра. В результате, модель обучается более эффективно учитывать изменения в перспективе и генерировать видео с более реалистичными и разнообразными ракурсами, повышая устойчивость к новым, ранее не встречавшимся точкам обзора.
Для повышения временной когерентности и реалистичности генерируемых видео, WildActor использует Rectified Flow — метод, определяющий постоянное поле скоростей. Этот подход обеспечивает стабильное и естественное движение, минимизируя дрожание и артефакты, часто возникающие при генерации видео. Постоянное поле скоростей позволяет предсказывать траекторию движения объектов во времени, что критически важно для создания правдоподобных и реалистичных видеофрагментов. Применение Rectified Flow способствует сохранению согласованности между кадрами и улучшает визуальное восприятие генерируемого контента.
Механизм I-RoPE (Identity-aware Relative Position Embedding) используется для четкого разделения токенов видеопоследовательности и токенов, представляющих идентичность объекта. Этот подход заключается в применении различных относительных позиционных встраиваний к видеотокенам и референсным токенам идентичности, что позволяет модели различать их вклад в процесс генерации. Разделение этих токенов необходимо для сохранения идентичности объекта на протяжении всей видеопоследовательности, предотвращая смешение информации и обеспечивая более точное и стабильное представление визуальных характеристик объекта. Применение I-RoPE позволяет модели эффективно кодировать позиционные отношения между токенами, что критически важно для генерации последовательных и реалистичных видео.

Actor-18M: Данные, на которых мы пытаемся научить машины видеть последовательность
Набор данных Actor-18M представляет собой масштабный видеоархив, состоящий из 1,6 миллиона видеороликов и 18 миллионов изображений, содержащих людей. Этот объем данных обеспечивает широкое разнообразие представленных личностей и точек обзора. Целью создания Actor-18M является предоставление ресурсов для обучения и оценки алгоритмов компьютерного зрения, требующих большого количества размеченных данных для распознавания и отслеживания людей в различных условиях. Разнообразие в данных включает в себя различные позы, освещение, фоны и углы съемки, что способствует повышению обобщающей способности моделей.
Для обеспечения качества данных и точности аннотаций в Actor-18M использовался комплекс инструментов автоматизированного анализа видео. Обнаружение объектов и определение ограничивающих рамок осуществлялось с помощью YOLO-World. Для идентификации ключевых точек лица применялся RetinaFace, а DWPose использовался для оценки позы человека. Сегментация изображений и выделение объектов осуществлялось с помощью BiSeNet. Комбинация этих инструментов позволила автоматизировать процесс аннотирования и повысить его надежность, минимизируя ошибки и обеспечивая высокую точность данных в наборе Actor-18M.
Для расширения разнообразия данных в Actor-18M использовались модели Segment Anything Model 2 и Qwen-Image-Edit. Segment Anything Model 2 генерировала instance-маски, автоматически выделяя объекты на изображениях и видеокадрах. Qwen-Image-Edit применялась для создания изображений с измененной точкой зрения, позволяя синтезировать новые виды объектов, что увеличило вариативность поз и ракурсов в датасете. Использование этих моделей позволило значительно увеличить объем данных, представляющих различные визуальные сценарии и условия освещения, не требуя ручной разметки.
Для фильтрации видеоданных и повышения точности отслеживания в Actor-18M использовалась система CoTracker, предназначенная для генерации плотных треков точек. CoTracker анализирует видеопоток и автоматически создает последовательность координат ключевых точек на объектах, что позволяет отслеживать их перемещение во времени. Эти треки используются для отбраковки видеофрагментов с низким качеством отслеживания, а также для улучшения алгоритмов слежения за объектами, обеспечивая более стабильные и точные результаты в задачах анализа видео.

Actor-Bench: Проверяем, насколько хорошо машины запоминают лица в видео
Для всесторонней оценки возможностей WildActor в области генерации человеческих видео, была проведена проверка на Actor-Bench — специализированном наборе данных, предназначенном для измерения сохранения идентичности и семантической согласованности. Данный бенчмарк позволяет объективно оценить, насколько точно модель воспроизводит личность и поведение человека в видео, а также насколько последовательно и логично развиваются события в сгенерированном контенте. Использование Actor-Bench гарантирует, что оценка WildActor проводится по четким и стандартизированным критериям, позволяя сравнивать ее результаты с другими передовыми моделями в данной области и подтверждать ее эффективность в создании реалистичных и правдоподобных видео с участием людей.
Исследования показали, что модель WildActor достигла показателя согласованности тела в 0.952, что значительно превосходит результаты, продемонстрированные другими моделями в аналогичных задачах. Этот высокий показатель свидетельствует о способности WildActor генерировать видео, в которых тело персонажа сохраняет свою форму и консистенцию на протяжении всего ролика, избегая визуальных артефактов и деформаций. Достижение такого уровня согласованности критически важно для реалистичности генерируемого видео и способствует более естественному восприятию персонажа зрителями. Полученные данные подтверждают эффективность предложенного подхода к генерации человеческих видео и открывают новые возможности для создания высококачественного контента.
Для оптимизации процесса обучения и снижения вычислительных затрат, в WildActor была применена методика LoRA — Low-Rank Adaptation. Данный подход позволяет эффективно обучать так называемые «референсные токены», ответственные за сохранение идентичности генерируемого видео, без необходимости полной перенастройки всей модели. LoRA значительно уменьшает количество обучаемых параметров, что приводит к существенному снижению потребляемых ресурсов и времени обучения, при этом не оказывая негативного влияния на качество генерируемого видео и степень сохранения идентичности персонажа. Такой подход делает процесс создания реалистичных и последовательных видеороликов более доступным и экономичным.
Оценка качества генерируемых видеоматериалов была существенно расширена благодаря использованию модели Gemini-3-Pro, которая позволила комплексно анализировать как визуальное качество, так и соответствие идентичности персонажей. В ходе экспериментов Gemini-3-Pro продемонстрировала способность точно определять, насколько сгенерированные видеоматериалы сохраняют визуальную консистентность и соответствуют исходным данным, что привело к достижению наивысшего уровня семантического выравнивания на уровне VLM (Vision-Language Model) среди всех протестированных моделей. Этот подход позволяет более объективно оценивать прогресс в области генерации видео и гарантировать, что сгенерированные материалы не только визуально привлекательны, но и точно отражают заданные параметры и идентичности.

Будущее генерации видео: от людей к универсальному представлению реальности
Принципы, лежащие в основе WildActor, обладают значительным потенциалом для расширения возможностей генерации видео за пределы человеческих действий. Исследователи предполагают, что аналогичная методология, основанная на управлении динамическими объектами и сценами, может быть применена к генерации видеороликов, изображающих животных, транспортные средства, природные явления и другие сложные системы. Это открывает путь к созданию универсальной системы генерации видео, способной реалистично воспроизводить широкий спектр динамичных объектов и ситуаций, не ограничиваясь исключительно человеческими действиями. Успешная реализация такого подхода позволит автоматизировать создание визуального контента для различных приложений, от развлечений и образования до симуляций и научных исследований.
В дальнейшем исследования будут направлены на повышение реалистичности и выразительности генерируемых видеороликов, с акцентом на включение более тонких и детализированных моделей человеческого поведения и взаимодействия. Ученые стремятся к созданию не просто визуально правдоподобных, но и эмоционально убедительных сцен, где движения, жесты и мимика персонажей будут отражать сложные нюансы человеческой коммуникации. Особое внимание уделяется моделированию невербальных сигналов и контекстуальных реакций, что позволит генерировать видео, в которых персонажи будут казаться более живыми и естественными. Такой подход открывает перспективы для создания иммерсивных виртуальных сред и реалистичных цифровых двойников, способных к правдоподобному взаимодействию с пользователем.
Исследования в области генерации видео активно направлены на оптимизацию механизмов внимания и стратегий выборки, что может существенно повысить эффективность и надежность соответствующих фреймворков. В частности, альтернативные подходы к вниманию, отличающиеся от традиционных, позволяют модели фокусироваться на наиболее релевантных частях входных данных, снижая вычислительную сложность и улучшая качество генерируемого контента. Экспериментирование с различными методами выборки, такими как вероятностное семплирование или детерминированные стратегии, способно оптимизировать баланс между разнообразием и когерентностью генерируемых видеопоследовательностей. Оптимизация этих компонентов позволяет создавать более реалистичные и плавные видео, требующие меньше вычислительных ресурсов и обладающие большей устойчивостью к шумам и искажениям во входных данных.
В перспективе, создаваемая система нацелена на достижение бесшовного слияния виртуальной и реальной сред, открывая принципиально новые возможности в различных сферах. Представляется, что подобная интеграция позволит не только трансформировать способы коммуникации, предоставляя пользователям инструменты для создания иммерсивных и персонализированных взаимодействий, но и существенно расширит границы развлечений, предлагая невиданные ранее форматы контента. Кроме того, подобная технология может произвести революцию в образовании, обеспечивая доступ к интерактивным и реалистичным симуляциям, способствующим более глубокому пониманию сложных концепций и развитию практических навыков. В конечном итоге, речь идет о создании среды, где виртуальное и реальное перестают быть отдельными сущностями, формируя единое, обогащенное пространство для творчества, обучения и общения.
Исследование, представленное в статье, демонстрирует, как легко можно увлечься созданием сложных систем генерации видео, забывая о практической стороне вопроса. WildActor, с его набором из 18 миллионов видео, безусловно, впечатляет, но всегда возникает вопрос: сколько ресурсов было потрачено на сбор и обработку этого датасета? Как отметил Эндрю Ын: «Самый простой способ добиться успеха в машинном обучении — использовать меньше данных». Эта фраза особенно актуальна в контексте WildActor. Погоня за всё более реалистичной генерацией, особенно с учетом сохранения идентичности, часто приводит к созданию архитектур, которые сложно поддерживать и масштабировать. В конечном счёте, производство всегда найдёт способ упростить даже самую элегантную теорию, и, вероятно, найдётся более эффективный способ достичь приемлемых результатов, чем тратить ресурсы на огромный датасет и сложную систему внимания.
Что дальше?
Появление Actor-18M и WildActor — закономерный шаг в гонке за фотореалистичной генерацией видео. Однако, не стоит очаровываться. Проблема не в том, чтобы научиться воспроизводить движение — проблема в том, чтобы понять, что это движение значит. Сгенерированное видео неизбежно станет очередным набором пикселей, пока не появится механизм привязки к семантике, к намерениям. Сейчас это просто визуальный шум, обёрнутый в красивый интерфейс.
Внимания к сохранению идентичности, безусловно, похвально. Но, как показывает практика, пользователи быстро научатся находить артефакты и несоответствия. В конечном итоге, все эти сложные механизмы внимания и адаптивной выборки — лишь попытка скрыть неизбежные погрешности. Багтрекер скоро пополнится новыми тикетами: «лицо плывёт», «руки складываются нереалистично», «взгляд уходит в никуда». Мы не генерируем — мы отпускаем в мир очередного цифрового голема.
Предполагается, что более крупный датасет и усовершенствованные алгоритмы решат проблему согласованности точек зрения. Наивно полагать, что добавление ещё нескольких терабайт данных способно заменить фундаментальное понимание геометрии сцены и физики движения. Скорее, это лишь отодвинет проблему на некоторое время. В конце концов, элегантная теория всегда уступает место жестокой реальности продакшена.
Оригинал статьи: https://arxiv.org/pdf/2603.00586.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовая обработка данных: новый подход к повышению точности моделей
- Сохраняя геометрию: Квантование для эффективных 3D-моделей
- Квантовый Переход: Пора Заботиться о Криптографии
- Укрощение шума: как оптимизировать квантовые алгоритмы
- Квантовая химия: моделирование сложных молекул на пороге реальности
- Квантовые симуляторы: проверка на прочность
- Квантовые прорывы: Хорошее, плохое и смешное
- Искусственный интеллект заимствует мудрость у природы: новые горизонты эффективности
- Квантовые вычисления: от шифрования армагеддона до диверсантов космических лучей — что дальше?
2026-03-10 02:26