Ожившие движения: реалистичная генерация видео с физически достоверными действиями человека

Автор: Денис Аветисян


Новый подход позволяет создавать более правдоподобные видео с человеческими движениями, опираясь на принципы физики и симуляции.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Для оценки качества человеческих движений предлагается подход, восстанавливающий трехмерные SMPL-модели из сгенерированных видео и помещающий их в физический симулятор, что позволяет получать декомпозированные, физически обоснованные оценки, а также последовательно улучшать качество движений посредством обучения с подкреплением и структурированной системы вознаграждений.
Для оценки качества человеческих движений предлагается подход, восстанавливающий трехмерные SMPL-модели из сгенерированных видео и помещающий их в физический симулятор, что позволяет получать декомпозированные, физически обоснованные оценки, а также последовательно улучшать качество движений посредством обучения с подкреплением и структурированной системы вознаграждений.

В статье представлена функция вознаграждения PhyMotion, основанная на физическом моделировании, для улучшения качества и реализма генерируемых видео с движениями человека.

Генерация реалистичных движений человека остается сложной задачей в области видеогенерации, несмотря на успехи, достигнутые с помощью обучения с подкреплением. В работе ‘PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation’ предложен новый структурированный подход к оценке качества движения, основанный на физическом моделировании. Авторы разработали PhyMotion — функцию вознаграждения, которая оценивает правдоподобие траекторий движения человека в трех плоскостях: кинематической согласованности, устойчивости и динамической целесообразности. Способна ли такая оценка, основанная на принципах физики, значительно улучшить реализм генерируемых видео и открыть новые горизонты в области создания виртуальных персонажей?


Реалистичность Движений: Вызов Современным Моделям

Современные модели генерации видео часто сталкиваются с проблемой создания физически реалистичных движений, что приводит к появлению неестественных и даже невозможных анимаций. Это связано с тем, что алгоритмы, как правило, не учитывают фундаментальные принципы биомеханики и физики, определяющие человеческие движения. В результате, сгенерированные видео могут демонстрировать неправдоподобные позы, рывки или нарушения баланса, которые сразу же бросаются в глаза зрителю. Несмотря на впечатляющие успехи в области компьютерного зрения, воспроизведение тонкостей человеческой моторики остается сложной задачей, требующей более глубокого понимания физических ограничений и нюансов, присущих реальным движениям.

Несмотря на впечатляющие успехи в генерации видео, существующие модели часто сталкиваются с проблемой создания реалистичных движений человека. Это обусловлено тем, что сгенерированное видео зачастую не соответствует фундаментальным физическим ограничениям, управляющим человеческой кинематикой. Движения, кажущиеся естественными для зрителя, основаны на сложных взаимодействиях между мышцами, суставами и гравитацией. Когда генеративные модели игнорируют эти принципы — например, создают неестественные углы сгибания конечностей или не учитывают инерцию тела — результат воспринимается как неправдоподобный. Таким образом, несоответствие между виртуальными движениями и законами физики является ключевым препятствием на пути к созданию действительно убедительных и реалистичных видео с участием людей.

Существующие метрики оценки качества сгенерированных видеороликов часто оказываются неспособны уловить тонкие, но критически важные аспекты реалистичности движений человека. Они могут не замечать едва уловимые отклонения от физиологически правдоподобного поведения, что приводит к восприятию неестественности. Разработанная система PhyMotion решает эту проблему, демонстрируя впечатляющее соответствие человеческому восприятию — в среднем 80% случаев экспертных оценок совпадает с результатами, полученными PhyMotion. Такое высокое согласование указывает на то, что PhyMotion способна более точно оценивать правдоподобность движений, выявляя даже незначительные недостатки, которые ускользают от внимания традиционных метрик, и открывает новые возможности для создания действительно реалистичных видеороликов с человеческими движениями.

Предложенные метрики демонстрируют наивысшее соответствие субъективным оценкам качества движения по трем критериям - структуре тела, балансу и естественности - превосходя существующие перцептивные (VBench / VBench2) и обученные (VideoAlign, VideoPhy) метрики.
Предложенные метрики демонстрируют наивысшее соответствие субъективным оценкам качества движения по трем критериям — структуре тела, балансу и естественности — превосходя существующие перцептивные (VBench / VBench2) и обученные (VideoAlign, VideoPhy) метрики.

PhyMotion: Основа Физики в Генерации Движений

PhyMotion представляет собой новый сигнал вознаграждения для генерации видео, предназначенный для оценки качества движения на основе кинематической, контактной и динамической согласованности. Это означает, что PhyMotion анализирует сгенерированные движения с точки зрения соответствия законам физики, проверяя плавность и реалистичность траекторий, корректность взаимодействия объектов с окружающей средой и энергетическую целесообразность движений. Оценка проводится по трем ключевым параметрам: кинематика (согласованность позиций, скоростей и ускорений), контактная согласованность (реалистичность взаимодействия объектов) и динамическая согласованность (соответствие движения законам сохранения энергии и импульса). Такой подход позволяет отличать физически правдоподобные движения от неестественных или невозможных.

Система PhyMotion использует физический симулятор MuJoCo для оценки правдоподобности генерируемых движений. MuJoCo, являясь высокопроизводительным симулятором мультифизических систем, позволяет моделировать динамику тел, включая расчет сил, моментов и траекторий. В процессе оценки, генерируемое движение воспроизводится в симуляторе MuJoCo, где проверяется его соответствие законам физики. Критерии оценки включают в себя отсутствие столкновений, соблюдение ограничений на скорость и ускорение, а также энергетическую целесообразность движения. MuJoCo предоставляет точные данные о физических параметрах, что позволяет количественно оценить реалистичность сгенерированных движений.

Метод PhyMotion использует обратную динамику для оценки сил и моментов, необходимых для выполнения сгенерированного движения. Это достигается путем решения уравнений движения в обратном направлении — от наблюдаемой траектории к требуемым усилиям. В процессе вычисления, учитываются инерция, гравитация и другие внешние силы, действующие на объект. Если для выполнения движения требуются нереалистично высокие силы или моменты, превышающие физические возможности объекта, PhyMotion выдает низкую оценку, что указывает на энергетическую невозможность данного движения. Таким образом, обратная динамика позволяет PhyMotion эффективно фильтровать физически неправдоподобные анимации.

Результаты сравнения по категориям на стандартных видео-бенчмарках показывают, что PhyMotion обеспечивает улучшенную физическую правдоподобность, особенно в категориях, связанных с человеком и движением, при этом сохраняя конкурентоспособное качество генерации видео в целом.
Результаты сравнения по категориям на стандартных видео-бенчмарках показывают, что PhyMotion обеспечивает улучшенную физическую правдоподобность, особенно в категориях, связанных с человеком и движением, при этом сохраняя конкурентоспособное качество генерации видео в целом.

Восстановление 3D-Моделей и Валидация Реализма

Для восстановления 3D-моделей человеческого тела из сгенерированных видео используется метод GVHMR (Generative Volumetric Human Mesh Recovery). Данный метод позволяет получить SMPL-модели (Skinned Multi-Person Linear model), представляющие собой параметрическое представление человеческого тела в 3D-пространстве. Полученные 3D-модели служат основой для последующего физического моделирования и симуляции, позволяя оценивать реалистичность движений и взаимодействий с окружающей средой в сгенерированных видео. Точность и детализация полученных SMPL-моделей критически важны для обеспечения корректной работы физического движка и достоверности симуляции.

Для тонкой настройки моделей генерации видео используется обучение с подкреплением (RL), целью которого является максимизация вознаграждения PhyMotion. В результате применения RL достигнуто улучшение качества видео по метрике VideoAlign на 25.2% и повышение реалистичности физических взаимодействий, оцениваемое метрикой VideoPhy, на 5.7%. Вознаграждение PhyMotion служит сигналом для RL-алгоритма, направляя процесс обучения к генерации видео, демонстрирующих более правдоподобное поведение и физическую согласованность.

Адаптеры LoRA (Low-Rank Adaptation) позволяют эффективно адаптировать модели генерации видео без необходимости полной переподготовки. В ходе экспериментов было установлено, что вычислительные затраты при использовании LoRA составили всего 7% от затрат, необходимых для переобучения модели HPSv3 (35%). Это достигается за счет обучения лишь небольшого числа дополнительных параметров, что значительно снижает потребность в вычислительных ресурсах и времени, сохраняя при этом качество генерируемого контента.

PhyMotion позволяет выявлять различные типы физических ошибок в анимации, которые не обнаруживаются стандартными двумерными метриками, анализируя восстановленные траектории SMPL и выделяя кинематические, контактные и динамические несоответствия.
PhyMotion позволяет выявлять различные типы физических ошибок в анимации, которые не обнаруживаются стандартными двумерными метриками, анализируя восстановленные траектории SMPL и выделяя кинематические, контактные и динамические несоответствия.

Влияние и Перспективы Развития

Эксперименты, проведенные на базе датасета Motion-X, наглядно демонстрируют значительное улучшение качества генерируемого движения при использовании PhyMotion. Оценка проводилась как с помощью автоматизированных метрик, таких как VideoPhy, так и посредством анализа предпочтений людей-экспертов. Результаты показали, что PhyMotion достиг наивысшего показателя Human Preference Elo Score, что свидетельствует о его превосходстве в создании более реалистичного и правдоподобного движения по сравнению с существующими моделями. Этот результат подтверждает эффективность предложенного подхода в решении задачи генерации человеческих движений и открывает новые перспективы для его применения в различных областях, включая анимацию, робототехнику и виртуальную реальность.

Подход, реализованный в PhyMotion, позволяет успешно справляться с типичными ошибками, присущими существующим моделям генерации движений. В частности, он демонстрирует улучшенную способность к созданию более естественных и правдоподобных движений человека, избегая резких переходов и неестественных поз. Это достигается за счет более точного моделирования физических ограничений и динамики человеческого тела, что позволяет генерировать анимацию, визуально неотличимую от реальных движений. Результаты показывают значительное снижение артефактов и повышение общей реалистичности, делая PhyMotion перспективным инструментом для широкого спектра приложений, от создания игрового контента до разработки систем виртуальной реальности и роботизированных систем.

Исследования показали, что PhyMotion демонстрирует высокую согласованность в оценке структуры человеческого тела. При анализе 1200 пар видеозаписей, система достигла коэффициента корреляции Спирмена, равного 0.376, что свидетельствует о значительной связи между автоматической оценкой и восприятием структуры движения. Более того, в 82.9% случаев PhyMotion демонстрирует согласие с оценками, данными другими системами, что подтверждает надежность и точность подхода в определении ключевых характеристик движения и анатомической структуры, обеспечивая более реалистичное и правдоподобное моделирование человеческих движений.

В сравнении с базовыми моделями, наша модель демонстрирует более реалистичную и физически правдоподобную анимацию в ответ на разнообразные запросы, связанные с человеческими движениями, избегая типичных артефактов.
В сравнении с базовыми моделями, наша модель демонстрирует более реалистичную и физически правдоподобную анимацию в ответ на разнообразные запросы, связанные с человеческими движениями, избегая типичных артефактов.

Исследование представляет собой элегантное решение проблемы реалистичной генерации человеческих движений. Авторы, подобно скульпторам, формируют видеоряд, используя физически обоснованные награды, что позволяет добиться кинематической, контактной и динамической согласованности. Этот подход демонстрирует, что истинное мастерство заключается не в сложности алгоритмов, а в их гармоничном взаимодействии с фундаментальными принципами физики. Как заметил Ян ЛеКун: «Машинное обучение — это не только о создании алгоритмов, но и о понимании данных». В данном случае, глубокое понимание физики движений позволяет создать систему, генерирующую не просто визуально правдоподобные, но и физически достоверные видео.

Куда же дальше?

Представленная работа, безусловно, вносит вклад в элегантность генерации человеческих движений, однако, как часто бывает, решение одной задачи неизбежно обнажает новые грани сложности. Оценка правдоподобности через физическое моделирование — шаг очевидный, но и требующий дальнейшей шлифовки. Необходимо учитывать, что даже самая точная симуляция — лишь приближение к реальности, а человеческое движение, будучи сложным сплавом привычки, намерения и непредсказуемости, редко подчиняется строгим законам физики в идеальном виде.

Перспективы кроются в расширении области применения подобных reward-функций. Возможно ли создание единой метрики, оценивающей не только физическую корректность, но и эстетическое качество движения, его выразительность? Потребуется тонкий баланс между правдоподобием и художественной волей, чтобы избежать создания роботов, движущихся «правильно», но лишено жизни. Умение генерировать движения, которые не просто соответствуют физическим законам, а рассказывают историю, остается амбициозной задачей.

И, наконец, не стоит забывать о вычислительных затратах. Интеграция сложных симуляций в процесс обучения требует значительных ресурсов. Поиск компромисса между точностью и эффективностью — неизбежная дилемма, требующая изобретательности и смелого подхода к архитектуре алгоритмов. Возможно, будущее за гибридными подходами, сочетающими в себе преимущества физического моделирования и data-driven методов.


Оригинал статьи: https://arxiv.org/pdf/2605.14269.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-18 01:25