Видео по законам физики: новый подход к генерации реалистичных роликов

Автор: Денис Аветисян


Исследователи предлагают метод, повышающий правдоподобность генерируемых видео, за счет учета законов физики и оптимизации процесса обучения.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Исследование демонстрирует, что PhysCorr обеспечивает корректное моделирование физических взаимодействий – устраняя нереалистичные колебания и постоянную скорость падения объектов – и гарантирует стабильное отображение объектов, сохраняя их текстуру и пространственные отношения без взаимного проникновения и аномальных визуальных артефактов.
Исследование демонстрирует, что PhysCorr обеспечивает корректное моделирование физических взаимодействий – устраняя нереалистичные колебания и постоянную скорость падения объектов – и гарантирует стабильное отображение объектов, сохраняя их текстуру и пространственные отношения без взаимного проникновения и аномальных визуальных артефактов.

Представлен PhysCorr — фреймворк, использующий физическую модель вознаграждения и алгоритм DPO для улучшения физической согласованности видео, сгенерированных по текстовому описанию.

Несмотря на значительный прогресс в генерации видео по текстовому описанию, создаваемые ролики часто демонстрируют нарушение базовых законов физики, что ограничивает их применение в областях, требующих реалистичной симуляции. В данной работе, ‘PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection’, предложен новый подход, использующий модель двойного вознаграждения и алгоритм DPO с перевзвешиванием для повышения физической правдоподобности генерируемых видео. Это позволяет создавать более когерентные и реалистичные видеоролики, сохраняя при этом визуальную точность и соответствие исходному текстовому запросу. Способно ли данное решение стать ключевым шагом к созданию действительно «умных» систем генерации видео, способных моделировать сложные физические взаимодействия?


Преодолевая Границы Реализма в Видеогенерации

Современные модели преобразования текста в видео часто испытывают трудности с генерацией физически правдоподобных и временной согласованности сцен, из-за недостаточной интеграции фундаментальных законов физики. Существующие методы фокусируются на перцептивной реалистичности, игнорируя физические принципы, что ограничивает возможности создания убедительных виртуальных сред. Воспроизводимость и объяснимость модели становятся ключевыми аспектами качества генерируемого видео.

Сравнение ключевых показателей до и после применения PhysCorr на VBench и VBench2 для VideoCrafter2 и Wan2.1 показывает, что технические показатели точности (слева), оценивающие стабильность, перцептивную точность и локальную согласованность, и показатели семантической согласованности (справа), оценивающие логику высокого уровня и целостность повествования, демонстрируют различия.
Сравнение ключевых показателей до и после применения PhysCorr на VBench и VBench2 для VideoCrafter2 и Wan2.1 показывает различия в точности, стабильности и семантической согласованности.

Этот пробел в физической точности препятствует созданию захватывающих виртуальных впечатлений.

PhysCorr: Физика в Основе Видеогенерации

Представлен PhysCorr – новый фреймворк, использующий Модель Физической Награды (PhysicsRM) для оценки физической правдоподобности генерируемого контента. PhysCorr использует алгоритм Direct Preference Optimization (PhyDPO) для согласования видеоданных с PhysicsRM, позволяя модели обучаться, предпочитая видео, соответствующие физическим принципам, таким как гравитация и инерция. Это способствует созданию более реалистичных видеороликов.

Анализ PhyScore, представленный в виде гистограммы PhyScore и гистограммы разницы PhyScore между лучшим и худшим образцами в предпочтительной паре, демонстрирует значимые различия между образцами, которые полезны для обучения.
Анализ PhyScore демонстрирует значимые различия между образцами, полезные для обучения.

В отличие от традиционных подходов, PhysCorr стремится к более глубокому пониманию физических ограничений внутри генеративной модели, создавая видео, которые не только выглядят реалистично, но и ведут себя физически правдоподобно.

Оценка Физической Правдоподобности с Помощью PhysicsRM

PhysicsRM оценивает видеопоследовательности посредством анализа механической согласованности и соответствия объектов, используя признаки, извлеченные моделями DINOv2 и LLaVA-Video-Qwen2. В процессе обучения применяется Huber Loss, обеспечивающий баланс между чувствительностью к ошибкам и устойчивостью к выбросам, что обеспечивает высокую точность и надежность оценки физической правдоподобности. Модель генерирует PhyScore – количественную метрику, отражающую физическую правдоподобность видео, обеспечивая объективное сравнение и оценку прогресса в области реалистичной генерации видеоконтента.

Влияние параметра α на пять ключевых показателей VBench и VBench2 - эстетическое качество, механику, термодинамику, качество изображения и сцену - демонстрирует его значимость для оптимизации производительности.
Влияние параметра α на ключевые показатели VBench и VBench2 демонстрирует его значимость для оптимизации производительности.

Модель способна генерировать PhyScore – количественную метрику, отражающую физическую правдоподобность видео.

Превосходство PhysCorr и Перспективы Развития

Эксперименты на бенчмарках VBench2 продемонстрировали, что PhysCorr превосходит существующие модели, включая VideoCrafter2 и Wan2.1, в генерации физически правдоподобных видео. PhysCorr улучшил показатели в категориях Mechanics (на 2.83% для Wan2.1 и на 2.29% для VideoCrafter2), Temporal Style (0.89% для Wan2.1) и Imaging Quality (0.92% для VideoCrafter2). Дальнейшие исследования будут направлены на расширение области физического рассуждения и изучение возможностей применения в робототехнике и виртуальной реальности. Понимание системы требует терпения: поспешные выводы могут скрывать структурные ошибки.

Исследование, представленное в данной работе, акцентирует внимание на проблеме обеспечения физической правдоподобности в генерируемых текста-видео последовательностях. Авторы предлагают подход PhysCorr, который сочетает в себе легковесную модель вознаграждения, оценивающую физическую корректность, и алгоритм DPO для обучения модели генерации. Этот метод позволяет создавать более реалистичные и согласованные видео, избегая неправдоподобных движений и взаимодействий. Как однажды отметила Фэй-Фэй Ли: “Технологии должны расширять возможности человека, а не заменять его.” В контексте PhysCorr, это означает, что алгоритм направлен не на автоматическую замену физических законов, а на помощь модели в их соблюдении, тем самым улучшая качество и правдоподобность генерируемого контента.

Что впереди?

Представленный подход, PhysCorr, демонстрирует, что даже относительно небольшое вмешательство в процесс обучения моделей генерации видео, посредством целенаправленного формирования вознаграждения, способно заметно улучшить физическую правдоподобность результатов. Однако, за кажущейся простотой скрывается глубокая проблема: как определить универсальный набор физических ограничений, применимых ко всем сценариям? Попытки создать единую модель, охватывающую все законы физики, вероятно, обречены на неудачу. Более перспективным представляется создание модульных систем вознаграждения, адаптирующихся к конкретному типу сцены – будь то динамика жидкостей, поведение твердых тел или аэродинамика.

Важно отметить, что текущая работа фокусируется преимущественно на визуальной правдоподобности. Аудиосопровождение, тактильные ощущения и даже обоняние – все эти модальности формируют наше восприятие реальности. Будущие исследования должны стремиться к созданию мультимодальных моделей, способных генерировать видео, которые правдоподобны не только визуально, но и во всех остальных сенсорных аспектах. В противном случае, мы рискуем создать иллюзию реальности, которая, будучи обнаруженной, лишь усилит эффект «зловещей долины».

Наконец, следует признать, что оценка физической правдоподобности остается сложной задачей. Автоматизированные метрики часто оказываются несовершенными, а субъективная оценка требует значительных временных затрат. Разработка более надежных и эффективных методов оценки, возможно, с использованием принципов активного обучения, представляется критически важной для дальнейшего прогресса в данной области. Иначе, мы будем строить замки из песка, не имея возможности достоверно оценить их прочность.


Оригинал статьи: https://arxiv.org/pdf/2511.03997.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-10 03:27