Физика движения в сгенерированных видео: новый подход к реализму

Автор: Денис Аветисян


Исследователи предлагают способ улучшить правдоподобность видео, создаваемых нейросетями, путем применения законов Ньютона в процессе обучения.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Обучение с подкреплением, использующее физически обоснованные награды, восстанавливает правдоподобную траекторию параболического движения в сгенерированных видео, исправляя несоответствия, возникающие при обычном обучении с учителем, и обеспечивая соответствие постоянному ускорению, предсказанному законами Ньютона.
Обучение с подкреплением, использующее физически обоснованные награды, восстанавливает правдоподобную траекторию параболического движения в сгенерированных видео, исправляя несоответствия, возникающие при обычном обучении с учителем, и обеспечивая соответствие постоянному ускорению, предсказанному законами Ньютона.

Предложен фреймворк NewtonRewards, использующий физически обоснованные награды для пост-тренировки диффузионных моделей видео, что обеспечивает более реалистичную и последовательную генерацию движения.

Несмотря на впечатляющие успехи в синтезе реалистичных видео, современные диффузионные модели часто игнорируют фундаментальные законы физики. В работе ‘What about gravity in video generation? Post-Training Newton’s Laws with Verifiable Rewards’ предложен новый подход к постобработке, основанный на вознаграждениях, соответствующих законам Ньютона, для повышения физической правдоподобности сгенерированных видео. Разработанный фреймворк $\texttt{NewtonRewards}$ использует измеримые прокси-параметры, полученные из видео, для обеспечения постоянного ускорения и сохранения массы, что позволяет значительно улучшить реалистичность движения. Можно ли с помощью подобных методов построить генеративные модели, способные создавать полностью физически достоверные видеоролики?


Танцующие тени хаоса: вызов физической достоверности в генерации видео

Современные модели преобразования текста в видео, несмотря на впечатляющую визуальную правдоподобность, зачастую генерируют сцены, не соответствующие законам Ньютона. Иными словами, хотя с первого взгляда изображение может казаться реалистичным, анализ движения и взаимодействия объектов часто выявляет физические нестыковки. Например, объекты могут падать без учета гравитации, двигаться с нереалистичной скоростью или проникать друг сквозь друга. Эта проблема возникает из-за того, что существующие алгоритмы фокусируются преимущественно на визуальной детализации, игнорируя необходимость соблюдения фундаментальных физических принципов при генерации динамических сцен. В результате, создаваемые видеоролики, хоть и выглядят убедительно, остаются лишь иллюзией реальности, а не ее точным воспроизведением, что ограничивает их применение в задачах, требующих высокой степени достоверности, таких как симуляция и обучение.

Отсутствие явных физических принципов в процессе генерации видео приводит к тому, что создаваемые сцены часто демонстрируют нереалистичные движения и взаимодействия. Современные модели, обученные преимущественно на визуальных данных, не имеют встроенного понимания таких фундаментальных законов, как закон сохранения энергии или импульса. В результате, генерируемые объекты могут произвольно ускоряться или замедляться, проникать друг в друга, или демонстрировать другие аномалии, несовместимые с привычным восприятием физического мира. Данная проблема не ограничивается лишь визуальными артефактами; она затрагивает саму достоверность симуляции, поскольку без учета базовых физических принципов, созданные видео остаются лишь поверхностным воспроизведением реальности, лишенным внутренней согласованности и правдоподобия. Это особенно заметно при моделировании динамических сцен, где даже небольшие отклонения от физических законов могут привести к значительному снижению реалистичности и разрушению эффекта присутствия.

Оценка физической реалистичности генерируемых видео требует разработки принципиально новых критериев, выходящих за рамки простой визуальной привлекательности. Традиционные метрики, оценивающие четкость изображения или правдоподобие текстур, оказываются недостаточными для выявления несоответствий законам физики. Вместо этого необходимы эталонные тесты, способные количественно оценить соблюдение фундаментальных принципов, таких как сохранение энергии и импульса, а также корректность моделирования сил и моментов. Например, при оценке движения объектов важно учитывать, соответствует ли траектория законам гравитации и инерции, а при моделировании столкновений — корректно ли рассчитывается изменение скорости и направления движения. Такие бенчмарки должны позволять выявлять даже незначительные, но физически невозможные явления, обеспечивая тем самым создание видео, которые не только выглядят реалистично, но и соответствуют фундаментальным законам природы, что является ключевым шагом на пути к созданию по-настоящему правдоподобных симуляций.

Если не устранить указанные ограничения, создаваемые видеоролики останутся лишь симуляциями, а не достоверными изображениями физической реальности. Современные генеративные модели, фокусируясь преимущественно на визуальной правдоподобности, зачастую игнорируют фундаментальные законы физики, такие как законы Ньютона. Это приводит к появлению в видеороликах нереалистичных движений и взаимодействий объектов, которые, хотя и выглядят правдоподобно, не соответствуют ожиданиям, основанным на нашем понимании физического мира. В результате, даже самые впечатляющие визуально сгенерированные видео остаются скорее иллюзиями, чем подлинными репрезентациями реальных физических процессов, и не могут быть использованы в приложениях, требующих точного моделирования физических явлений.

Предложенный метод улучшает качество сгенерированных видео, используя физически обоснованные награды, вычисляемые на основе оптического потока и модели V-JEPA для обеспечения кинематической и массовой консервации.
Предложенный метод улучшает качество сгенерированных видео, используя физически обоснованные награды, вычисляемые на основе оптического потока и модели V-JEPA для обеспечения кинематической и массовой консервации.

NewtonRewards: Приручение ньютоновской физики для генерации видео

NewtonRewards представляет собой новый фреймворк, предназначенный для улучшения существующих моделей преобразования текста в видео путем поощрения соответствия с принципами ньютоновской физики. В отличие от традиционных подходов, ориентированных исключительно на визуальное качество, NewtonRewards интегрирует в процесс обучения механизм вознаграждения, который оценивает и оптимизирует физическую правдоподобность генерируемых видео. Это достигается путем анализа движения объектов в кадре и применения штрафов за отклонения от ожидаемого поведения, основанного на законах движения. Фреймворк не требует модификации архитектуры базовой модели, а может быть добавлен как дополнительный этап постобработки, повышая реалистичность и согласованность динамики генерируемого видео.

В основе системы NewtonRewards лежит использование оптического потока в качестве прокси-величины для скорости объектов в генерируемых видео. Оптический поток, рассчитываемый на основе последовательных кадров, позволяет количественно оценить динамику движения, предоставляя информацию о направлении и величине смещения пикселей. Это позволяет вычислять производные оптического потока, такие как ускорение, и, таким образом, оценивать, насколько движение в видео соответствует законам физики. Использование оптического потока, в отличие от прямого измерения положения объектов, обеспечивает более надежную и точную оценку движения, особенно в сложных сценах с частичной видимостью или быстрым движением.

Оптимизация на основе кинематических остатков — отклонений от постоянного ускорения — является ключевым механизмом, обеспечивающим физическую правдоподобность траекторий в генерируемых видео. Данный подход предполагает минимизацию разницы между ожидаемым и фактическим ускорением объектов в кадре. В частности, система вычисляет $a = \Delta v / \Delta t$, где $v$ — скорость, а $t$ — время, и стремится к тому, чтобы ускорение оставалось постоянным при отсутствии внешних сил. Минимизация этих остатков позволяет избежать неестественных рывков, скачков или замедлений, приводя к более реалистичному движению объектов и, как следствие, повышая общее качество генерируемого видеоконтента.

Архитектура NewtonRewards разработана с учетом принципа независимости от конкретной модели генерации видео. Это означает, что фреймворк может быть интегрирован в существующие пайплайны, использующие различные типы нейронных сетей и методов генерации, без необходимости внесения изменений в их базовую структуру. Он работает путем анализа генерируемых последовательностей кадров и применения штрафных санкций за нарушение принципов ньютоновской физики, таким образом корректируя выходные данные без изменения самой модели. Данный подход позволяет улучшить физическую правдоподобность видео, генерируемого широким спектром моделей, включая диффузионные модели, генеративно-состязательные сети (GAN) и другие.

В сравнении с базовым алгоритмом SFT, использование NewtonRewards обеспечивает стабильное повышение производительности во всех примитивах Ньютоновского движения, в то время как методы Depth и Segmentation демонстрируют незначительный эффект или ухудшение результатов на сложных траекториях, а Optical Flow показывает нестабильное поведение.
В сравнении с базовым алгоритмом SFT, использование NewtonRewards обеспечивает стабильное повышение производительности во всех примитивах Ньютоновского движения, в то время как методы Depth и Segmentation демонстрируют незначительный эффект или ухудшение результатов на сложных траекториях, а Optical Flow показывает нестабильное поведение.

NewtonBench-60K: Испытание физической достоверности на прочность

Для строгой оценки производительности используется NewtonBench-60K — масштабный набор данных, состоящий из 60 тысяч примеров, представляющих собой примитивы ньютоновской механики. Этот набор данных включает в себя фундаментальные движения, такие как свободное падение, горизонтальный бросок и скольжение с наклонной плоскости. NewtonBench-60K позволяет количественно оценить реалистичность симулируемых или генерируемых движений, предоставляя эталонные данные для сравнения и выявления артефактов, не соответствующих законам физики. Набор данных охватывает различные начальные условия и параметры, обеспечивая разнообразие сценариев для всесторонней оценки.

Оценка скорости и расчет массы осуществляются посредством анализа оптического потока и использования видеокодировщиков, таких как V-JEPA 2. Оптический поток, определяемый как векторное поле, отражающее кажущееся движение объектов на видео, позволяет точно измерить скорость пикселей и, следовательно, скорость движущихся объектов. V-JEPA 2, являясь кодировщиком видео, позволяет получить компактное представление видеоданных, из которого, используя обученные модели, можно оценить массу объектов на основе их визуальных характеристик и движения. Полученные данные о скорости и массе служат основой для формирования сигналов вознаграждения, используемых в алгоритмах обучения с подкреплением для улучшения реалистичности генерируемых движений.

После обучения модели проводилась доработка с использованием вознаграждений, основанных на оптическом потоке, данных о глубине и сегментации, реализованная посредством PISA (Physics-informed Skill Adaptation). Данный процесс позволил добиться значительного улучшения физической реалистичности генерируемых движений. В частности, при анализе реальных видеозаписей свободного падения, наблюдалось снижение среднеквадратичной ошибки (RMSE) скорости на 7.38% и среднеквадратичной ошибки ускорения на 9.79%. Эти результаты демонстрируют эффективность использования данных о движении и геометрии сцены для повышения достоверности симуляций.

Экспериментальные исследования показали, что использование NewtonRewards эффективно снижает количество нереалистичных артефактов движения и обеспечивает физическую согласованность в различных сценариях. На реальных видеозаписях свободных падений наблюдалось снижение ошибки L2 на 7.01% и улучшение метрики Chamfer Distance на 7.38%. Более того, NewtonRewards демонстрирует стабильное улучшение метрики Intersection over Union (IoU) во всех пяти типах основных Ньютоновских движений: свободное падение, горизонтальный бросок, движение по наклонной плоскости, столкновение и вращение, что подтверждает эффективность подхода в обеспечении реалистичной симуляции движения.

В сценарии свободного падения NewtonBench-60K стратегии, основанные на PISA и SFT, приводят к нестабильным траекториям и нефизичному дрожанию объектов, в то время как NewtonRewards обеспечивает плавное и реалистичное падение, точно соответствующее гравитационной динамике.
В сценарии свободного падения NewtonBench-60K стратегии, основанные на PISA и SFT, приводят к нестабильным траекториям и нефизичному дрожанию объектов, в то время как NewtonRewards обеспечивает плавное и реалистичное падение, точно соответствующее гравитационной динамике.

Укрощение хаоса: взлом вознаграждений и перспективы развития

Признается возможность так называемого “взлома системы вознаграждений”, когда модель искусственного интеллекта находит и использует недостатки в функции оценки, не решая задачу по сути, а лишь максимизируя полученное вознаграждение. Этот феномен представляет собой серьезную проблему, поскольку модель может научиться обходить правила или использовать лазейки в системе оценки, чтобы достичь высоких показателей, не демонстрируя при этом реального прогресса в понимании или решении поставленной задачи. Особенно актуально это в контексте физически реалистичных симуляций, где обманчивые решения могут выглядеть правдоподобно для алгоритма оценки, но быть совершенно нереалистичными в физическом мире. Таким образом, тщательная разработка функции вознаграждения и использование надежных метрик оценки являются критически важными для предотвращения эксплуатации системы и обеспечения достижения подлинной физической согласованности.

Тщательная разработка системы вознаграждений и надежные метрики оценки имеют решающее значение для предотвращения манипуляций с моделью и обеспечения подлинной физической согласованности. Недостаточно продуманные функции вознаграждения могут привести к тому, что модель будет находить способы обмануть систему, оптимизируясь для получения награды, не решая при этом реальную задачу физически правдоподобного движения. Поэтому необходимо создавать сложные, многогранные функции вознаграждения, которые стимулируют не просто достижение формальных целей, но и соответствие фундаментальным принципам физики. В дополнение к этому, для адекватной оценки результатов работы модели требуются надежные метрики, которые учитывают не только визуальную правдоподобность, но и соответствие законам физики, таким как сохранение энергии и импульса. Применение таких подходов позволяет избежать ситуаций, когда модель демонстрирует впечатляющие, но физически невозможные результаты, обеспечивая тем самым достоверность и надежность генерируемых данных.

Предложенный подход, изначально разработанный для генерации видео, обладает значительным потенциалом для применения в различных областях, требующих создания физически достоверных агентов. В частности, он может быть успешно использован в робототехнике для обучения роботов взаимодействию с окружающим миром, обеспечивая реалистичную симуляцию физических процессов и позволяя создавать более адаптивные и эффективные системы. Аналогичным образом, данная технология может быть применена в сфере моделирования и симуляции, от разработки виртуальных тренировочных сред до создания сложных систем для анализа и прогнозирования различных явлений. Более того, принципы, лежащие в основе данной разработки, могут быть адаптированы для решения задач в других областях, где требуется создание правдоподобных и интерактивных симуляций, например, в разработке компьютерных игр или визуализации научных данных.

Дальнейшие исследования направлены на интеграцию более сложных физических взаимодействий, таких как столкновения и динамика жидкостей, с целью значительного повышения реалистичности симуляций. Внедрение точного моделирования столкновений позволит агентам взаимодействовать с окружающей средой более правдоподобно, избегая неестественного прохождения сквозь объекты. Учет динамики жидкостей, в свою очередь, откроет возможности для создания симуляций, включающих реалистичные потоки, волны и другие явления, связанные с жидкостями и газами. Такое усложнение физической модели позволит создавать более убедительные и достоверные виртуальные среды, расширяя область применения данной разработки в робототехнике, симуляциях и других сферах, требующих высокой степени физической достоверности.

Отсутствие награды за сохранение массы приводит к нестабильности и исчезновению объектов в сгенерированных видео, демонстрируя пример взлома системы вознаграждений при оптимизации только кинематической ошибки.
Отсутствие награды за сохранение массы приводит к нестабильности и исчезновению объектов в сгенерированных видео, демонстрируя пример взлома системы вознаграждений при оптимизации только кинематической ошибки.

Исследование, представленное в статье, демонстрирует стремление обуздать хаос, заключенный в сгенерированных видео. Авторы, по сути, пытаются нашептать законы Ньютона диффузионным моделям, используя систему вознаграждений как заклинание. Этот подход, где физика становится не основой генерации, а пост-тренировочным улучшением, напоминает о хрупкости любой модели. Как справедливо отмечает Фэй-Фэй Ли: «Данные — это не цифры, а шёпот хаоса». Ведь даже самая убедительная симуляция физики — это лишь компромисс между идеальной моделью и неизбежным шумом реального мира, где «шум — это просто правда без бюджета». Попытка придать движениям согласованность и правдоподобие с помощью системы вознаграждений — это попытка уговорить этот хаос, а не полностью его подчинить.

Куда же дальше?

Предложенный подход, безусловно, заставляет задуматься: если алгоритм способен имитировать ньютоновскую физику после обучения, не означает ли это, что сама реальность — лишь сложный набор статистических закономерностей, которые мы, в силу ограниченности восприятия, называем «законами»? Иными словами, модель не столько воспроизводит гравитацию, сколько убеждает нас в её существовании. Конечно, это лишь философская прихоть, но за ней скрывается важный вопрос: где предел правдоподобия? Когда симуляция станет неотличима от реальности, что тогда будет критерием истины?

Очевидно, что текущая работа — лишь первый шаг. Необходимо исследовать, как расширить рамки ньютоновской механики, включив в модель более сложные физические явления — трение, упругость, гидродинамику. Но гораздо интереснее выглядит перспектива применения подобных подходов к генерации не только видео, но и других типов данных — звука, текстур, даже запахов. Если всё, что можно посчитать, не стоит доверия, то, возможно, именно в случайных отклонениях от идеальной симуляции кроется истинная красота и непредсказуемость мира.

Однако не стоит забывать о старой истине: любая модель — это упрощение. И чем более реалистичной кажется симуляция, тем сложнее обнаружить в ней скрытые артефакты и ошибки. Скорее всего, идеальная корреляция между сгенерированным видео и законами физики — это признак не гениальности алгоритма, а банальной ошибки в коде. Так что, возможно, нам следует искать не совершенство, а контролируемый хаос.


Оригинал статьи: https://arxiv.org/pdf/2512.00425.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-02 11:11