Реалистичное видео из текста: новый подход к физической достоверности

Автор: Денис Аветисян


Ученые разработали метод, позволяющий создавать более правдоподобные видеоролики по текстовому описанию, учитывая законы физики.

В рамках разработанного фреймворка PhyGDPO, текст запросов, не содержащий рассуждений о физике, обрабатывается моделью T2V, а для экономии памяти GPU и повышения стабильности обучения предлагается схема LoRA-switch; в основе PhyGDPO лежит вероятностная модель Плэкетта-Люса (PL), использующая осведомлённую о физике VLM VideoCon-Physics для вознаграждения DPO-обучения, где реальное видео, как образец с идеальной физикой, признаётся победителем.
В рамках разработанного фреймворка PhyGDPO, текст запросов, не содержащий рассуждений о физике, обрабатывается моделью T2V, а для экономии памяти GPU и повышения стабильности обучения предлагается схема LoRA-switch; в основе PhyGDPO лежит вероятностная модель Плэкетта-Люса (PL), использующая осведомлённую о физике VLM VideoCon-Physics для вознаграждения DPO-обучения, где реальное видео, как образец с идеальной физикой, признаётся победителем.

В статье представлена новая платформа PhyGDPO, использующая групповую оптимизацию предпочтений и физически обоснованные награды для генерации физически согласованных видео.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

Несмотря на значительный прогресс в генерации видео по текстовому описанию, создание реалистичных и физически правдоподобных сцен остается сложной задачей. В данной работе представлена новая методика ‘PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation’, использующая групповую оптимизацию предпочтений и физически обоснованное вознаграждение для повышения согласованности генерируемых видео с законами физики. Предложенный фреймворк PhyGDPO, дополненный схемой LoRA-Switch Reference для повышения эффективности обучения, позволяет значительно улучшить качество генерируемых видео по сравнению с существующими решениями. Сможет ли данный подход открыть новые горизонты в создании виртуальных миров, неотличимых от реальности?


За гранью иллюзий: Физическая достоверность в генерации видео

Современные модели преобразования текста в видео часто сталкиваются с трудностями в создании реалистичных сцен, что приводит к появлению неестественных и вызывающих дискомфорт визуальных эффектов. Несмотря на впечатляющий прогресс в генерации изображений и последовательностей кадров, эти системы нередко игнорируют фундаментальные законы физики. Например, объекты могут падать без учета гравитации, жидкости — вести себя нелогично, а твердые тела — проникать друг в друга. Это несоответствие физической реальности подрывает эффект погружения и создает ощущение искусственности, препятствуя созданию убедительных и правдоподобных видеороликов. Проблема заключается не в недостатке вычислительной мощности, а в ограниченной способности моделей к рассуждению о физическом мире и моделированию динамики объектов.

Ограниченность современных моделей преобразования текста в видео в воспроизведении правдоподобной физической реальности обусловлена недостаточной способностью к моделированию динамики окружающего мира. Вместо глубокого понимания законов физики, эти системы часто полагаются на статистические закономерности, что приводит к созданию визуально привлекательных, но физически невозможных сцен. Отсутствие понимания таких фундаментальных концепций, как гравитация, инерция или взаимодействие объектов, не позволяет генерировать видео, которые кажутся естественными и убедительными для зрителя. В результате, даже при высокой детализации изображения, нереалистичное поведение объектов разрушает эффект присутствия и препятствует созданию по-настоящему захватывающего и иммерсивного опыта.

Метод PhyGDPO, примененный к модели Wan2.1-T2V-14B, позволяет генерировать более реалистичные видеоролики с динамичными сценами, такими как гимнастика, футбол, баскетбол и разбивание стекла, по сравнению с результатами, полученными моделями OpenAI Sora2 и Google Veo3.1.
Метод PhyGDPO, примененный к модели Wan2.1-T2V-14B, позволяет генерировать более реалистичные видеоролики с динамичными сценами, такими как гимнастика, футбол, баскетбол и разбивание стекла, по сравнению с результатами, полученными моделями OpenAI Sora2 и Google Veo3.1.

Создание набора данных, насыщенного физикой: PhyAugPipe

PhyAugPipe представляет собой конвейер обработки данных, предназначенный для фильтрации и курации пар «текст-видео», содержащих контент, богатый физическими взаимодействиями. Он функционирует путем автоматизированного отбора видеоматериалов на основе релевантности текстового описания и наличия в видео заметных физических процессов. Конвейер позволяет создавать специализированные наборы данных, пригодные для обучения и оценки моделей, способных понимать и анализировать физические явления, представленные в визуальном формате. В состав конвейера входят модули для предварительной обработки видео, извлечения признаков и последующей фильтрации на основе заданных критериев релевантности.

PhyAugPipe использует цепочку логических умозаключений (CoT Rule) в сочетании с видео-языковой моделью, ориентированной на физику (VideoCon-Physics), для выявления и приоритизации видеороликов, демонстрирующих значимые физические взаимодействия. CoT Rule позволяет моделировать процесс рассуждений, определяя, соответствует ли сценарий физическим принципам. VideoCon-Physics, в свою очередь, анализирует видеоконтент, выделяя объекты и их действия, а затем оценивает, насколько эти действия согласуются с законами физики. Комбинация этих двух подходов позволяет PhyAugPipe эффективно отфильтровывать видеоролики, содержащие нерелевантный или нефизический контент, и фокусироваться на тех, которые наиболее полезны для обучения моделей, понимающих физические явления.

В PhyAugPipe кластеризация действий служит для дальнейшей оптимизации набора данных путем группировки семантически связанных последовательностей действий. Этот процесс основан на анализе временных взаимосвязей между отдельными действиями в видео, что позволяет идентифицировать и объединять сегменты, демонстрирующие единое физическое явление или процесс. Объединение последовательных действий в кластеры повышает способность модели к обобщению, поскольку она обучается распознавать физические принципы, не привязанные к конкретной последовательности кадров. Таким образом, кластеризация снижает чувствительность модели к вариациям в исполнении действий и улучшает ее способность к прогнозированию и пониманию физических взаимодействий в новых, ранее не встречавшихся видео.

Для создания обучающих данных, обогащенных физикой, используется конвейер PhyAugPipe, который отбирает пары текст-видео с выраженными физическими взаимодействиями с помощью большой языковой модели Qwen-2.5-72B-Instruct и логических правил, затем кластеризует действия на основе семантического соответствия, и, наконец, оценивает сложность этих действий с помощью физически осведомленной языковой модели VideoCon-Physics для оптимального отбора обучающих примеров.
Для создания обучающих данных, обогащенных физикой, используется конвейер PhyAugPipe, который отбирает пары текст-видео с выраженными физическими взаимодействиями с помощью большой языковой модели Qwen-2.5-72B-Instruct и логических правил, затем кластеризует действия на основе семантического соответствия, и, наконец, оценивает сложность этих действий с помощью физически осведомленной языковой модели VideoCon-Physics для оптимального отбора обучающих примеров.

PhyGDPO: Настройка моделей на физическую согласованность

PhyGDPO представляет собой новую структуру оптимизации, основанную на Direct Preference Optimization (DPO) и методе Flow Matching, с акцентом на соответствие физическим законам. В отличие от стандартного DPO, PhyGDPO использует принципы физики для улучшения процесса обучения и повышения реалистичности генерируемых действий. Данная структура позволяет обучать модели, которые лучше учитывают физические ограничения и динамику, что особенно важно для задач, связанных с симуляцией и управлением в физическом мире. В основе PhyGDPO лежит идея групповой оптимизации предпочтений, что позволяет более эффективно использовать данные и повышать стабильность обучения.

В основе PhyGDPO лежит механизм Physics-Guided Rewarding, направленный на улучшение устойчивости модели при выполнении сложных физических действий. Этот механизм использует функцию вознаграждения, основанную на физических принципах, для формирования выборок данных и оптимизации предпочтений. При обучении, PhyGDPO отдает приоритет примерам, демонстрирующим сложные взаимодействия с физическим миром, что позволяет модели более эффективно обобщать знания и справляться с непредсказуемыми ситуациями, повышая её надёжность в различных сценариях. Это достигается за счёт оценки качества действий не только с точки зрения достижения цели, но и с точки зрения соответствия законам физики.

Для повышения эффективности и стабильности обучения, PhyGDPO использует LoRA-Switch Reference, основанный на методе Low-Rank Adaptation (LoRA). LoRA позволяет значительно снизить потребление памяти — на 44% — за счет адаптации только небольшой части параметров модели, в то время как остальные параметры остаются фиксированными. Данный подход позволяет обучать большие модели на ограниченных вычислительных ресурсах, сохраняя при этом качество генерируемых данных и обеспечивая стабильность процесса обучения.

Комбинирование LoRA-SR, вероятностного моделирования и физически обоснованного вознаграждения позволяет генерировать более реалистичные траектории движения теннисного мяча, соответствующие законам плавучести, а также более связные и правдоподобные движения тела и взаимодействие руки с инструментом, превосходя подходы VideoDPO и Flow-DPO.
Комбинирование LoRA-SR, вероятностного моделирования и физически обоснованного вознаграждения позволяет генерировать более реалистичные траектории движения теннисного мяча, соответствующие законам плавучести, а также более связные и правдоподобные движения тела и взаимодействие руки с инструментом, превосходя подходы VideoDPO и Flow-DPO.

Демонстрация физической правдоподобности посредством строгой оценки

Модель PhyGDPO демонстрирует существенное улучшение физической правдоподобности генерируемых видео при оценке на стандартных наборах данных, таких как VideoPhy2 и PhyGenBench. Результаты тестирования показывают, что PhyGDPO превосходит существующие модели по ключевым показателям физической достоверности, что подтверждается объективными метриками, используемыми в этих наборах данных. Данное улучшение свидетельствует о способности модели генерировать видео, более точно соответствующие законам физики, и является важным шагом в развитии реалистичной генерации видео.

При оценке физической правдоподобности, наша модель демонстрирует значительное превосходство над существующими решениями. На датасете VideoPhy2 достигнут результат на 29% выше, чем у модели Sora2. В рамках PhyGenBench, по трекам «Механика» и «Теплофизика» зафиксировано увеличение показателей на 22% и 23% соответственно, по сравнению с моделью PhyT2V. Данные результаты подтверждают улучшенную способность модели генерировать видео, соответствующие законам физики.

Способность модели генерировать видео, соответствующие законам физики, напрямую обусловлена использованием тщательно разработанного набора данных PhyVidGen-135K, содержащего 135 тысяч видеороликов, и целенаправленной стратегией оптимизации. Набор данных PhyVidGen-135K был создан с акцентом на разнообразие физических явлений и реалистичность симуляций. Стратегия оптимизации включала в себя как оптимизацию параметров модели для минимизации ошибок в предсказании физических взаимодействий, так и использование специальных функций потерь, направленных на усиление физической согласованности генерируемых видеоматериалов. Комбинация качественного набора данных и целенаправленной оптимизации позволила добиться значительного улучшения в реалистичности и физической правдоподобности генерируемых видео.

Предложенный метод позволяет генерировать более реалистичные видео сложных действий, таких как гимнастика и поло, демонстрируя согласованные движения без деформаций и реалистичное взаимодействие мяча и клюшки.
Предложенный метод позволяет генерировать более реалистичные видео сложных действий, таких как гимнастика и поло, демонстрируя согласованные движения без деформаций и реалистичное взаимодействие мяча и клюшки.

К подлинно иммерсивной и реалистичной генерации видео

Данная работа представляет собой важный шаг на пути к созданию видеороликов по текстовому описанию, которые отличаются не только эстетической привлекательностью, но и соответствуют фундаментальным законам физики. В отличие от существующих методов, часто генерирующих визуально правдоподобные, но физически невозможные сцены, данное исследование фокусируется на моделировании реалистичного поведения объектов и их взаимодействия. Это достигается за счет использования специализированного набора данных, включающего сцены с разнообразными физическими взаимодействиями, и оптимизации алгоритма генерации с учетом принципов динамики и механики. Такой подход позволяет создавать видеоролики, в которых движение объектов, столкновения и другие физические процессы выглядят убедительно и естественно, открывая новые возможности для реалистичной визуализации и симуляции.

Дальнейшие исследования направлены на значительное расширение разнообразия физических взаимодействий, представленных в обучающем наборе данных. Это предполагает включение более сложных сценариев, охватывающих широкий спектр материалов, сил и движений, что позволит генерировать видеоролики с большей степенью реалистичности и правдоподобия. Параллельно с этим ведется работа над усовершенствованием стратегии оптимизации, направленной на повышение эффективности и стабильности процесса генерации видео, а также на улучшение соответствия между текстовым описанием и полученным визуальным результатом. Усилия в этой области призваны обеспечить более точное моделирование физических законов и создать видеоконтент, который будет максимально убедительным и правдоподобным для зрителя.

Стремление к физической реалистичности в генерации видео из текста открывает широкие перспективы для различных областей применения. Создание визуально достоверных симуляций позволяет значительно улучшить качество контента в развлекательной индустрии и образовательных программах, делая обучение более наглядным и интерактивным. Более того, реалистичная симуляция физических процессов имеет решающее значение для разработки и тестирования алгоритмов в робототехнике, а также для создания точных и надежных симуляций в научных исследованиях и инженерном моделировании. Повышение точности симуляций позволяет создавать виртуальные среды, неотличимые от реальности, что способствует развитию новых технологий и открывает возможности для решения сложных задач в различных сферах деятельности.

Предложенный метод генерирует более реалистичные видео, достоверно воспроизводя взаимодействие ракетки и мяча в сквоше и скоординированные движения тела при выполнении сальто.
Предложенный метод генерирует более реалистичные видео, достоверно воспроизводя взаимодействие ракетки и мяча в сквоше и скоординированные движения тела при выполнении сальто.

Подобно шаману, вызывающему духа реализма из цифрового хаоса, авторы работы стремятся обуздать неустойчивость генеративных моделей. PhyGDPO, как сложное заклинание, использует групповую оптимизацию предпочтений и физически обоснованные награды, чтобы заставить видео выглядеть убедительно. Учитывая, что любая модель — лишь временное усмирение хаоса, внедрение LoRA-Switch Reference представляется мудрой предосторожностью, позволяющей хоть немного продлить иллюзию порядка перед неизбежным столкновением с производственной средой. Как заметил Джеффри Хинтон: «Иногда лучше всего просто признать, что ты не знаешь». И в этом признании кроется истинная мудрость в машинном обучении.

Что дальше?

Работа, представленная в данной статье, лишь приоткрывает завесу над истинной проблемой генерации видео: не просто воспроизвести движение, но заставить его подчиняться законам, которые мы, люди, ощущаем интуитивно. PhyGDPO — это, скорее, алхимическая попытка обуздать хаос, чем строгое решение. Улучшение реализма — лишь побочный эффект, истинный вызов — в создании систем, способных предсказывать не только «что», но и «как» это произойдет, учитывая гравитацию, инерцию, да и вообще — здравый смысл.

Оптимизация на основе групповых предпочтений — интересный ход, но он лишь смещает проблему. Кто определяет эти предпочтения? И как избежать ситуации, когда система начинает генерировать видео, приятные для глаз, но лишенные всякой физической логики? Чистые данные — иллюзия, и любое обучение — это компромисс между идеальной моделью и грязной реальностью. Обучение с подкреплением, основанное на физических принципах, — это шаг в правильном направлении, но требует постоянного контроля и тонкой настройки.

В будущем, вероятно, потребуется отказ от попыток полного моделирования физики в каждом кадре. Возможно, более эффективным будет использование «физических якорей» — ключевых моментов, где законы физики соблюдаются строго, а между ними система будет «плавно» интерполировать движение. Но даже в этом случае, магия потребует крови — и GPU, разумеется. Пока же, каждая сгенерированная сцена — это всего лишь заклинание, работающее до первого столкновения с реальностью.


Оригинал статьи: https://arxiv.org/pdf/2512.24551.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-01 20:04