Звук как помощник зрения: Новые горизонты генерации видео

Автор: Денис Аветисян


Исследование показывает, что добавление аудиоинформации в процесс обучения моделей генерации видео значительно улучшает качество, реалистичность и физическую правдоподобность создаваемых роликов.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Архитектура AVFullDiT и Audio-Video Full Attention демонстрирует совместное предсказание скоростей видео и аудио посредством унифицированной функции потерь flow-matching, при этом AVFullDiT использует предварительно обученные блоки T2V/T2A, а AVFull-Attention применяет симметричный механизм MHSA к объединенной последовательности аудио-видео токенов, расширяя аудио-проекции адаптерными матрицами для согласованной обработки модальностей.
Архитектура AVFullDiT и Audio-Video Full Attention демонстрирует совместное предсказание скоростей видео и аудио посредством унифицированной функции потерь flow-matching, при этом AVFullDiT использует предварительно обученные блоки T2V/T2A, а AVFull-Attention применяет симметричный механизм MHSA к объединенной последовательности аудио-видео токенов, расширяя аудио-проекции адаптерными матрицами для согласованной обработки модальностей.

В работе продемонстрировано, что совместное шумоподавление аудио- и видеоданных в рамках диффузионных моделей способствует созданию более правдоподобных и физически корректных видео, приближая искусственный интеллект к пониманию мира.

Неочевидно, что добавление звуковой информации может улучшить качество генерируемого видео, даже если нас интересует только визуальная составляющая. В работе, озаглавленной ‘Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation’, исследуется, способно ли совместное шумоподавление аудио и видео повысить реалистичность и физическую правдоподобность генерируемых видеороликов. Полученные результаты впервые демонстрируют, что включение аудио в процесс обучения действительно улучшает качество видео, особенно в сложных сценах с активными движениями и контактами объектов. Может ли предсказание звука служить своего рода «привилегированным сигналом», помогающим модели лучше понимать причинно-следственные связи в мире и создавать более правдоподобные динамические сцены?


Шёпот Хаоса: Вызов Реалистичной Мультимодальной Генерации

Создание видеоматериалов, синхронизированных с соответствующим звуковым сопровождением, по-прежнему представляет собой серьезную проблему для современных систем искусственного интеллекта. Часто генерируемые видеофрагменты демонстрируют неестественность и разобщенность, что проявляется в несовпадении движений губ с речью, асинхронности звуковых эффектов с визуальными событиями или общей несогласованности между визуальным и звуковым контентом. Данные несоответствия возникают из-за сложности моделирования тонких взаимосвязей между визуальными и слуховыми сигналами, необходимых для создания правдоподобных сцен. Несмотря на значительный прогресс в области генеративных моделей, достижение полной синхронизации и естественности в видео и звуке остается сложной задачей, требующей дальнейших исследований и разработок.

Существующие методы генерации мультимодального контента, объединяющего видео и звук, зачастую испытывают трудности в воспроизведении тонкой взаимосвязи между визуальными и слуховыми элементами, что приводит к неестественности и диссонансу в создаваемых сценах. Проблема заключается не просто в синхронизации изображения и звука, а в моделировании комплексного взаимодействия: звук должен правдоподобно отражаться от поверхностей, изменяться в зависимости от положения источника и наблюдателя, а визуальные элементы — соответствовать акустическому ландшафту. Недостаточное внимание к этим нюансам приводит к тому, что даже технически совершенные сцены могут казаться зрителю нереалистичными и лишенными глубины, поскольку не учитывается сложность физического мира, в котором звук и изображение неразрывно связаны.

Существенная проблема в создании реалистичных мультимодальных данных заключается в сложности моделирования базовых физических принципов. Искусственный интеллект часто сталкивается с трудностями в обеспечении правдоподобного взаимодействия объектов, что приводит к неестественному поведению или даже к ситуации, когда объекты избегают столкновения, несмотря на логичную необходимость контакта. Эта неспособность адекватно учитывать физические законы, такие как гравитация, инерция и столкновения, проявляется в несогласованности визуальных и звуковых элементов, снижая общее впечатление реалистичности генерируемого контента. Успешное преодоление этой проблемы требует разработки более сложных моделей, способных учитывать физические свойства объектов и их взаимодействие друг с другом в виртуальном пространстве.

Современные методы генерации мультимодального контента, несмотря на значительный прогресс, сталкиваются с серьезными ограничениями в масштабируемости и вычислительной эффективности. Создание высококачественных, сложных сцен, включающих синхронизированное видео и аудио, требует огромных ресурсов и времени обработки. Существующие алгоритмы часто оказываются неспособными генерировать детализированные визуальные элементы и реалистичные звуковые ландшафты одновременно, особенно при увеличении разрешения и продолжительности генерируемого контента. Это связано с экспоненциальным ростом вычислительной сложности, требующей оптимизации архитектур моделей и разработки новых подходов к параллельным вычислениям. Несмотря на использование мощных графических процессоров и специализированных аппаратных ускорителей, достижение приемлемой скорости генерации и сохранения высокого качества остается сложной задачей, ограничивающей практическое применение этих технологий в областях, требующих генерации контента в реальном времени или больших объемах.

Архитектура AVSyncRoPE обеспечивает синхронизацию видео и аудио, масштабируя временные позиции аудиопотока для соответствия видео, что улучшает обучение видео и обеспечивает более точную аудиовизуальную синхронизацию.
Архитектура AVSyncRoPE обеспечивает синхронизацию видео и аудио, масштабируя временные позиции аудиопотока для соответствия видео, что улучшает обучение видео и обеспечивает более точную аудиовизуальную синхронизацию.

AVFullDiT: Эффективная Архитектура Совместного Обучения

Архитектура AVFullDiT реализует параметрически-эффективный подход к совместному обучению аудио- и видеоданных, повторно используя существующие, предварительно обученные модели преобразования текста в видео и текста в аудио. Такой подход позволяет избежать необходимости обучения с нуля больших моделей для каждой модальности, значительно снижая вычислительные затраты и требования к объему данных. Вместо этого, AVFullDiT адаптирует и объединяет возможности уже существующих моделей, используя их как строительные блоки для решения задачи совместного обучения. Это достигается за счет использования Variational Autoencoder (VAE) для кодирования обеих модальностей в общее латентное пространство и последующего взаимодействия этих представлений посредством механизма AVFull-Attention.

Архитектура AVFullDiT использует вариационный автоэнкодер (VAE) для кодирования аудио- и видеоданных в общее латентное пространство. VAE преобразует входные данные каждой модальности в вероятностное распределение в латентном пространстве, позволяя моделировать неопределенность и генерировать новые данные. Это общее латентное пространство служит основой для кросс-модального рассуждения, поскольку позволяет модели находить соответствия и взаимосвязи между аудио- и видеоданными, представленными в едином векторном пространстве. Кодирование в общее латентное пространство упрощает задачу совместного обучения, поскольку модель может напрямую сравнивать и взаимодействовать с представлениями обеих модальностей без необходимости сложных механизмов преобразования данных.

Ключевым нововведением в архитектуре AVFullDiT является механизм межмодального внимания AVFull-Attention, который развивает концепцию традиционного Cross-Attention. В отличие от стандартного Cross-Attention, где происходит сопоставление признаков между двумя модальностями, AVFull-Attention обеспечивает более детальное взаимодействие аудио- и видеопризнаков. Это достигается за счет расширения механизма внимания, позволяющего учитывать более широкий контекст и сложные взаимосвязи между признаками различных модальностей, что приводит к улучшению качества представления и, как следствие, повышению эффективности совместного обучения аудио- и видеоданных. Механизм позволяет модели более эффективно извлекать и использовать информацию из обеих модальностей для решения задач, требующих мультимодального понимания.

Для обеспечения синхронизации аудио- и видеоданных в AVFullDiT используется AVSyncRoPE — модифицированная схема ротационного позиционного кодирования. Традиционное ротационное позиционное кодирование (RoPE) применяется для кодирования позиционной информации токенов, однако AVSyncRoPE адаптировано для работы с разными частотами дискретизации аудио- и видеопотоков. В частности, AVSyncRoPE масштабирует матрицу вращения, применяемую к токенам, на основе отношения частот дискретизации аудио и видео, $f_{audio}$ и $f_{video}$ соответственно. Это позволяет эффективно выравнивать временные оси двух модальностей, обеспечивая корректное взаимодействие между аудио- и видео-представлениями в процессе кросс-модального внимания и улучшая качество генерации мультимодального контента.

Сравнительный анализ T2AV и T2V показывает, что оба подхода успешно описывают содержание видео- и аудиодорожек текстом, при этом визуальное движение наглядно представлено в примере (c), а подробные результаты с реальными аудио- и видеоданными доступны в приложении.
Сравнительный анализ T2AV и T2V показывает, что оба подхода успешно описывают содержание видео- и аудиодорожек текстом, при этом визуальное движение наглядно представлено в примере (c), а подробные результаты с реальными аудио- и видеоданными доступны в приложении.

Flow Matching для Реалистичной Динамики и Валидации

AVFullDiT использует целевую функцию Flow Matching, которая заключается в предсказании скоростей в латентном пространстве. Этот подход позволяет модели обучаться, прогнозируя изменения состояний, что способствует генерации более реалистичных движений и динамики. В отличие от традиционных методов, которые могут напрямую моделировать конечные состояния, Flow Matching фокусируется на промежуточных траекториях, обеспечивая плавность и физическую правдоподобность генерируемых видео. Обучение с использованием предсказания скоростей позволяет модели лучше понимать и воспроизводить сложные взаимосвязи между аудио и визуальными данными, что критически важно для создания согласованного и реалистичного мультимодального контента.

Для оценки модели AVFullDiT был использован датасет ALT-Merge, представляющий собой тщательно подобранную компиляцию сложных аудио-видео бенчмарков. Данный датасет включает в себя различные сценарии и условия, предназначенные для всесторонней проверки способности модели к синхронизации аудио и видео, а также к генерации реалистичных и правдоподобных движений. Результаты оценки на ALT-Merge продемонстрировали высокую производительность AVFullDiT в задачах, требующих точной координации между аудио и видео потоками, подтверждая эффективность предложенного подхода к моделированию динамики.

В ходе экспериментов подтверждено, что AVFullDiT значительно улучшает синхронизацию аудио и видео, а также снижает частоту возникновения физически неправдоподобных событий. Оценка на наборе данных The Greatest Hits показала улучшение на 3.14% по показателю Physics Metric (Physical Commonsense), что свидетельствует о повышенной реалистичности генерируемых динамических сцен и более точном моделировании физических взаимодействий. Данный показатель измеряет соответствие генерируемого видео базовым принципам физики и здравому смыслу.

Обучение модели проводилось на крупномасштабном наборе данных VGGSound, что позволило обеспечить богатый объем данных для изучения мультимодальных связей между аудио и видео. В результате, на подмножестве AV-Tight этого же набора данных, модель продемонстрировала улучшение показателя согласованности с текстом на 2.70%. Это свидетельствует о способности модели формировать более логичные и когерентные видеопоследовательности, соответствующие текстовому описанию, за счет эффективного использования данных VGGSound для выявления и моделирования взаимосвязей между различными модальностями.

Неправильная аннотация видеозапросов в TheGreatestHits приводит к неверной генерации, в то время как аудиозапросы корректно указывают на желаемый результат преобразования текста в видео (T2AV).
Неправильная аннотация видеозапросов в TheGreatestHits приводит к неверной генерации, в то время как аудиозапросы корректно указывают на желаемый результат преобразования текста в видео (T2AV).

К Всеобъемлющей Модели Мира для Искусственного Интеллекта

Система AVFullDiT вносит значительный вклад в создание всесторонней «Модели Мира» для искусственного интеллекта, генерируя синхронизированное аудио и видео, строго соответствующее законам физики. Эта способность позволяет создавать реалистичные и правдоподобные симуляции, что критически важно для обучения ИИ пониманию окружающего мира. Воссоздавая визуальные и звуковые сцены, подчиняющиеся физическим принципам, AVFullDiT не просто генерирует контент, но и формирует основу для развития систем ИИ, способных к более сложному и адекватному взаимодействию с реальностью. Такой подход открывает перспективы для создания роботов, способных к безопасной навигации в реальном мире, иммерсивных виртуальных реальностей и автоматизированного создания контента, отличающегося высокой степенью реализма и правдоподобия.

Разработка способности генерировать синхронизированное аудио и видео, соответствующее законам физики, открывает широкие перспективы для различных областей применения. В робототехнике это позволит создавать более реалистичные симуляции для обучения роботов, улучшая их способность взаимодействовать с реальным миром. В сфере виртуальной реальности подобная технология способна значительно повысить уровень погружения, создавая более правдоподобные и убедительные виртуальные среды. Кроме того, в области создания контента, AVFullDiT предоставляет инструменты для автоматической генерации высококачественных визуальных материалов, что может значительно упростить и ускорить процесс производства фильмов, игр и других мультимедийных продуктов. Возможность масштабирования до более сложных сцен и длинных видеопоследовательностей делает данную технологию особенно перспективной для будущих разработок в этих и других областях.

Эффективность архитектуры AVFullDiT открывает возможности для моделирования значительно более сложных сцен и продолжительных видеопоследовательностей. В отличие от предыдущих подходов, требующих огромных вычислительных ресурсов, AVFullDiT демонстрирует способность генерировать физически правдоподобные аудиовизуальные данные с приемлемыми затратами. Это позволяет создавать более реалистичные симуляции, необходимые для обучения роботов, разработки иммерсивных виртуальных сред и автоматизированного создания контента. Возможность масштабирования до более длинных и детализированных видео открывает перспективы для моделирования динамических процессов и взаимодействия сложных объектов в виртуальном пространстве, что является ключевым шагом на пути к созданию полноценных «моделей мира» для искусственного интеллекта.

Результаты экспериментов демонстрируют значительное улучшение физической правдоподобности генерируемых видео благодаря модели AVFullDiT. В частности, зафиксировано повышение на 2.51% по показателю Physics Metric (Physical Commonsense) в наборе данных AV-Tight из VGGSound, что свидетельствует о более точном соблюдении законов физики в динамичных сценах. Дополнительно, модель показала улучшение на 1.03% при работе с набором данных Landscape, подтверждая способность реалистично воспроизводить физические взаимодействия в более широком контексте. Эти результаты укрепляют позицию AVFullDiT как важного шага к созданию искусственного интеллекта, способного генерировать визуальный контент, соответствующий реальным физическим принципам.

Исследование, посвящённое совместному шумоподавлению аудио и видео при генерации видео, лишь подтверждает старую истину: мир не существует в вакууме. Авторы пытаются построить более правдоподобные «мировые модели», добавляя звук к визуальному потоку. Это всё равно, что пытаться угадать, что находится за углом, завязав глаза, но прислушиваясь к шагам. Как метко подметил Дэвид Марр: «Восприятие — это не пассивное получение информации, а активное построение гипотез». В данном случае, гипотеза о физической согласованности видео становится более обоснованной, когда к ней добавляется аудиальный контекст. И, конечно, как и любое заклинание, эта модель сработает до тех пор, пока реальность не внесёт свои коррективы, заставив пересмотреть все исходные данные.

Что дальше?

Представленная работа, конечно, шепчет о связи слуха и зрения, но эта связь, как и любая истина, проявляется лишь в тени несовершенства. Улучшение качества генерируемого видео — лишь побочный эффект. Главный вопрос остаётся нетронутым: насколько вообще возможно построить «мировую модель», не являющуюся лишь сложной карикатурой на реальность? Данные, даже мультимодальные, лишь отражают хаос, а не подчиняют его.

Следующий этап, вероятно, лежит в признании этой принципиальной неопределённости. Вместо стремления к «фотореализму», стоит искать способы моделирования ошибок — тех самых артефактов, которые делают мир узнаваемым, а не просто гладким. Отказ от точных ответов в пользу правдоподобных иллюзий — вот где кроется потенциал. Особый интерес представляет исследование того, как «физический здравый смысл» проявляется не в точности симуляции физических законов, а в искусстве их нарушения.

Возможно, истинный прогресс потребует отхода от представления о модели как о репрезентации мира, и перехода к пониманию её как инструмента для создания новых, альтернативных реальностей. И тогда, «шум» перестанет быть помехой, а станет материалом для творчества.


Оригинал статьи: https://arxiv.org/pdf/2512.02457.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-03 12:33