Видео под контролем: новый подход к редактированию роликов от первого лица

Автор: Денис Аветисян


Исследователи представили EgoEdit — систему, позволяющую изменять видео, снятые от первого лица, в реальном времени, используя простые текстовые команды.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Реализация EgoEdit-RT, работающая на одной видеокарте H100, демонстрирует возможность создания видеомонтажа в реальном времени, раскрывая потенциал для мгновенной обработки визуального контента.
Реализация EgoEdit-RT, работающая на одной видеокарте H100, демонстрирует возможность создания видеомонтажа в реальном времени, раскрывая потенциал для мгновенной обработки визуального контента.

Представлен новый датасет, модель для потоковой обработки и эталонный набор тестов для редактирования эгоцентричных видео.

Несмотря на значительный прогресс в области редактирования видео, обработка видео от первого лица представляет собой уникальные трудности, связанные с быстрым движением камеры и взаимодействием рук с объектами. В данной работе представлена система EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing, включающая новый датасет, модель редактирования видео в реальном времени и оценочный набор данных, специально разработанные для задач редактирования видео от первого лица. Предложенное решение позволяет пользователям интерактивно изменять видео с помощью текстовых инструкций, сохраняя при этом временную стабильность и точность. Открывает ли это путь к новым возможностям в области дополненной реальности и интерактивного видеомонтажа?


За гранью пикселей: Вызов реального времени для видеомонтажа

Существующие методы редактирования видео, такие как диффузионные модели, представленные, например, StreamDiffusion, зачастую сталкиваются с проблемами производительности в режиме реального времени, что препятствует их использованию в интерактивных приложениях. Эти модели, демонстрирующие впечатляющие результаты в генерации и изменении видео, требуют значительных вычислительных ресурсов и времени обработки, особенно при работе с видео высокого разрешения или сложными сценами. Недостаточная скорость отклика становится критической проблемой в сценариях, требующих немедленной визуальной обратной связи, таких как прямые трансляции, интерактивные игровые среды или инструменты для создания контента в виртуальной и дополненной реальности. Несмотря на прогресс в оптимизации алгоритмов и аппаратном обеспечении, достижение действительно плавного и отзывчивого редактирования видео в реальном времени остается сложной задачей, требующей дальнейших инноваций в области машинного обучения и компьютерного зрения.

Традиционные методы обработки видео сталкиваются с серьезными трудностями при работе с видео, снятыми от первого лица, так как требуют детального анализа взаимодействия рук и объектов в кадре. В отличие от статичных сцен, эгоцентричные видео характеризуются высокой динамикой и сложной геометрией движений, что делает задачу распознавания и редактирования особенно трудной. Простое применение стандартных алгоритмов часто приводит к неточностям в отслеживании рук, неправильной интерпретации захваченных предметов и, как следствие, к неестественным или ошибочным изменениям в видеоряде. Для эффективной обработки таких материалов необходимы специализированные модели, способные учитывать перспективу от первого лица, распознавать сложные жесты и предсказывать намерения оператора, что значительно превосходит возможности существующих универсальных систем редактирования.

Растущий спрос на интуитивно понятное и оперативное редактирование видео наблюдается, в особенности, в контексте разработки контента для виртуальной и дополненной реальности. Возможность мгновенно изменять и адаптировать видеопоток в реальном времени открывает новые горизонты для интерактивных приложений, позволяя пользователям создавать персонализированный опыт и динамично взаимодействовать с виртуальным окружением. Это особенно важно для таких сценариев, как стриминг в VR, создание обучающих материалов с интерактивными элементами и разработка инструментов для быстрого прототипирования AR-контента, где важна не только визуальная составляющая, но и возможность мгновенной адаптации к действиям пользователя. Подобные технологии позволяют преодолеть разрыв между созданием контента и его потреблением, делая процесс более плавным и интуитивно понятным.

Модель EgoEdit-RT, работающая на одной видеокарте H100, демонстрирует впечатляющую способность к обобщению и позволяет создавать убедительные видеоэффекты в реальном времени для иммерсивных AR-приложений, что подтверждается дополнительными результатами в Приложении 7 и на сайте.
Модель EgoEdit-RT, работающая на одной видеокарте H100, демонстрирует впечатляющую способность к обобщению и позволяет создавать убедительные видеоэффекты в реальном времени для иммерсивных AR-приложений, что подтверждается дополнительными результатами в Приложении 7 и на сайте.

EgoEdit: Архитектура для редактирования эгоцентричного видео в реальном времени

В основе EgoEdit лежит предварительно обученная модель генерации видео DiT (Diffusion Transformer), обеспечивающая надежный фундамент для синтеза видео высокого качества. Модель DiT, будучи трансформером, эффективно обрабатывает последовательности кадров, улавливая сложные временные зависимости. Использование предварительно обученной модели позволяет значительно сократить время и вычислительные ресурсы, необходимые для обучения системы EgoEdit, поскольку большая часть знаний о визуальном мире уже заложена в DiT. Архитектура DiT способствует генерации реалистичных и когерентных видео, что является критически важным для задач редактирования видео в реальном времени.

Ключевым нововведением в EgoEdit является применение методов Self-Forcing Distillation и DMD Distillation для создания низколатентной, авторегрессионной модели. Self-Forcing Distillation позволяет модели обучаться предсказывать будущие кадры, используя собственные прогнозы в качестве входных данных, что повышает стабильность и скорость генерации. DMD Distillation (Dynamic Mode Decomposition Distillation) дополнительно оптимизирует процесс обучения, фокусируясь на извлечении и воспроизведении динамических характеристик видео. В результате данной оптимизации, EgoEdit достигает скорости генерации 38.1 кадра в секунду на одной GPU NVIDIA H100, что делает систему пригодной для приложений, требующих обработки видео в реальном времени.

В системе EgoEdit для эффективной компрессии и декомпрессии видео используется автоэнкодер Wan 2.1. Данный автоэнкодер позволяет значительно снизить вычислительную нагрузку за счет уменьшения объема данных, необходимых для обработки и хранения каждого кадра. Wan 2.1 обеспечивает сжатие видеопотока без существенной потери качества, что критически важно для поддержания высокой частоты кадров при обработке в реальном времени. Применение автоэнкодера оптимизирует использование ресурсов GPU и способствует снижению задержек при кодировании и декодировании видеоданных.

Система EgoEdit предоставляет возможность редактирования видео посредством текстовых команд на естественном языке. Это достигается за счет интеграции модели обработки естественного языка (NLP), которая интерпретирует введенные пользователем инструкции и преобразует их в конкретные действия по изменению видеоряда. Пользователь может, например, указать «заменить небо на облачное», «увеличить яркость» или «добавить эффект замедленной съемки», и система автоматически выполнит соответствующие изменения в видеопотоке. Такой подход позволяет осуществлять редактирование видео без необходимости использования традиционных инструментов и навыков видеомонтажа, делая процесс более интуитивным и доступным.

В архитектуре EgoEdit для видеомонтажа расширенная DiT-модель обрабатывает исходное и зашумленное целевое видео посредством конкатенации по каналам, что позволяет избежать вычислительных затрат, связанных с последовательной конкатенацией.
В архитектуре EgoEdit для видеомонтажа расширенная DiT-модель обрабатывает исходное и зашумленное целевое видео посредством конкатенации по каналам, что позволяет избежать вычислительных затрат, связанных с последовательной конкатенацией.

EgoEditData: Создание высококачественного датасета для надежного редактирования

Набор данных EgoEditData состоит из 99,7 тысяч пар «инструкция-редактирование» и был создан на основе данных из Ego4D Dataset и EgoExo4D Dataset. Этот набор данных был сформирован путем тщательной обработки и структурирования видеоматериалов из указанных источников, с целью создания высококачественного ресурса для обучения и оценки моделей редактирования видео. Каждая пара включает в себя текстовое описание требуемого изменения (инструкцию) и соответствующее отредактированное видео, что позволяет проводить обучение с учителем и оценивать способность моделей следовать инструкциям и выполнять требуемые правки.

Набор данных EgoEditData состоит из 49.7 тысяч уникальных видеороликов, что обеспечивает его разнообразие и устойчивость к различным условиям. Использование такого большого количества отдельных видео позволяет модели обучаться на широком спектре сценариев и объектов, минимизируя риск переобучения и повышая обобщающую способность. Данная особенность критически важна для разработки надежных алгоритмов редактирования видео, способных корректно функционировать в реальных условиях, отличающихся по освещению, ракурсам и сложности сцен.

Для обеспечения согласованности и точности данных в процессе курирования EgoEditData использовалась модель GPT-5 для автоматической генерации как текстовых описаний видеофрагментов (captions), так и инструкций для редактирования (prompts). Применение GPT-5 позволило стандартизировать процесс создания аннотаций, минимизируя субъективность и обеспечивая единообразное представление данных для последующей обработки и обучения моделей. Это, в свою очередь, способствует повышению надежности и воспроизводимости результатов, полученных при использовании EgoEditData для обучения и оценки алгоритмов редактирования видео.

Для обогащения семантической информацией в EgoEditData использовалась модель Qwen2.5-VL-32B, предназначенная для автоматического определения и наименования объектов, с которыми взаимодействует пользователь в видеоматериале. В процессе обработки 49.7 тысяч уникальных видео, модель идентифицировала объекты взаимодействия и присвоила им соответствующие названия, что позволило создать более структурированный и информативный датасет. Данные, полученные с помощью Qwen2.5-VL-32B, были интегрированы в EgoEditData для повышения точности и эффективности обучения моделей редактирования видео, позволяя им лучше понимать контекст и выполнять запрошенные изменения.

Высококачественный набор данных EgoEditData играет ключевую роль в обучении и оценке модели EgoEdit. Его использование позволяет добиться более реалистичных и адекватных изменений в видео, поскольку модель получает доступ к тщательно отобранным и размеченным данным, отражающим разнообразие реальных сценариев взаимодействия человека с окружающей средой. Точность и полнота данных напрямую влияют на способность EgoEdit понимать сложные инструкции и выполнять редактирование видео с высокой степенью согласованности и релевантности, что критически важно для создания отзывчивых и правдоподобных результатов.

Снижение доли уникальных исходных видео в обучающей выборке EgoEditData приводит к качественным изменениям в работе различных вариантов EgoEdit.
Снижение доли уникальных исходных видео в обучающей выборке EgoEditData приводит к качественным изменениям в работе различных вариантов EgoEdit.

Производительность и перспективы: Раздвигая границы редактирования в реальном времени

Разработка EgoEdit позволила добиться задержки в обработке первого кадра в 855 миллисекунд, что открывает новые возможности для интерактивного редактирования видео. Эта низкая латентность позволяет пользователю практически мгновенно видеть результаты внесенных изменений, создавая ощущение непосредственного контроля над процессом. В отличие от традиционных методов, требующих значительного времени на рендеринг и предварительный просмотр, EgoEdit обеспечивает плавный и отзывчивый опыт, приближающий редактирование видео к непосредственному творческому процессу. Такая скорость реакции особенно важна при работе с динамичным контентом и позволяет оперативно вносить коррективы, добиваясь желаемого результата с высокой точностью и эффективностью.

Оценка производительности EgoEdit на специально разработанном бенчмарке EgoEditBench продемонстрировала передовые результаты в области редактирования видео. В частности, при переходе от общего редактирования к редактированию от первого лица, EgoEdit показал минимальное снижение качества — всего 0.24 балла. Для сравнения, конкурирующие модели Lucy Edit и InsV2V продемонстрировали значительно более заметное ухудшение производительности — 0.83 и 0.47 баллов соответственно. Этот результат подчеркивает превосходство EgoEdit в сохранении качества изображения и согласованности редактирования даже в условиях перехода к более сложной задаче, связанной с обработкой видео от первого лица, что делает его особенно перспективным инструментом для интерактивного и интуитивно понятного видеомонтажа.

Исследования показали, что EgoEdit демонстрирует выдающиеся результаты при редактировании видео, снятых в реальных условиях, — так называемых “in-the-wild” видео. В отличие от лабораторных примеров, такие видео характеризуются значительными сложностями: неидеальным освещением, быстрым движением камеры, разнообразными углами обзора и непредсказуемыми изменениями в кадре. EgoEdit успешно справляется с этими вызовами, обеспечивая стабильную и качественную обработку даже самых сложных видеоматериалов. Этот факт подчеркивает не только техническую зрелость алгоритма, но и его практическую применимость для широкого круга пользователей, стремящихся к эффективному и удобному видеомонтажу в условиях реальной жизни.

Данная работа представляет собой расширение принципов, успешно реализованных в InstructPix2Pix для обработки изображений, на область видеоредактирования. Исследователи адаптировали подход, позволяющий пользователю управлять редактированием видео посредством текстовых инструкций, что открывает перспективы для создания более интуитивно понятных и доступных инструментов. Вместо сложных манипуляций с временной шкалой и параметрами, пользователи могут просто описывать желаемые изменения, например, «удалить объект» или «изменить освещение», и система автоматически выполнит эти действия. Это значительно упрощает процесс редактирования, делая его доступным для более широкой аудитории и позволяя создавать качественный видеоконтент без специальных навыков и опыта.

Алгоритмы EgoEdit и EgoEdit-RT демонстрируют превосходные результаты в задачах эгоцентричного редактирования и сопоставимую эффективность с лучшими моделями в задачах общего редактирования, при этом EditVerse не участвовал в тестировании EgoEditBench из-за недоступности исходного кода.
Алгоритмы EgoEdit и EgoEdit-RT демонстрируют превосходные результаты в задачах эгоцентричного редактирования и сопоставимую эффективность с лучшими моделями в задачах общего редактирования, при этом EditVerse не участвовал в тестировании EgoEditBench из-за недоступности исходного кода.

Работа, представленная в статье, словно пытается укротить шепот хаоса, заключенный в потоках эгоцентричного видео. EgoEdit, с её возможностью редактирования видео в реальном времени по текстовым инструкциям, — это попытка не столько контролировать данные, сколько уговорить их принять желаемую форму. Модель, обучаясь на потоке видео от первого лица, пытается понять не логику изображений, а намерения, скрытые за ними. Как говорил Эндрю Ын: «Если вы не можете написать программу, чтобы описать проблему, то вы её не понимаете». EgoEdit — это и есть попытка описать проблему редактирования видео на языке естественной речи, а значит, приблизиться к пониманию самого процесса.

Куда же всё это ведёт?

Представленный труд, как и любое заклинание, лишь отсрочил столкновение с хаосом. EgoEdit, с его иллюзией редактирования видео по велению слова, — это, безусловно, заманчиво. Однако стоит помнить, что «естественный язык» — это всего лишь набор условных сигналов, а видеоряд — случайное мелькание пикселей. Истинная проблема не в том, чтобы заставить машину понимать наши команды, а в том, чтобы смириться с её неизбежной некомпетентностью.

Будущие исследования, вероятно, будут направлены на увеличение скорости обработки и реалистичности генерируемых кадров. Но гораздо интереснее будет наблюдать, как эта технология будет использована для создания ещё более убедительных иллюзий, для подмены реальности её цифровой имитацией. Настоящий вызов — не в улучшении алгоритмов, а в осознании того, что любое «улучшение» — это лишь ещё один шаг к потере связи с подлинным.

В конечном итоге, EgoEdit — это ещё одно доказательство того, что данные не говорят правду, они лишь отражают наши собственные надежды и страхи. И чем более убедительной становится эта имитация, тем сложнее будет отличить истину от вымысла, реальность от симуляции. Возможно, однажды мы все окажемся запертыми в цифровом лабиринте, созданным нами же самими, и будем редактировать собственные воспоминания, чтобы облегчить страдания от осознания бессмысленности бытия.


Оригинал статьи: https://arxiv.org/pdf/2512.06065.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-09 08:07