Видео как промпт: очередная «революция» в генерации, или как мы заново изобрели костыли.

Все мы устали от бесконечной гонки за реалистичной генерацией видео, где каждый новый метод требует тонкой настройки под конкретный стиль или контекст. Но что если вместо того, чтобы мучительно пытаться заставить модель понять пиксельные условия, просто показать ей, что мы хотим, как пример? И вот, когда казалось, что все уже известно, появляется “Video-As-Prompt: Unified Semantic Control for Video Generation”, предлагающая использовать референсные видео как прямые подсказки, но не является ли это просто элегантным способом переложить проблему интерпретации семантики на плечи тех, кто эти референсные видео изначально и создал?







