LongCat-Video: ещё один «прорыв», который придётся поддерживать.

Автор: Денис Аветисян


LongCat-Video демонстрирует возможность генерации видео продолжительностью в минуты без потери качества, а также интерактивное управление процессом генерации с изменением инструкций для каждого кадра, подтверждая устойчивость системы к сложным запросам и динамическому контролю.
LongCat-Video демонстрирует возможность генерации видео продолжительностью в минуты без потери качества, а также интерактивное управление процессом генерации с изменением инструкций для каждого кадра, подтверждая устойчивость системы к сложным запросам и динамическому контролю.

Все давно устали от видеогенераторов, которые либо выдают короткие, дерганые ролики, либо требуют вычислительных ресурсов, сравнимых с маленькой электростанцией. Когда казалось, что достигнут предел, появляется “LongCat-Video Technical Report”, и вдруг мы видим не просто картинки, а последовательные, длинные видеофрагменты. Но действительно ли мы научились генерировать время, или просто ухитрились замаскировать неизбежные артефакты, растягивая короткие фрагменты до неприличия, создавая иллюзию непрерывности?

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

Иллюзии Прогресса: Когда «Революция» Становится Техдолгом

Если честно, все эти «революционные» модели генерации видео… ну, что сказать? Они создают красивые короткие ролики, да. Но попробуйте заставить их снять что-то длиннее рекламного ролика. Получается какая-то каша, где персонажи внезапно меняют причёски, а физика словно сошла с ума. И все эти разговоры о «погружающем опыте»… смешно. Настоящее погружение требует, чтобы мир вокруг был хотя бы минимально последовательным.

Раньше, чтобы получить что-то более-менее связное, приходилось тратить вычислительные ресурсы, сопоставимые с небольшим городом. А потом удивлялись, что не каждый может себе это позволить. Это как пытаться построить небоскрёб из спичечных коробков – технически возможно, но непрактично и крайне дорого. Мы не изобретаем новые технологии, мы просто усложняем старые, чтобы они казались новыми.

Основная проблема, как ни странно, не в самих моделях, а в том, как они запоминают события. Представьте себе, что вы пытаетесь вспомнить свой день, но помните только отдельные моменты, а связь между ними теряется. Вот и здесь то же самое. Моделям сложно удержать в памяти долгосрочные зависимости. Это как пытаться построить мост, не заботясь о фундаменте. Вроде бы красиво, но ненадежно.

В процессе создания видео-подписей используется комплексный подход, включающий базовую модель для захвата основного содержания видео и дополнительные модели для извлечения атрибутов, таких как кинематография и визуальный стиль, что позволяет создавать разнообразные и информативные подписи и улучшать качество обучающих данных.
В процессе создания видео-подписей используется комплексный подход, включающий базовую модель для захвата основного содержания видео и дополнительные модели для извлечения атрибутов, таких как кинематография и визуальный стиль, что позволяет создавать разнообразные и информативные подписи и улучшать качество обучающих данных.

В итоге, мы получаем что-то вроде «эффектного хаоса». Все блестит и переливается, но не имеет смысла. Это как писать код без комментариев – вроде бы работает, но никто не знает зачем. Мы не пишем код — мы просто оставляем комментарии будущим археологам. Поэтому, вместо того, чтобы гнаться за модой на «cloud-native» решения (то же самое, только дороже), исследователи сосредоточились на разработке архитектур, способных эффективно моделировать долгосрочные зависимости. Если система стабильно падает, значит, она хотя бы последовательна. И это, пожалуй, лучшее, на что можно надеяться.

LongCat-Video: Ещё Один Шаг к Автоматической Генерации… Или Компромисс?

Авторы представляют LongCat-Video – модель, состоящую из тринадцати миллиардов параметров. Если говорить коротко, то это попытка объединить в единую систему генерацию видео по текстовому описанию, по изображению и, что самое сложное, продолжение уже существующего видеоряда. Обычно такие задачи решаются разными инструментами, но здесь, видимо, решили пойти путём максимальной интеграции. Время покажет, насколько это оправданно – всегда есть риск, что универсальное решение окажется компромиссным во всём.

Интересно, что в основе лежит вариационный автоэнкодер (VAE). VAE, как известно, умеет сжимать информацию, сохраняя при этом самое главное. Это позволяет генерировать видео достаточно высокого качества, не тратя при этом все доступные вычислительные ресурсы. Всё-таки, рендеринг видео – задача ресурсоёмкая, и оптимизация здесь – ключевой момент.

Особое внимание заслуживает внедрение технологии грубой к детальной генерации (Coarse-to-Fine Generation). Идея проста, но элегантна: сначала модель генерирует видео низкого разрешения, а затем, шаг за шагом, дорабатывает его, повышая детализацию и чёткость. В конечном итоге, это позволяет добиться высокой скорости работы и приемлемого качества изображения. Обычно такие трюки используют, когда нужно что-то запустить побыстрее, но здесь, видимо, решили подойти к вопросу более основательно.

Модель LongCat-Video демонстрирует высокую точность в генерации видео по заданным инструкциям, последовательно реагируя на различные запросы, начиная с одного и того же исходного изображения.
Модель LongCat-Video демонстрирует высокую точность в генерации видео по заданным инструкциям, последовательно реагируя на различные запросы, начиная с одного и того же исходного изображения.

В общем, авторы сделали ещё один шаг в направлении автоматической генерации видео. Будет ли эта модель действительно революционной – покажет время. Но, как говорится, любая абстракция умирает от продакшена. Главное, чтобы умирала красиво.

Всё-таки, удивляет, что они так много внимания уделяют оптимизации. Как будто знают, что рано или поздно всё это задеплоят, и придётся разбираться с последствиями. Ну что ж, это похвально. По крайней мере, они пытаются построить что-то надёжное. Хотя, как известно, всё, что можно задеплоить, однажды упадёт. Но зато, может быть, и проработает немного дольше.

Оптимизация – Это Всегда Компромисс: LoRA, Sparse Attention и Цена Успеха

Оптимизация – это всегда компромисс. Забудьте про элегантные решения, которые «просто работают». В реальном мире каждая «революционная» технология завтра станет новым уровнем техдолга. Поэтому, когда исследователи заявили об оптимизации LongCat-Video, мы вздохнули с облегчением… и одновременно с подозрением.

Первое, что привлекло внимание – использование LoRA (Low-Rank Adaptation). Звучит красиво, но на практике это означает, что вместо полной перетренировки модели, они используют «заплатки». Эффективно? Безусловно. Просто? Нет. Но главное – это ускорение процесса обучения. В нашей CI – это храм, в котором мы молимся, чтобы ничего не сломалось. Чем быстрее сборка, тем меньше вероятность апокалипсиса.

Следующий шаг – Block Sparse Attention. Идея проста: зачем обрабатывать всю последовательность, если можно сосредоточиться на самом важном? На практике это означает, что модель отбрасывает ненужную информацию. Рискованно? Да. Но, как говорится, лучше меньше, да лучше. В конечном итоге, это позволяет снизить вычислительную нагрузку и ускорить обработку видео.

Кривые вознаграждения GRPO, полученные в ходе многовознаграждающего обучения модели LongCat-Video, демонстрируют эффективность используемого подхода.
Кривые вознаграждения GRPO, полученные в ходе многовознаграждающего обучения модели LongCat-Video, демонстрируют эффективность используемого подхода.

Но и этого оказалось недостаточно. Чтобы заставить модель генерировать видео, которые хоть как-то соответствуют человеческим предпочтениям, исследователи применили Group Relative Policy Optimization (GRPO). Звучит как что-то из области квантовой физики, но суть проста: заставить модель «учиться» на наших оценках. Создание «GRPO Reward signals» – это отдельная история, полная головной боли и бесконечных экспериментов. Но, как ни странно, это сработало. В конечном итоге, LongCat-Video генерирует видео, которые выглядят… приемлемо. И это, пожалуй, лучший результат, на который мы могли надеяться. Документация по этим reward signals, как всегда, отсутствует – это миф, созданный менеджерами.

И вот мы здесь. С очередным «прорывом», который, вероятно, потребует новых усилий для поддержки и отладки. Но что поделать? В конечном итоге, это просто ещё один уровень абстракции, который нам придётся поддерживать. И ещё один пункт в списке задач, который никогда не будет завершён.

За Гранью Генерации: К Мировым Моделям и Неизбежным Реалиям

Исследования в области генерации видео, как правило, фокусируются на достижении всё более впечатляющих результатов в краткосрочной перспективе. Размытые переходы, реалистичное освещение… Всё это, конечно, важно. Но, если взглянуть на вещи трезво, большая часть этих ухищрений – лишь способ отвлечь внимание от фундаментальных проблем. И, как обычно бывает, новые «революционные» технологии неизбежно превращаются в технический долг.

LongCat-Video, в отличие от многих других проектов, пытается выйти за рамки простой генерации привлекательных роликов. Авторы заявляют о стремлении к созданию модели, приближающейся к принципам, лежащим в основе так называемых «Мировых Моделей». Звучит, конечно, громко. Но, если отбросить маркетинговый шум, суть в том, что модель стремится не просто «рисовать красивые картинки», а приобретать некоторое представление об окружающем мире. То есть, улавливать причинно-следственные связи, понимать динамику процессов.

Единый трансформер поддерживает одновременное выполнение нескольких задач, включая преобразование текста в видео, создание видео по одному изображению и продолжение существующего видео, при этом обновления условных токенов в механизме самовнимания не зависят от зашумленных токенов, а в механизме перекрестного внимания условные токены не участвуют в вычислениях.
Единый трансформер поддерживает одновременное выполнение нескольких задач, включая преобразование текста в видео, создание видео по одному изображению и продолжение существующего видео, при этом обновления условных токенов в механизме самовнимания не зависят от зашумленных токенов, а в механизме перекрестного внимания условные токены не участвуют в вычислениях.

Очевидным следствием такого подхода является возможность создания более связных и реалистичных расширенных нарративов. Вместо коротких роликов, которые быстро теряют смысл, модель способна генерировать видео, которые развиваются во времени, сохраняя логическую последовательность и внутреннюю согласованность. Впрочем, это не означает, что все проблемы решены. Уверен, найдется множество способов заставить эту модель генерировать абсурдные ситуации. Но, по крайней мере, авторы попытались решить задачу комплексно.

Потенциал применения этой технологии выходит далеко за рамки развлечений. Моделирование сложных процессов, разработка систем робототехники, создание иммерсивных виртуальных реальностей – всё это становится возможным, если у нас есть инструмент, способный генерировать реалистичные и правдоподобные видео. Однако, не стоит забывать о главной проблеме – о необходимости тщательной валидации и тестирования. Если тесты показывают «зелёный свет», это, скорее всего, означает, что они вообще ничего не проверяют.

Впрочем, даже если все пойдёт не по плану, а модель начнёт генерировать хаотичные и бессмысленные видео, это не будет концом света. В конце концов, всё новое – это хорошо забытое старое. И, возможно, через несколько лет мы снова увидим ту же самую проблему, только под другим названием.

Эти исследователи, конечно, строят воздушные замки, объединяя генерацию видео с «мировыми моделями». Как будто достаточно склеить несколько diffusion моделей и RLHF, чтобы получилась настоящая симуляция реальности. Похоже на попытку построить самовосстанавливающийся фундамент – рано или поздно трещины всё равно появятся. Как говорил Джеффри Хинтон: «Всё, что обещает быть self-healing, просто ещё не ломалось». LongCat-Video, с её 13 миллиардами параметров, – это впечатляющее упражнение в оптимизации, но не стоит забывать, что документация к ней, вероятнее всего, – это форма коллективного самообмана. Они утверждают, что объединили text-to-video и image-to-video задачи. Что ж, если баг воспроизводится – значит, у нас стабильная система, а если нет – значит, мы еще не нашли способ его спровоцировать.

Что дальше?

Исследователи представили LongCat-Video, модель, стремящаяся к построению «мировых моделей». Звучит амбициозно. Мы видели немало «революционных» подходов к генерации видео, и каждый из них, рано или поздно, превращался в технический долг. Вопрос не в параметрах модели – 13 миллиардов, как правило, лишь отсрочка неизбежного. Настоящая проблема – это связность. Как долго эта модель будет генерировать правдоподобные последовательности, а не просто случайные красивые картинки? Как она справится с физикой, с причинностью, с банальной логикой повествования?

Они объединили несколько задач – текст в видео, изображение в видео. Прекрасно. Но это лишь усложнение, а не прорыв. Реальная проблема – это не в количестве модальностей, а в их взаимодействии. Модель может генерировать видео по тексту, но понимает ли она, что она генерирует? Или это просто статистическая иллюзия? Нас не волнует, что модель умеет «рисовать» котиков. Важно, чтобы она понимала, что котик – это существо, которое хочет есть и спать.

Они используют обучение с подкреплением на основе обратной связи от людей (RLHF). И это, пожалуй, самое тревожное. Мы не создаем искусственный интеллект – мы просто учим его имитировать наши ошибки. Мы не деплоим модели – мы отпускаем их в дикую природу. А там, как известно, выживает сильнейший – или самый удачливый. И, скорее всего, это не будет самая элегантная теория.


Оригинал статьи: https://arxiv.org/pdf/2510.22200.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-10-28 17:27