StreamingVLM: когда даже бесконечный видоряд не сломает RoPE.

Автор: Денис Аветисян

Все давно смирились с тем, что обработка видео, особенно длинных потоков, требует либо непомерных вычислительных ресурсов, либо жертв в понимании контекста – либо память перегружена, либо «картинка» рвется на части. Но что если появилась система, “StreamingVLM: Real-Time Understanding for Infinite Video Streams”, которая обещает не просто обрабатывать, а именно понимать бесконечный видеопоток в реальном времени? Неужели они действительно смогли обойти фундаментальное ограничение квадратичной сложности, или это очередная красивая обертка над тем же самым техническим долгом, который мы будем выплачивать годами?

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

Существующие модели для видео не выдерживают длительность: либо теряют нить повествования, либо увязают в задержках. StreamingVLM — это компромисс, который позволяет вести связный комментарий в реальном времени, не забывая о прошлом.

Долгосрочное понимание видео: когда теория встречается с реальностью

Итак, мы снова говорим о «долгосрочном понимании видео». Звучит как что-то из области научной фантастики, не так ли? На практике это означает, что нужно заставить нейронную сеть не забывать, что происходило в видео пять минут назад. Просто, да? Ну, не совсем. Традиционные подходы, где мы пытаемся скормить модели весь видеопоток сразу, страдают от квадратичного роста вычислительных затрат. Чем длиннее видео, тем больше памяти требуется, и тем медленнее всё работает. В итоге, мы получаем систему, которая может обработать только короткие ролики, и всё.

Некоторые пытаются решить проблему, разбивая видео на небольшие фрагменты. Но тут возникает другая проблема – модель теряет контекст. Представьте, что вы смотрите фильм, а вам каждые десять секунд показывают только один фрейм. Вы ничего не поймёте! Модель не может удержать в памяти все детали, и в итоге, она просто генерирует бессвязный набор фраз. Она, как тот самый скрипт, который удалил прод – вроде и работает, но результат плачевен.

Иллюстрация StreamingVLM в сравнении с существующими VLMs. TT – длина видео, WW – размер скользящего окна. (a) Полное внимание: стоимость O(T<sup>2</sup>), неограниченная память, ухудшение за пределами длины обучения. (b) Скользящее окно (без перекрытия): ограниченная память, но короткие фрагменты нарушают связность, длинные фрагменты увеличивают задержку. (c) Скользящее окно (с перекрытием): повторные вычисления для каждого окна приводят к высокой задержке. (d) StreamingVLM (Скользящее окно + Повторное использование KV): повторное использование состояний attention sinks, короткое визуальное окно и длинное текстовое окно, сохранение истории при низкой задержке. “Процент побед” - доля побед в сравнении с GPT-4o mini (судья: GPT-5). — Иллюстрация StreamingVLM в сравнении с существующими VLMs. TT – длина видео, WW – размер скользящего окна. (a) Полное внимание: стоимость O(T²), неограниченная память, ухудшение за пределами длины обучения. (b) Скользящее окно (без перекрытия): ограниченная память, но короткие фрагменты нарушают связность, длинные фрагменты увеличивают задержку. (c) Скользящее окно (с перекрытием): повторные вычисления для каждого окна приводят к высокой задержке. (d) StreamingVLM (Скользящее окно + Повторное использование KV): повторное использование состояний attention sinks, короткое визуальное окно и длинное текстовое окно, сохранение истории при низкой задержке. “Процент побед” — доля побед в сравнении с GPT-4o mini (судья: GPT-5).

Мы, конечно, можем сказать, что «нужно больше ресурсов». Но давайте будем честными: не всегда есть возможность купить ещё сотню видеокарт. Поэтому, приходится искать более элегантные решения. Решения, которые позволяют модели не забывать, что происходило в видео, не тратя при этом всю память компьютера. И вот тут-то и начинаются настоящие инженерные подвиги. Подвиги, которые часто остаются за кадром, но без которых невозможен прогресс. И, поверьте, эти подвиги гораздо сложнее, чем просто запустить ещё один тест. Тесты – это, конечно, хорошо, но они не заменят реального понимания проблемы.

StreamingVLM: когда прагматизм побеждает амбиции

Авторы предлагают StreamingVLM – попытку примирить амбиции и реальность в области обработки видео-языковых моделей. Зачастую, все эти «революционные» архитектуры оказываются сложными в реализации и требуют ресурсов, которых у большинства просто нет. StreamingVLM – это, скорее, прагматичный подход, направленный на то, чтобы хоть как-то заставить существующие модели работать с потоковым видео без неминуемого краха.

Основная идея заключается в создании единой схемы, которая бы согласовывала этапы обучения и последующей работы с данными. По сути, они пытаются избежать ситуации, когда модель, прекрасно справляющаяся с короткими роликами, внезапно теряет ориентацию, столкнувшись с длинным видеопотоком. Все эти «полноценные» методы внимания, конечно, хороши, но они быстро превращаются в неподъемную ношу, когда дело доходит до реального времени.

Схема работы StreamingVLM.Мы сохраняем 512 токенов внимания для стабилизации внимания, окно из 512 последних токенов для сохранения долгосрочной памяти и короткое окно видения, охватывающее 16 секунд для отслеживания текущих действий. Мы используем Contiguous RoPE: индексы смещаются, чтобы оставаться в пределах фиксированного диапазона, сохраняя позиции в распределении и в пределах длины обучения.

Вместо этого, авторы используют скользящее окно внимания, что, конечно, не ново, но они добавляют несколько ухищрений, чтобы не потерять контекст. В частности, они применяют так называемые «точки внимания», которые, по их словам, помогают сохранить долгосрочную память. Звучит красиво, но, вероятно, это просто еще один способ отложить неизбежное. И, конечно, они используют Contiguous RoPE, чтобы индексы не вылезали за рамки разумного. В общем, ничего принципиально нового, просто аккуратная сборка из известных компонентов.

В итоге, авторы предлагают решение, которое, вероятно, не станет панацеей, но может помочь хоть как-то справиться с задачей обработки потокового видео. Остается надеяться, что оно не превратится в очередной пример «технического долга», который придется расплачивать в будущем. А то ведь всегда найдется кто-то, кто скажет: «Мы же говорили, что это не сработает».

Inf-Streams: когда синтетика встречается с реальностью

Авторы, как это обычно бывает, столкнулись с необходимостью не просто построить модель, но и обеспечить её работу в реальных условиях. Очевидно, что “магические” решения, прекрасно работающие на синтетических данных, быстро теряют привлекательность, когда дело доходит до потокового видео и необходимости принимать решения в режиме реального времени. Поэтому, помимо архитектуры модели, значительные усилия были направлены на создание подходящего датасета и системы валидации.

Для обучения StreamingVLM использовался Inf-Streams-Train – масштабный набор данных, содержащий более 4000 часов спортивных комментариев. Это не просто груда видео и текста, а тщательно отобранный материал, призванный научить модель понимать динамику спортивных событий и генерировать связные комментарии. Впрочем, даже самый большой датасет бесполезен, если модель не обучена эффективно его использовать.

Поэтому авторы применили стратегию обучения с перекрывающимися блоками (overlapped chunk training). Идея проста, но эффективна: модель обучается на коротких фрагментах видео, но эти фрагменты перекрываются, что позволяет ей улавливать зависимости между кадрами и поддерживать связность комментариев. Это своего рода имитация процесса, происходящего во время потокового вывода, когда модель получает новый кадр и должна немедленно сгенерировать комментарий, опираясь на предыдущие кадры. Как говорится, “готовь сани летом”.

Точность расшифровки (выигрыш по сравнению с базовыми показателями). Базовые показатели с и без блочной обработки уступают; StreamingVLM превосходит сильные модели, такие как GPT-4o, и генерирует убедительные комментарии.(Верхние индексы для Inf-Streams-Eval:∞= бесконечность;†= длина блока 100 с. На Livecc-Sports-3K CC LiveCC имеет только один режим и не может быть сравнен с самим собой, поэтому показан “–”.

Но даже самый лучший датасет и самая продуманная стратегия обучения ничего не стоят, если нет надёжной системы валидации. Поэтому авторы разработали Inf-Streams-Eval – новый эталон, предназначенный для оценки возможностей модели в области понимания видео в реальном времени и удержания долгосрочного контекста. Иными словами, эталон призван проверить, способна ли модель не просто “выплёвывать” слова, но и действительно понимать, что происходит на экране, и генерировать связные комментарии на протяжении длительного времени. Надо признать, что это непростая задача, учитывая, что спортивные события часто происходят с высокой скоростью и требуют от модели быстрой реакции и точного понимания контекста. Авторы, видимо, исходили из принципа: “если модель не может справиться со спортом, она не справится и с реальной жизнью”.

Впрочем, что там говорить – авторы, как обычно, перемудрили. Построили сложную систему, придумали эталон, собрали датасет. А потом ещё и удивляются, почему всё работает не так, как хотелось бы. Ну да ладно, главное – они пытались. Как говорится, “лучше попробовать и потерпеть неудачу, чем не попробовать вовсе”.

StreamingVLM: прогресс или очередная иллюзия?

Итак, что мы имеем в итоге? Ещё одну «революционную» технологию? Возможно. Но если присмотреться, StreamingVLM действительно кое-что меняет. Исследователи, по-видимому, сумели поднять планку в области понимания видео, особенно когда речь идёт о задачах, требующих долгосрочного контекста, вроде комментирования спортивных трансляций в прямом эфире. Это, знаете ли, не просто распознавание объектов на картинке, а понимание происходящего, предвидение событий… и всё это в режиме реального времени.

Эффективность этой системы, конечно, поражает. Возможность проводить вычисления в реальном времени открывает двери для множества применений. Интерактивные видео-ассистенты, иммерсивные среды… звучит красиво, правда? Главное, чтобы не пришлось потом полгода отлаживать баги, возникшие из-за интеграции с существующими системами.

Стабильность во времени. Каждый тестовый видеоролик разделен на пять сегментов по 20%. StreamingVLM поддерживает почти постоянную скорость побед по сравнению с Sliding Window w/ Overlap, в то время как Full Attention и Sliding Window w/o Overlap ухудшаются или остаются далеко позади.

Что касается перспектив, то тут, как всегда, есть куда расти. Можно поиграть с размерами окна, сделать их адаптивными. Поэкспериментировать с механизмами «поглощения внимания» (attention sinks) – вдруг удастся ещё немного повысить производительность и снизить вычислительные затраты. Но, давайте будем честными, всё это – лишь незначительные улучшения. В конечном итоге, все новые технологии – это просто старое с худшей документацией. Главное – чтобы всё работало, когда придёт время запускать систему в продакшн. И тогда, может быть, мы сможем ненадолго забыть о кошмарах отладки и технических долгах.

И да, не стоит забывать о фундаментальных ограничениях. Даже самая совершенная система не сможет предсказать будущее. И даже если она и сможет, то кто-то наверняка найдёт способ сломать её предсказания. Такова жизнь. Но, по крайней мере, у нас есть ещё одна интересная игрушка для исследования. И, может быть, она принесёт немного пользы. А может, и нет. Время покажет.

Вот они, эти волшебные видео-языковые модели… StreamingVLM, значит. Обещают понимать бесконечные потоки видео в реальном времени. Звучит красиво, как обещания менеджеров про «автоматизацию всего и сразу». Как говорит Fei-Fei Li: “AI is not about replacing humans, but augmenting them.” Да, конечно, «усиление». Только вот я уже вижу, как этот самый «стриминг» упрется в ограничение памяти, а KV-кэш начнет вылезать боком. Они там гордятся своим Contiguous RoPE и reuse… Подождите, пока кто-нибудь попробует прогнать через это видео с котиками в 4K, и вся «реальность» пойдет прахом. В общем, как всегда – элегантная теория, а на практике – бесконечный поиск утечек памяти и попытки удержать все на плаву.

Что дальше?

StreamingVLM, конечно, элегантное решение. Но давайте будем честны: мы не «понимаем» видео в реальном времени, мы просто быстрее перебираем параметры, пока продакшен не начнёт выкидывать ошибки. Идея выравнивания обучения и инференса хороша, пока не столкнёшься с тем фактом, что данные в продакшене никогда не будут похожи на данные в обучающей выборке. KV-кэш – это, по сути, попытка обмануть энтропию, и она рано или поздно победит. Мы не деплоим – мы отпускаем.

Следующий шаг – это, вероятно, ещё более сложные механизмы внимания, ещё более хитрые способы повторного использования кэша. Но не стоит забывать главное: багтрекер – это дневник боли, и он скоро наполнится жалобами на «неожиданное» поведение модели в условиях реального мира. Особенно, когда кто-то решит, что можно немного «оптимизировать» конвейер обработки видео.

Я вижу, как нас ждёт эпоха «гипер-оптимизированных» моделей, которые сломаются при первом же столкновении с чем-то, что не было предусмотрено в обучающей выборке. И мы снова будем говорить о «необходимости более robustных решений». У нас не DevOps-культура, у нас культ DevOops. И это неизбежно.

Оригинал статьи: https://arxiv.org/pdf/2510.09608.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/