Автор: Денис Аветисян
Все давно привыкли к тому, что крупные мультимодальные модели неплохо справляются с базовыми задачами по видео, но когда дело доходит до настоящего, многошагового рассуждения – натыкаются на стену. Ведь недостаточно просто «видеть» – нужно еще и «думать», а это требует архитектур, выходящих за рамки простого масштабирования. Но вот, когда мы уже отчаялись увидеть что-то принципиально новое, появляется работа “Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence”, предлагающая учить модели рассуждать как детектив, анализируя улики на разных уровнях детализации. Но действительно ли можно «натренировать» искусственный интеллект на дедукцию, или это просто еще одна иллюзия, созданная тщательно подобранными данными и оптимизированными алгоритмами?
Иллюзия Интеллекта: Ограничения Современных Моделей Видео-Рассуждения
Фронтирные мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющие результаты в базовых задачах обработки видео – распознавание объектов, ответы на простые вопросы, генерация подписей. Но давайте не будем обманываться – это лишь иллюзия интеллекта. Настоящее многошаговое рассуждение – это совсем другой уровень сложности, и пока что MLLM с этим справляются плохо. Как всегда, мы видим, что блестящая демонстрация на синтетических данных разбивается о суровую реальность производственной среды.
Традиционные подходы сталкиваются с серьезными трудностями при накоплении визуальной информации во времени и логическом выводе на её основе. Они как будто пытаются построить небоскрёб на зыбучих песках. Модели захватывают отдельные кадры, но теряют контекст, не могут удержать в голове всю цепочку событий. И ладно бы это было просто ограничение вычислительных ресурсов – нет, проблема глубже. Они просто не умеют думать. Простого масштабирования недостаточно, чтобы заставить машину рассуждать, как человек – или хотя бы как опытный детектив.
Эффективное видео-рассуждение требует не просто видеть, но и мыслить – способности, требующей архитектур, выходящих за рамки простого увеличения количества параметров. Это как пытаться решить сложную задачу, имея лишь калькулятор вместо мозга. Все эти «революционные» подходы, основанные на масштабировании, в конечном итоге приводят к техническому долгу, который придется выплачивать годами. В итоге, мы получаем сложную систему, которую никто не понимает, и которая ломается в самый неподходящий момент. И не удивляйтесь, если завтра это назовут «искусственным интеллектом» и получат инвестиции.
Настоящая проблема в том, что модели не умеют устанавливать причинно-следственные связи, делать выводы на основе неполной информации, адаптироваться к меняющимся условиям. Они как попугаи – могут повторять слова, но не понимают их значения. И пока мы не научим их думать, все эти «инновации» останутся лишь красивой оберткой над пустой коробкой. Впрочем, кого это когда-либо останавливало?
Conan: Рациональный Подход к Рассуждениям над Видео, или Как Не Повторять Чужие Ошибки
Авторы данной работы представляют Conan – фреймворк, призванный решить проблему комплексного видео-рассуждения. Подход основан на имитации детективного процесса: идентификации, сбора и интерпретации улик. Нельзя сказать, чтобы это была революция – скорее, рациональное применение существующих инструментов к сложной задаче. Как показывает практика, большинство «инноваций» оказываются лишь переупаковкой старых решений.
В основе Conan лежит систематический подход, реализуемый через Joint Identification–Reasoning–Action (AIR) RLVR. Это означает, что фреймворк не просто пытается «угадать» ответ, а проводит всесторонний анализ видеоматериала. Вместо того, чтобы полагаться на «магию» глубокого обучения, авторы предлагают четко определенный алгоритм. Это, конечно, не всегда элегантно, но зато надёжно.
Ключевым элементом Conan является Frame Identification – механизм, позволяющий отделить важные улики от постороннего шума. Идея проста: зачем тратить вычислительные ресурсы на обработку нерелевантной информации? В условиях ограниченных ресурсов это, пожалуй, самое разумное решение. Многие разработчики тратят время на оптимизацию алгоритмов, в то время как истинная экономия достигается за счёт сокращения объёма обрабатываемых данных.
Evidence Reasoning – ещё один важный компонент фреймворка. Он позволяет синтезировать накопленные визуальные улики с исходным вопросом, выстраивая связное повествование. Это, по сути, попытка заставить машину мыслить логически. Конечно, в реальности всё гораздо сложнее, но авторы добились неплохих результатов.
Авторы утверждают, что Conan способен не только находить ответы на вопросы, но и объяснять, как он к ним пришёл. Это, конечно, хорошо, но важно помнить, что объяснения машины могут быть обманчивы. Не стоит слепо доверять алгоритму – всегда нужно критически оценивать полученные результаты. В конце концов, машина – это всего лишь инструмент, а ответственность за принятие решений лежит на человеке.
Нельзя сказать, что Conan – это прорыв в области видео-рассуждений. Скорее, это прагматичное решение, основанное на здравом смысле и рациональном использовании ресурсов. И, возможно, именно такие решения в конечном итоге окажутся наиболее полезными на практике. Нам не нужно больше микросервисов – нам нужно меньше иллюзий.
Conan-91k: Датасет для Надежных Видео-Рассуждений, или Как Преодолеть Искусственную Сложность
Авторы работы столкнулись с привычной проблемой: красивые бенчмарки и датасеты часто оказываются оторваны от реальности. Обещают «революцию в видео-ризонинге», а на практике – очередная гонка за процентами на наборе данных, который через полгода устареет. Поэтому, они и взялись за создание Conan-91k – масштабного датасета, призванного не просто поднять точность моделей, а сделать их более устойчивыми и надежными.
В основе Conan-91k лежит GenS-Video-150K, содержащий плотные описания кадров, пары вопросов-ответов и, что важно, оценки релевантности каждого кадра. Но простого перечисления данных недостаточно. Авторы использовали продвинутую LLM Kimi K2 для генерации interleaved видео-текстовых цепочек рассуждений. Это позволило получить не просто метки, а полноценные annotations, демонстрирующие ход мысли, необходимый для решения задачи. Да, это потребовало вычислительных ресурсов, но, как справедливо отмечают авторы, «качественные данные стоят потраченных денег».
Особое внимание уделено сложности задач. Зачастую, датасеты состоят из однотипных примеров, что приводит к переобучению моделей. Чтобы этого избежать, авторы внедрили Evidence Difficulty-Aware Sampling (EDAS). Суть проста: чем сложнее задача, тем полезнее она для обучения. EDAS основан на Evidence Difficulty Index (EDI), который оценивает сложность рассуждений на основе пропорции и дисперсии релевантных кадров. Чем меньше полезных кадров и чем больше они разбросаны по времени, тем выше EDI и, соответственно, сложнее задача. Это позволяет построить прогрессивный учебный план: от простых примеров к сложным, что, как известно, гораздо эффективнее, чем хаотичное перемешивание данных.
Авторы не питают иллюзий насчет «бесконечной масштабируемости». Они понимают, что Conan-91k – это лишь один шаг на пути к созданию действительно интеллектуальных систем. Но они надеются, что этот датасет станет прочной основой для дальнейших исследований и позволит разработчикам создавать более надежные и устойчивые модели видео-ризонинга. Ведь, в конце концов, главная задача – не просто получить высокий балл на бенчмарке, а создать систему, которая будет работать в реальном мире, несмотря на все его непредсказуемости и шумы.
Conan: Проверка на Прочность, или Как Отделить Зерна от Плевел
Итак, все эти «революционные» фреймворки… Обычно заканчивается тем, что ты просто перекладываешь баги с одного места на другое. Но ладно, допустим, исследователи действительно что-то сделали. Они утверждают, что их Conan, эта штука для «рассуждений» над видео, прошла проверку на практике. Что ж, посмотрим. Они провели испытания на целой куче бенчмарков: VRBench, Video-Holmes, LongVideoReason… да там целый список. Зачем так усложнять, непонятно. Раньше хватало и одного-двух, чтобы понять, работает или нет.
Они особо подчеркивают, что Conan умеет работать с длинными видео. Мол, на LongVideoBench, MLVU и Video-MME показывает хорошие результаты. Ну, это хоть логично. С короткими роликами каждый справится. Интересно, сколько ресурсов потребовалось, чтобы это всё обработать? Наверняка, серверная ферма размером с небольшой город.
Ещё они хвастаются, что Conan хорошо справляется с Human-P&C и LVBench. Зачем вообще нужны такие сложные задачи? В реальной жизни проблемы обычно намного проще, но и решения у них обычно менее элегантные. Ну да ладно.
Что касается процесса обучения, они там что-то замутили с Multi-Stage Progressive Cold-Start. Начинают с SFT, потом что-то добавляют, потом ещё что-то… Короче, как обычно: сначала всё просто, потом всё усложняется, а в итоге ты уже не понимаешь, зачем всё это было нужно. Главное, чтобы хоть работало. Они утверждают, что в итоге получилась «полноценная система рассуждений». Ну-ну. Посмотрим, как она себя покажет в реальном мире.
В общем, пока всё выглядит как очередной исследовательский проект. Время покажет, станет ли из него что-то полезное, или просто пылиться на полке вместе с другими «инновациями». Хотя, если честно, я уже ни на что не надеюсь. Всё новое — это просто старое с худшей документацией.
Да, конечно, очередная нейросеть, которая «решает» задачи, как Шерлок Холмс. Только вот, как показывает практика, этот «Холмс» начинает выдавать гениальные умозаключения ровно до первого же сложного случая. Особенно учитывая, как они мучаются с multi-scale visual evidence, как описано в статье. Вспоминается цитата Эндрю Ына: “AI is hype, but also very powerful.” И в точку! Всё это красиво звучит про chain-of-thought reasoning и dataset construction, но рано или поздно продакшен скажет своё слово. Мы тут строим эти сложные системы, а достаточно одной неожиданной комбинации кадров, чтобы всё полетело к чертям. Всё новое – это старое, только с другими багами. В общем, ждём алертов в три часа ночи.
Что дальше?
Итак, «Конан». Ещё одна модель, которая «рассуждает» как детектив. Забавно, учитывая, что настоящие детективы тоже ошибаются. Мы научили машину искать «доказательства» в видео, а потом удивляемся, когда она принимает неверные решения. Впрочем, это прогресс. Раньше она просто падала. Главный вопрос теперь не в том, насколько хорошо «Конан» находит кадры, а в том, как долго прод продержится, когда мы попытаемся масштабировать это на реальные, неидеальные видеопотоки. Набор данных, конечно, прекрасен… пока не встретит первый случай, когда камера дрожит, или освещение меняется.
Я подозреваю, что следующая волна проблем будет связана с объяснимостью. Нам нужно не просто «правильное» решение, а понимание почему модель пришла к этому решению. Иначе это просто ещё один чёрный ящик, который выдаёт ответы, и мы гадаем, что у него там внутри. И, конечно, не стоит забывать про «тесты». Они, как всегда, лишь форма надежды, а не гарантия.
В конечном счете, «Конан» — это очередной шаг к автоматизации. Но я уже видел, как скрипт удалял прод. Поэтому, давайте не будем строить иллюзий. Каждая «революционная» технология завтра станет техдолгом. И нас ждёт бесконечный цикл разработки, деплоя и отладки.
Оригинал статьи: https://arxiv.org/pdf/2510.20470.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/