Видео как инструмент мышления: новый подход к мультимодальному рассуждению

Автор: Денис Аветисян


Исследователи предлагают использовать модели генерации видео для решения задач, требующих логического анализа информации из разных источников.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Визуально-ориентированные задачи рассуждения требуют точного извлечения и обработки информации из визуальных данных для достижения логического вывода.
Визуально-ориентированные задачи рассуждения требуют точного извлечения и обработки информации из визуальных данных для достижения логического вывода.

В статье представлен новый подход к мультимодальному рассуждению, использующий генерацию видео, и продемонстрирована его эффективность на специально разработанном бенчмарке VideoThinkBench.

Несмотря на успехи моделей, рассуждающих с текстом и изображениями, существующие подходы ограничены представлением динамических процессов и единым пониманием мультимодальной информации. В работе ‘Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm’ предложен новый подход – «Рассуждение с Видео», использующий модели генерации видео для объединения визуального и текстового анализа во временном контексте. Результаты экспериментов на разработанном бенчмарке VideoThinkBench демонстрируют, что модель Sora-2 способна к эффективному решению задач как, ориентированных на визуальную информацию, так и требующих логического вывода на основе текста. Может ли парадигма «Рассуждения с Видео» стать основой для создания принципиально новых, более мощных мультимодальных систем искусственного интеллекта?


Преодолевая Границы Рассуждений: Вызов для Искусственного Интеллекта

Современные модели искусственного интеллекта часто сталкиваются с трудностями в сложных рассуждениях, требуя значительных вычислительных ресурсов для задач, интуитивно понятных человеку. Эта проблема особенно актуальна при интеграции визуальной и текстовой информации. Традиционные подходы, эффективные в распознавании образов, лишены способности динамически исследовать пространство решений – ключевого аспекта человеческого интеллекта. Они полагаются на заранее определенные шаблоны и не способны к гибкому применению знаний. Эти ограничения подчеркивают потребность в новых подходах, способных к более глубокому и гибкому рассуждению. Истинная эффективность рождается из гармонии симметрии и необходимости, где каждая операция имеет смысл.

В VideoThinkBench задачи, ориентированные на визуальное восприятие, решаются посредством рассуждений о визуальных элементах через рисование и воображение, включая головоломки на оценку расстояний, визуальные головоломки, ARC-AGI-2 и лабиринты, в то время как текстовые задачи решаются с помощью текстовых рассуждений, адаптированных из установленных эталонов, как демонстрируется на примере GSM8K.
В VideoThinkBench задачи, ориентированные на визуальное восприятие, решаются посредством рассуждений о визуальных элементах через рисование и воображение, включая головоломки на оценку расстояний, визуальные головоломки, ARC-AGI-2 и лабиринты, в то время как текстовые задачи решаются с помощью текстовых рассуждений, адаптированных из установленных эталонов, как демонстрируется на примере GSM8K.

Визуализация Мысли: Новый Подход к Рассуждениям

Концепция ‘Thinking with Video’ предполагает, что модели искусственного интеллекта должны генерировать видеопредставления своих шагов рассуждений, имитируя визуализацию решения проблем человеком. Этот подход расширяет ‘Цепочку Мыслей’ (Chain-of-Thought) за счет визуального измерения, обеспечивая более интуитивные и интерпретируемые процессы рассуждений. Явное отображение процесса решения позволяет моделям завоевать доверие и предоставляет возможности для анализа ошибок. Визуализация обеспечивает прозрачность и понятность работы модели, облегчая выявление и устранение проблем.

Модель принимает текстовый запрос и эталонное изображение, содержащие текст задачи и полное ее описание, представляя текстовый процесс решения и ответ в видео, озвучивая ответ в аудио, после чего ответы оцениваются независимо из видео и аудио с использованием подхода LLM-as-a-Judge, подробно описанного в разделе 2.3.2, и проверки соответствия человеку, представленной в разделе 8.4.2.
Модель принимает текстовый запрос и эталонное изображение, содержащие текст задачи и полное ее описание, представляя текстовый процесс решения и ответ в видео, озвучивая ответ в аудио, после чего ответы оцениваются независимо из видео и аудио с использованием подхода LLM-as-a-Judge, подробно описанного в разделе 2.3.2, и проверки соответствия человеку, представленной в разделе 8.4.2.

VideoThinkBench: Строгий Эталон для Оценки Рассуждений

VideoThinkBench представляет собой новый эталон для оценки способностей к рассуждению видео-генеративных моделей. Эталон включает ‘Визуально-ориентированные задачи’ (решение лабиринтов, головоломок) и ‘Текстово-ориентированные задачи’ (решение математических задач). Использование Sora-2 в качестве основы демонстрирует сравнимую производительность с сильными языковыми моделями (LLM) на ARC-AGI-2 (точность 1.3%). Модель также демонстрирует высокую точность в решении текстовых задач: 98.9% на GSM8K, 94.0% на MATH, 65.7% на GPQA-diamond, 53.3% на AIME, 76% на MMLU, 85.3% на MMLU-Pro, 59% на SuperGPQA-easy, 81.1% на MathVista, 62.6% на MathVision, 75.5% на MMMU и 90.1% на MMBench.

Визуальные головоломки, включающие задачи на раскрашивание и рисование фигур, выбранные и адаптированные из PuzzleVQA, используются для оценки способности к индуктивному мышлению, требуя от модели заполнить выделенную область правильным цветом или нарисовать правильную фигуру, что успешно продемонстрировано Sora-2.
Визуальные головоломки, включающие задачи на раскрашивание и рисование фигур, выбранные и адаптированные из PuzzleVQA, используются для оценки способности к индуктивному мышлению, требуя от модели заполнить выделенную область правильным цветом или нарисовать правильную фигуру, что успешно продемонстрировано Sora-2.

Совершенствование Рассуждений и Предотвращение Смещений

Модели, такие как Sora-2, в сочетании с самосогласованностью, демонстрируют улучшенные результаты в решении сложных задач рассуждения на платформе VideoThinkBench. Повышение производительности наблюдается при решении разнообразных задач, требующих визуального понимания и логических выводов. Wan2.5 использует модуль ‘Prompt Rewriter’, который улучшает текстоцентричное рассуждение путем преобразования проблем в явные визуальные инструкции. Этот подход позволяет моделям более эффективно интерпретировать запросы и генерировать соответствующие ответы. Крайне важно учитывать риск ‘утечки данных’ при оценке производительности, чтобы заявленные результаты отражали истинные возможности модели в рассуждении, а не были искусственно завышены.

Sora-2 успешно решает пользовательский набор из 21 задачи на оценку расстояний и 1050 примеров, каждый из которых представляет собой вопрос с множественным выбором, включающий входное изображение и текстовый запрос, автоматически оцениваемый и проверяемый, при этом в двух примерах Sora-2 добавляет текст
Sora-2 успешно решает пользовательский набор из 21 задачи на оценку расстояний и 1050 примеров, каждый из которых представляет собой вопрос с множественным выбором, включающий входное изображение и текстовый запрос, автоматически оцениваемый и проверяемый, при этом в двух примерах Sora-2 добавляет текст «Charlie» к вариантам, не являющимся «C», что дополнительно исследуется в разделе 9.2.

Исследование, представленное в данной работе, подчёркивает важность создания масштабируемых и устойчивых алгоритмов для мультимодального рассуждения. Концепция ‘Thinking with Video’ демонстрирует потенциал видеогенеративных моделей в решении задач, традиционно решаемых с помощью текста или изображений. Как однажды заметил Дэвид Марр: “Цель вычислительной теории – понять, как работает разум.” Эта фраза резонирует с основным посылом статьи – переосмыслением способов, которыми машины могут рассуждать, используя видео как носитель информации. Особенно важно, что предлагаемый новый бенчмарк (VideoThinkBench) позволяет оценить не только производительность модели, но и её способность к самосогласованию и обучению в контексте, что является ключевым аспектом для создания действительно интеллектуальных систем.

Что дальше?

Представленное исследование, хоть и демонстрирует обнадеживающие результаты в области многомодального рассуждения посредством генерации видео, не решает фундаментальный вопрос: действительно ли генерация видео является необходимым условием для истинного рассуждения, или это лишь элегантный, но, возможно, избыточный способ представления промежуточных шагов. В конечном счете, алгоритм должен быть доказуем, а не просто производить правдоподобные видеофрагменты.

Особое внимание следует уделить разработке более строгих критериев оценки, выходящих за рамки простого соответствия ответам. Самосогласованность, как отмечается в работе, – важный шаг, но она не гарантирует логической непротиворечивости. Необходимо искать метрики, которые бы позволяли верифицировать процесс рассуждения, а не только его результат. Очевидно, что существующие бенчмарки, включая VideoThinkBench, нуждаются в дальнейшем усложнении, чтобы отделить истинное понимание от статистических закономерностей.

Будущие исследования должны сосредоточиться на преодолении границ существующих моделей. Простое масштабирование, вероятно, приведет лишь к улучшению аппроксимации, но не к фундаментальному прорыву. Необходимо искать новые архитектуры, которые бы более эффективно моделировали причинно-следственные связи и позволяли выполнять более сложные формы абстрактного мышления. В конечном счете, красота алгоритма проявляется не в трюках, а в непротиворечивости его границ и предсказуемости.


Оригинал статьи: https://arxiv.org/pdf/2511.04570.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-07 15:32