Физика на глазах: Проверка моделей «зрения и языка»

Автор: Денис Аветисян


Новый бенчмарк QuantiPhy позволяет оценить, насколько хорошо современные модели понимают физические принципы, действующие на изображениях.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В рамках разработки QuantiPhy используется трехэтапный процесс: сбор разнообразных видеоматериалов из различных источников, последующая сегментация этих видео на фоне однородного цвета и, наконец, создание эталонных задач путём сопоставления каждого видео с набором троек, включающих априорные знания, вопросы и эталонные ответы, при этом каждая тройка классифицируется как относящаяся к $2D$ или $3D$ в зависимости от характера движения объекта относительно камеры.
В рамках разработки QuantiPhy используется трехэтапный процесс: сбор разнообразных видеоматериалов из различных источников, последующая сегментация этих видео на фоне однородного цвета и, наконец, создание эталонных задач путём сопоставления каждого видео с набором троек, включающих априорные знания, вопросы и эталонные ответы, при этом каждая тройка классифицируется как относящаяся к $2D$ или $3D$ в зависимости от характера движения объекта относительно камеры.

QuantiPhy — это количественный набор данных для оценки способностей моделей «зрение и язык» к логическому выводу, основанному на визуальной информации о движении и физике.

Несмотря на успехи современных мультимодальных моделей в понимании визуальной информации, их способность к количественному анализу физических свойств объектов остаётся малоизученной. В данной работе представлена новая методика оценки, реализованная в виде бенчмарка ‘QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models’, предназначенная для количественной оценки способности моделей к выводу кинематических характеристик движущихся объектов. Эксперименты показали, что современные модели, несмотря на кажущуюся правдоподобность, демонстрируют значительные погрешности в определении размера, скорости и ускорения объектов, опираясь преимущественно на априорные знания, а не на визуальные и текстовые данные. Сможет ли разработка более строгих критериев оценки приблизить мультимодальные модели к истинному пониманию физического мира?


За пределами качественного понимания: необходимость количественного физического рассуждения

Современные модели, объединяющие зрение и язык, демонстрируют впечатляющие способности в описании визуальной информации, однако их возможности в точном, количественном предсказании физических явлений остаются ограниченными. В то время как они успешно справляются с задачами, требующими качественного анализа — например, определение объекта или сцены — при необходимости вычислить конкретные физические параметры, такие как скорость, расстояние или масса, точность существенно снижается. Это связано с тем, что большая часть обучения этих моделей ориентирована на установление корреляций между визуальными данными и текстовыми описаниями, а не на понимание фундаментальных физических законов, регулирующих мир. В результате, модели могут генерировать правдоподобные, но неверные количественные оценки, что ставит под сомнение их способность к истинному физическому рассуждению и решению практических задач, требующих высокой точности, например, в робототехнике или научных исследованиях.

Существующие оценочные тесты для мультимодальных моделей, объединяющих зрение и язык, зачастую фокусируются на качественном понимании изображений, отвечая на вопросы типа «что здесь происходит?». Однако, такой подход упускает из виду критически важный аспект — способность модели к точному численному прогнозированию физических явлений. Вместо оценки “что” происходит, необходимо оценивать “сколько” — например, предсказывать скорость падения объекта, количество жидкости в сосуде или силу, необходимую для перемещения предмета. Отсутствие акцента на количественной точности не позволяет адекватно оценить, насколько хорошо модель действительно понимает физические принципы, лежащие в основе визуальной информации, и ограничивает прогресс в создании по-настоящему разумных систем искусственного интеллекта, способных взаимодействовать с физическим миром.

Истинное понимание физических явлений требует перехода от ответов на вопрос «что происходит?» к определению «насколько это произойдет?». Традиционные методы оценки, фокусирующиеся на качественном визуальном вопросно-ответном подходе, оказываются недостаточными для проверки способности модели предсказывать количественные характеристики физических процессов. Вместо простого распознавания объектов или описания сцен, необходимо оценивать, насколько точно модель предсказывает, например, траекторию движения объекта, величину силы, или время, необходимое для завершения определенного действия. Такой количественный подход, основанный на измерении и предсказании численных значений, таких как $v = \frac{s}{t}$, позволяет более объективно оценить степень понимания физических принципов и динамики со стороны модели, открывая новые возможности для ее улучшения и развития.

Оценка способности современных визуально-языковых моделей (ВЯМ) к пониманию физических процессов сталкивается с существенными трудностями без надежных количественных метрик. Недостаточно просто определить, что происходит на изображении; необходимо точно предсказывать, насколько что-то произойдет, например, траекторию движения объекта или величину силы, действующей на него. Отсутствие количественной оценки не позволяет эффективно выявлять слабые места ВЯМ в понимании физических закономерностей и, следовательно, затрудняет процесс их улучшения. Вместо качественного ответа на вопрос «что?», требуется точное предсказание «насколько?», что требует разработки новых бенчмарков и метрик, способных оценивать точность численных предсказаний, таких как $v = v_0 + at$, и, таким образом, продвигать ВЯМ к более глубокому пониманию физического мира.

На представленных примерах входных текстовых запросов и ответов демонстрируется процесс получения численных результатов кинематического вывода, включающий предоставление модели физических ограничений, глубинной информации и последующий анализ полученного ответа и извлечение из него числового значения.
На представленных примерах входных текстовых запросов и ответов демонстрируется процесс получения численных результатов кинематического вывода, включающий предоставление модели физических ограничений, глубинной информации и последующий анализ полученного ответа и извлечение из него числового значения.

QuantiPhy: Количественная оценка физического рассуждения

QuantiPhy представляет собой систему оценки, предназначенную для количественной оценки способности визуальных языковых моделей (VLM) выводить кинематические свойства объектов из визуальных данных. В рамках данной системы VLM анализируют визуальную информацию для определения $размера$, $скорости$ и $ускорения$ объектов, представленных на изображениях или видео. Оценка проводится на основе способности модели точно определять эти параметры, что позволяет объективно измерить ее понимание физических характеристик визуальной сцены и ее способность к логическому выводу на основе визуальной информации. Система поддерживает анализ как синтетических, так и реальных данных для обеспечения комплексной и надежной оценки.

Для обеспечения надежной оценки, фреймворк QuantiPhy использует как синтетические, так и реальные данные. Синтетические данные позволяют контролировать параметры сцены и создавать разнообразные сценарии с известными кинематическими свойствами, что необходимо для точной калибровки метрик. Реальные данные, полученные с использованием захвата изображений, вводят в процесс дополнительные факторы сложности, такие как шум, освещение и окклюзии, которые неизбежно присутствуют в реальных условиях. Комбинация этих двух типов данных обеспечивает всестороннюю проверку моделей визуального рассуждения, гарантируя их устойчивость к различным визуальным условиям и сложностям сцен.

В основе QuantiPhy лежит использование количественных метрик для точной оценки точности предсказаний моделей, что принципиально отличает его от субъективных оценок. Вместо качественного анализа, QuantiPhy оперирует численными показателями, такими как среднеквадратичная ошибка (RMSE) и средняя абсолютная ошибка (MAE) для измерения расхождений между предсказанными и фактическими значениями кинематических свойств — размера, скорости и ускорения. Это позволяет получить объективную и воспроизводимую оценку производительности моделей визуального рассуждения, а также сравнивать различные модели по конкретным числовым показателям, избегая неоднозначности, присущей субъективным оценкам.

QuantiPhy обеспечивает оценку возможностей визуальных языковых моделей (VLM) посредством непосредственной оценки числовой точности выводимых кинематических свойств, таких как размер, скорость и ускорение. В отличие от субъективных оценок, QuantiPhy использует количественные метрики для измерения расхождений между предсказанными значениями и истинными величинами, что позволяет получить детальное представление о точности модели. В частности, оценивается близость предсказанных значений к фактическим данным, выраженная в числовом формате, например, в виде среднеквадратичной ошибки (RMSE) или средней абсолютной ошибки (MAE). Это позволяет не только определить, насколько хорошо модель понимает физические принципы, но и выявить конкретные области, в которых требуются улучшения.

Набор данных QuantiPhy включает разнообразные видеоролики, демонстрирующие четыре комбинации задач, основанных на двумерных и трехмерных измерениях, а также на статических и динамических физических свойствах, что подробно описано в разделе 3.1 и представлено в дополнительных материалах.
Набор данных QuantiPhy включает разнообразные видеоролики, демонстрирующие четыре комбинации задач, основанных на двумерных и трехмерных измерениях, а также на статических и динамических физических свойствах, что подробно описано в разделе 3.1 и представлено в дополнительных материалах.

Генерация данных и контроль: создание надежной оценочной базы

Для генерации синтетических данных используется программное обеспечение Blender, позволяющее моделировать физически реалистичные сцены. Это достигается за счет точного контроля над параметрами симуляции, включая характеристики объектов, освещение и динамику движения. Использование физически обоснованного рендеринга в Blender позволяет создавать данные, максимально приближенные к реальным условиям, что критически важно для обучения и оценки моделей компьютерного зрения. Такой подход обеспечивает воспроизводимость и контролируемость процесса генерации данных, в отличие от сбора данных в реальных условиях.

Для расширения визуального разнообразия симулированных сред используется библиотека 3D-моделей Sketchfab. Данный ресурс предоставляет широкий спектр готовых моделей, позволяя создавать более реалистичные и разнообразные сцены для тренировки и оценки алгоритмов. Использование Sketchfab позволяет избежать трудоемкого процесса самостоятельного моделирования, значительно сокращая время разработки и увеличивая количество доступных объектов в симуляциях. Это особенно важно для задач, требующих обучения моделей на большом количестве различных визуальных данных.

Для оценки точности моделей, предсказывающих движение, используется анализ оптического потока. Данный метод позволяет вычислить вектор смещения каждого пикселя в последовательности кадров, предоставляя детальную информацию о движении объектов в сцене. Полученные данные об оптическом потоке служат эталонными (ground truth) значениями, с которыми сравниваются предсказания моделей. Использование синтетических данных, генерируемых с помощью Blender, в сочетании с анализом оптического потока, обеспечивает возможность получения высокоточных и полных эталонных данных, необходимых для надежной оценки производительности алгоритмов компьютерного зрения.

Сгенерированные данные, полученные с использованием Blender, демонстрируют низкий процент отбраковки — всего 3

Симуляция жестких тел демонстрирует реалистичное поведение кеглей при столкновении с шаром, полностью основанное на ньютоновской динамике и откликах на столкновения.
Симуляция жестких тел демонстрирует реалистичное поведение кеглей при столкновении с шаром, полностью основанное на ньютоновской динамике и откликах на столкновения.

Проверка предположений: выявление надежного физического понимания

Исследование посвящено изучению того, как визуально-языковые модели (ВЯМ) используют предшествующие знания в процессе физического рассуждения, и насколько они склонны опираться на потенциально вводящие в заблуждение предположения. Ученые выяснили, что ВЯМ зачастую не просто применяют физические принципы, но и активно эксплуатируют накопленный опыт и ожидания, сформированные на основе визуальных данных. Это может приводить к ошибкам в ситуациях, требующих нестандартного подхода или когда привычные закономерности нарушаются. В частности, модели демонстрируют тенденцию к экстраполяции знакомых сценариев на новые условия, даже если это противоречит фундаментальным физическим законам. Выявление этих скрытых предположений имеет ключевое значение для разработки более надежных и обобщающих систем искусственного интеллекта, способных к истинному физическому пониманию, а не просто к имитации наблюдаемых паттернов.

Исследование направлено на оценку устойчивости и способности к обобщению современных языковых моделей (VLMs) при решении задач физического моделирования. Для этого была применена методика, основанная на намеренном искажении устоявшихся физических правил — введении так называемых «контрфактических априорных знаний». Вместо стандартных законов физики, модели сталкивались с измененными правилами взаимодействия объектов, что позволяло выявить степень их зависимости от неявных предположений о мире. Анализ производительности моделей в условиях стандартных и контрфактических сценариев демонстрирует, насколько сильно они полагаются на предварительно заложенные знания, и выявляет ограничения в способности к адаптации и логическому выводу в условиях, отличных от привычных.

В рамках исследования применялась методика «цепочки рассуждений» (Chain-of-Thought Prompting), стимулирующая большие языковые модели (ВЯМ) к детализированному изложению хода своих умозаключений. Этот подход позволяет не только проследить логику, лежащую в основе принятых решений, но и выявить скрытые предубеждения или ошибочные предположения, на которые модель опирается при решении физических задач. Анализ цепочек рассуждений демонстрирует, что ВЯМ часто используют неявные знания о мире, которые могут быть как полезными, так и вводящими в заблуждение, особенно в ситуациях, требующих экстраполяции за пределы стандартных сценариев. Использование данной методики стало ключевым инструментом для оценки степени обоснованности и надежности физического мышления, реализованного в больших языковых моделях, и для выявления областей, требующих дальнейшей доработки.

Сравнение производительности моделей в стандартных и контрфактических условиях выявляет существенные ограничения, связанные с опорой на неявные априорные знания. Исследования показали, что большие языковые модели (ВЯМ), обученные на обширных массивах данных, часто демонстрируют высокую эффективность в решении задач физического рассуждения, однако эта эффективность может быть обманчива. Когда физические правила намеренно изменяются, создавая контрфактическую реальность, модели, как правило, испытывают значительные трудности, что указывает на их сильную зависимость от предположений, усвоенных во время обучения. Это говорит о том, что модели не всегда «понимают» фундаментальные принципы физики, а скорее воспроизводят паттерны, наблюдаемые в данных. Выявление подобных ограничений критически важно для разработки более надежных и обобщающих систем искусственного интеллекта, способных к истинному физическому рассуждению, а не просто к статистическому моделированию.

На представленных примерах входных текстовых запросов и ответов демонстрируется процесс получения численных решений для задач кинематического вывода, включающий использование физических предпосылок, информации о глубине и последующую обработку выходных данных модели для извлечения конечного значения.
На представленных примерах входных текстовых запросов и ответов демонстрируется процесс получения численных решений для задач кинематического вывода, включающий использование физических предпосылок, информации о глубине и последующую обработку выходных данных модели для извлечения конечного значения.

Определение современного уровня: сопоставление с человеческими показателями

Для создания надежной точки отсчета в оценке возможностей визуальных языковых моделей (ВЯМ), было проведено исследование с участием людей, направленное на определение пределов человеческих способностей в области количественного физического рассуждения. Участникам предлагались задачи, требующие оценки физических параметров и предсказания исходов, что позволило установить верхнюю границу производительности, достижимую человеком. Полученные результаты служат эталоном, по отношению к которому оцениваются возможности ВЯМ, выявляя области, требующие дальнейшего совершенствования и разработки новых подходов к обучению. Данное исследование подчеркивает важность понимания человеческого интеллекта как ориентира для создания искусственного интеллекта, способного к сложному физическому моделированию и прогнозированию.

Проведенное исследование с участием людей позволило установить верхнюю границу возможностей в области количественного физического мышления, что является ключевым ориентиром для оценки производительности визуальных языковых моделей (VLM). Полученные результаты служат не просто эталоном, но и точкой отсчета для выявления конкретных областей, в которых VLM демонстрируют недостаточность. Сравнивая показатели VLM с человеческими, исследователи могут точно определить, какие аспекты физического рассуждения требуют дальнейшей проработки и усовершенствования в архитектуре и алгоритмах обучения моделей. Такой подход позволяет целенаправленно разрабатывать новые стратегии, направленные на сокращение разрыва между возможностями искусственного интеллекта и когнитивными способностями человека в данной области.

Текущие визуально-языковые модели (ВЯМ) демонстрируют среднюю относительную точность (СРТ) в диапазоне от 0.2 до 0.6 при решении задач количественного физического рассуждения. Этот показатель свидетельствует о существенном отставании от возможностей человека, чья СРТ в аналогичных задачах значительно выше. Разница в результатах указывает на то, что ВЯМ пока не способны в полной мере понимать и применять физические принципы для точного количественного анализа визуальной информации, что требует дальнейших исследований и разработки новых подходов к обучению и архитектуре этих моделей. Существующий разрыв подчеркивает необходимость усовершенствования способности ВЯМ к абстрактному мышлению и решению задач, требующих глубокого понимания физических законов.

Перспективные исследования направлены на создание новых архитектур и стратегий обучения для визуальных языковых моделей (VLM), с целью преодоления разрыва в возможностях физического рассуждения между искусственным интеллектом и человеком. Разрабатываемые подходы включают в себя усовершенствованные механизмы внимания, позволяющие моделям более эффективно извлекать релевантную информацию из визуальных данных, а также инновационные методы обучения с подкреплением, имитирующие процесс обучения человека через опыт и обратную связь. Особое внимание уделяется разработке гибридных моделей, сочетающих в себе сильные стороны нейронных сетей и символических систем, что позволит VLM не только распознавать визуальные паттерны, но и применять логические правила и принципы физики для решения сложных задач. Успешная реализация этих направлений позволит значительно повысить точность и надежность VLM в области физического рассуждения, приближая их к уровню человеческого интеллекта и открывая новые возможности для применения в различных областях, таких как робототехника, автономные системы и научные исследования.

Распределение результатов тестирования количественного мышления показывает, что средние баллы участников по тесту MRA различаются в зависимости от того, проводился он в 2D (верхний график) или 3D (нижний график) среде.
Распределение результатов тестирования количественного мышления показывает, что средние баллы участников по тесту MRA различаются в зависимости от того, проводился он в 2D (верхний график) или 3D (нижний график) среде.

Исследование, представленное в данной работе, демонстрирует, что современные Vision-Language Models зачастую не способны к самостоятельному физическому рассуждению, полагаясь скорее на заученные знания, чем на анализ визуальной информации. Это особенно заметно в задачах, требующих кинематических выводов. Тим Бернерс-Ли однажды сказал: «Данные — это всего лишь сырье, а ценность создается благодаря связи между ними». Подобно этому, QuantiPhy выявляет, что модели способны обрабатывать данные, но им не хватает способности устанавливать причинно-следственные связи и предсказывать поведение физических объектов, что подчеркивает необходимость разработки систем, способных к более глубокому пониманию мира, а не просто к запоминанию паттернов.

Куда Ведет Этот Путь?

Представленный анализ выявляет закономерность, знакомую в любой сложной системе: поверхностное знание, полученное из обширных данных, не гарантирует истинного понимания. Модели, демонстрирующие успехи в QuantiPhy, зачастую полагаются на заранее заложенные представления о физическом мире, а не на анализ визуальной информации. Это напоминает искусного механика, способного собрать часы по инструкции, но не понимающего принципов их работы. Проблема не в количестве данных, а в архитектуре понимания.

Дальнейшее развитие, по всей видимости, потребует смещения акцента с простого распознавания образов на построение моделей, способных к причинно-следственному анализу. Необходимо создавать системы, способные не просто «видеть» движение, но и «понимать» его причины и последствия. Это потребует интеграции более глубоких физических моделей и алгоритмов, способных к логическому выводу, а не только к статистическому предсказанию.

Истинно элегантное решение, вероятно, кроется в простоте. Вместо усложнения архитектуры, следует стремиться к созданию систем, способных извлекать фундаментальные физические принципы из ограниченного набора данных. Иначе, мы рискуем построить впечатляющий, но хрупкий замок из песка, который рухнет при первом же дуновении ветра реальности.


Оригинал статьи: https://arxiv.org/pdf/2512.19526.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-24 20:23