Автор: Денис Аветисян
Исследователи представили PRiSM — сложный мультимодальный бенчмарк, призванный проверить способность моделей искусственного интеллекта к научному мышлению и решению задач.

PRiSM — это динамичный синтетический набор данных, оценивающий научное мышление моделей, работающих с визуальной и текстовой информацией, посредством масштабируемого агента.
Оценка возможностей моделей «зрение-язык» в научных областях, таких как математика и физика, сталкивается с ограничениями существующих бенчмарков, не учитывающих необходимость концептуального понимания и символьных рассуждений. В данной работе представлена платформа PRiSM: An Agentic Multimodal Benchmark for Scientific Reasoning via Python-Grounded Evaluation, представляющая собой динамичный, мультимодальный бенчмарк, включающий более 24 750 задач университетского уровня и использующий агентный подход для генерации задач и автоматической верификации решений с помощью Python. Это позволяет проводить детальный анализ сильных и слабых сторон моделей в научных рассуждениях, выявляя их ограничения и неопределенности. Какие новые горизонты откроет возможность более точной оценки и совершенствования моделей искусственного интеллекта в решении сложных научных задач?
Преодолевая Хрупкость Научного Рассуждения
Современные системы искусственного интеллекта демонстрируют существенные трудности в поддержании последовательности рассуждений при решении научных задач. Исследования показывают, что даже незначительные изменения в формулировке проблемы или в представлении исходных данных могут приводить к серьезным ошибкам в выводах. Например, алгоритм, успешно решающий задачу по физике в одном варианте, может потерпеть неудачу, если условия задачи будут перефразированы или если порядок следования данных будет изменен. Данная проблема обусловлена тем, что многие ИИ-системы полагаются на поверхностные закономерности в данных, а не на глубокое понимание принципов, лежащих в основе решаемых задач, что делает их уязвимыми к незначительным вариациям в представлении информации. Такая хрупкость ограничивает возможности применения ИИ в областях, требующих надежных и устойчивых решений, особенно в науке, где точность и последовательность рассуждений имеют первостепенное значение.
Оценка современных систем искусственного интеллекта, предназначенных для научных исследований, требует принципиально нового подхода к формированию критериев. Простого измерения точности ответа недостаточно, поскольку даже незначительные изменения в формулировке задачи могут привести к существенным ошибкам. Вместо этого, необходимо разрабатывать эталонные тесты, которые проверяют устойчивость системы к вариациям и её способность к самокоррекции. Такой подход позволяет оценить не только способность системы решать конкретную задачу, но и её общее понимание принципов, лежащих в основе научной области, а также умение выявлять и исправлять собственные ошибки — качества, необходимые для надежной и продуктивной научной работы. Иными словами, акцент смещается с простого получения правильного ответа на демонстрацию способности к надежному и адаптивному мышлению.

PRiSM: Новый Эталон для Оценки Научного Искусственного Интеллекта
Набор данных PRiSM представляет собой новый подход к оценке возможностей систем искусственного интеллекта в области науки, основанный на процедурной генерации задач по физике и математике. В общей сложности, PRiSM содержит 24 750 задач, соответствующих уровню университетского курса. Процедурная генерация позволяет создавать практически неограниченное количество задач с контролируемыми параметрами сложности и разнообразием, что обеспечивает более надежную и всестороннюю оценку, чем использование фиксированных наборов данных. Это позволяет избежать переобучения моделей на конкретных примерах и проверить их способность к обобщению и решению новых, ранее не встречавшихся задач.
Ключевым компонентом PRiSM является PrismAgent — агентный конвейер, предназначенный для генерации задач и автоматической проверки их решений. Этот конвейер использует технологию оптического распознавания символов (OCR) для создания визуально представленных задач, что позволяет включать в них графики, диаграммы и другие визуальные элементы. Автоматическая проверка решений осуществляется посредством исполнения сгенерированного Python-кода, который сравнивает ответ, полученный моделью, с эталонным решением. Такой подход обеспечивает объективную и масштабируемую оценку способностей моделей к решению научных задач.
Каждый вопрос в наборе данных PRiSM сопровождается подробным, пошаговым решением, требующим символьных рассуждений. В среднем, для решения каждого вопроса требуется 6.91 шаг рассуждения, при стандартном отклонении 1.75. Данное стандартное отклонение отражает вариативность сложности задач, представленных в наборе данных, и необходимость в моделях, способных к многошаговому логическому выводу для достижения корректного решения. Таким образом, PRiSM предназначен для оценки способности ИИ к выполнению сложных задач, требующих не просто получения ответа, а демонстрации полного процесса логического мышления.

Обеспечение Проверяемости и Согласованности Решений
PRiSM автоматически генерирует исполняемый код на Python для каждого конкретного примера задачи. Это позволяет осуществлять автоматическую проверку предложенных решений и выявлять ошибки в логике или вычислениях. Генерируемый код исполняется в среде исполнения Python, что обеспечивает возможность тестирования решений на различных входных данных и сравнения полученных результатов с ожидаемыми. Автоматизация процесса проверки существенно сокращает время, необходимое для оценки решений, и повышает надежность системы в целом, поскольку исключает человеческий фактор при оценке.
В PRiSM для обеспечения точности и надежности генерируемого кода используются библиотеки SymPy и Pint. SymPy предоставляет возможности символьной математики, позволяя выполнять аналитические преобразования выражений и выводить решения в общем виде, а не только численно. Pint, в свою очередь, обеспечивает контроль над размерностью физических величин, автоматически отслеживая единицы измерения и предотвращая ошибки, возникающие из-за их несоответствия. Это особенно важно для задач, связанных с физикой и другими науками, где корректность размерностей является фундаментальным требованием к достоверности результатов, например, при расчете $F = ma$, где $F$ — сила, $m$ — масса, а $a$ — ускорение, все величины должны быть выражены в соответствующих единицах измерения.
Фреймворк PRiSM поддерживает широкий спектр задач, включая программный синтез решений (Задача IV) и рассуждения в условиях неопределённости (Задача V). В рамках этих задач обеспечивается покрытие 450 физических и 110 математических концепций, что позволяет решать разнообразные задачи, требующие применения знаний из обеих областей. Поддерживаемые концепции охватывают ключевые принципы и закономерности, необходимые для автоматизированного решения сложных научно-технических задач и проверки корректности полученных результатов.

Оценка Устойчивости и Выявление Режимов Отказа
Оценка моделей с использованием PRiSM и метрики, такой как ‘true Score’, обеспечивает надежную проверку их устойчивости к различным вариациям задач. В отличие от традиционных методов, которые часто полагаются на узкий набор тестовых примеров, PRiSM генерирует множество проблем, слегка отличающихся друг от друга, но требующих одних и тех же логических выводов. Это позволяет выявить, насколько последовательно модель применяет свои знания и рассуждения при небольших изменениях входных данных. Высокий ‘true Score’ указывает на то, что модель не просто запоминает ответы, а действительно понимает лежащие в основе принципы, что является критически важным для надежности и обобщающей способности искусственного интеллекта, особенно в областях, требующих точных и последовательных научных рассуждений. Таким образом, PRiSM предоставляет количественную меру устойчивости, позволяющую исследователям более эффективно оценивать и совершенствовать свои модели.
Исследования показали, что в моделях, сочетающих зрение и язык, часто проявляется так называемый “конфликт модальностей”. Это явление заключается в том, что визуальные сигналы, даже если они вводят в заблуждение или противоречат логическому выводу, могут доминировать над корректным рассуждением. Например, модель может ошибочно определить результат простого физического эксперимента, если визуальное представление противоречит логически верному ответу. Этот феномен указывает на уязвимость современных моделей искусственного интеллекта к искажениям, вызванным доминированием одной модальности над другой, и подчеркивает необходимость разработки более устойчивых и надежных систем, способных к комплексному анализу информации из различных источников.
Платформа PRiSM представляет собой ценный инструмент для исследователей, стремящихся разработать и оценить системы искусственного интеллекта, способные к надежному научному рассуждению. Она позволяет не только количественно оценить способность моделей к решению научных задач, но и выявить конкретные слабые места и режимы отказа. Благодаря PRiSM, ученые получают возможность систематически тестировать ИИ на различных вариациях проблем, что необходимо для создания действительно надежных и воспроизводимых научных инструментов. Возможность детализированного анализа ошибок, предоставляемая платформой, способствует целенаправленной разработке методов улучшения рассуждений и повышению устойчивости моделей к различным типам помех и неоднозначностей, что особенно важно для применения ИИ в критически важных областях науки и техники.

Исследование представляет собой не просто набор задач, а динамичную среду, в которой модели должны демонстрировать способность к научному мышлению. Подход, реализованный в PRiSM, акцентирует внимание на построении системы, где каждая часть взаимосвязана и влияет на общую производительность. Как однажды заметил Пол Эрдёш: «Математика — это искусство думать». Эта фраза отражает суть PRiSM — стремление к созданию не просто оценивающего инструмента, а платформы, стимулирующей глубокое понимание и логическое рассуждение в области научных данных. В PRiSM, подобно элегантному решению в математике, простота и ясность структуры позволяют оценить истинную способность моделей к решению сложных задач.
Куда двигаться дальше?
Представленный бенчмарк PRiSM, несомненно, вносит ясность в оценку научных способностей моделей, работающих с мультимодальными данными. Однако, подобно любому элегантному решению, он лишь обнажает глубину нерешенных вопросов. Создание синтетического набора данных, пусть и динамичного, всегда подразумевает некую идеализацию, упрощение сложной реальности. Вопрос заключается не в том, насколько хорошо модели справляются с решением задач в рамках этого набора, а в том, насколько хорошо они способны адаптироваться к истинной неоднородности научных данных, к шуму и неполноте информации, которые неизбежно встречаются в реальных экспериментах.
Устойчивость системы определяется не только способностью решать конкретные задачи, но и способностью обнаруживать собственные ограничения. Будущие исследования должны быть направлены на разработку методов оценки не только производительности, но и уверенности модели в своих ответах, а также на выявление ситуаций, когда модель терпит неудачу. Необходимо сместить акцент с “что” модель может решить, на “когда” она понимает, что не может решить, и как она сообщает об этом.
В конечном итоге, истинная проверка научной разумности заключается не в решении изолированных задач, а в способности модели интегрировать знания из различных источников, формировать гипотезы и проектировать эксперименты для их проверки. PRiSM — это шаг в правильном направлении, но путь к созданию действительно разумных систем еще далек, и он требует не только усложнения моделей, но и упрощения подходов к оценке их способностей.
Оригинал статьи: https://arxiv.org/pdf/2512.05930.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- Квантовый скачок из Андхра-Прадеш: что это значит?
- Виртуальная примерка без границ: EVTAR учится у образов
- Геометрия на пределе: как алгоритмы оптимизации превосходят языковые модели
- Разгадывая тайны квантового мира: переработка кубитов и шум как тайная приправа?
- Оптимизация партийных запросов: Метод имитации отжига против градиентных подходов
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Скрытая сложность: Необратимые преобразования в квантовых схемах
2025-12-08 12:05