Проверка интеллекта: Новый тест для научных ИИ

Автор: Денис Аветисян

Исследователи представили масштабный набор задач, призванный объективно оценить способность искусственного интеллекта решать сложные научные проблемы.

Количество задач на уровне домена в системе COMPOSITE-STEM демонстрирует распределение, отражающее сложность и взаимосвязанность предметной области.

COMPOSITE-STEM: Комплексная оценка возможностей ИИ-агентов в STEM-дисциплинах с использованием экспертной оценки и платформы Harbor.

Несмотря на растущий потенциал ИИ-агентов в ускорении научных открытий, их объективная оценка в реальных рабочих процессах остается сложной задачей. В данной работе представлен ‘COMPOSITE-Stem’, новый бенчмарк, состоящий из 70 экспертно разработанных задач по физике, биологии, химии и математике, призванный оценить возможности ИИ-агентов в решении научных проблем. Результаты оценки четырех передовых моделей с использованием предложенной методологии, включающей LLM в качестве экспертной комиссии, показали, что даже лучшая из них достигает лишь 21% успеха, что указывает на существенные ограничения текущих систем. Сможем ли мы, разрабатывая более сложные и адекватные бенчмарки, приблизить момент, когда ИИ действительно станет надежным помощником в научных исследованиях?

Вызов надежной оценки искусственного интеллекта

Современные методы оценки искусственного интеллекта, особенно в контексте автономных агентов, часто страдают от отсутствия унифицированных, стандартизированных эталонов. Это затрудняет не только объективное сравнение различных моделей и алгоритмов, но и замедляет прогресс в области разработки интеллектуальных систем. Отсутствие общепринятых метрик и тестовых наборов приводит к тому, что результаты оценки становятся субъективными и зависят от конкретной реализации и используемых данных. Вследствие этого, сложно определить, какая модель действительно превосходит другую, и какие направления исследований наиболее перспективны. Унификация оценочных процедур и создание открытых, доступных для всех исследователей, бенчмарков являются критически важными шагами для обеспечения прозрачности и ускорения развития надежного и эффективного искусственного интеллекта.

Существующие методы оценки искусственного интеллекта зачастую не справляются с анализом сложных процессов научного мышления, что приводит к недостоверным результатам в ключевых областях. Проблема заключается в том, что стандартные тесты, как правило, ориентированы на проверку фактологических знаний или умения решать узкоспециализированные задачи, не затрагивая способность к формулированию гипотез, логическому выводу, интерпретации данных и адаптации к новым ситуациям. Это особенно критично в научных дисциплинах, где требуется не просто знание фактов, а умение применять научный метод для решения проблем. В результате, показатели производительности, полученные с помощью таких методов, могут быть обманчивы, не отражая истинный уровень понимания и способности к самостоятельному научному исследованию со стороны искусственного интеллекта.

Отсутствие надёжных оценочных рамок затрудняет определение, действительно ли искусственный интеллект понимает и применяет научные принципы, или же ограничивается запоминанием закономерностей. Вместо глубокого осмысления, системы могут успешно решать задачи, просто сопоставляя входные данные с ранее изученными примерами, не демонстрируя при этом способности к обобщению или решению новых, нестандартных проблем. Это особенно критично в областях, требующих креативного подхода и адаптации к изменяющимся условиям, поскольку поверхностное заучивание не позволяет агенту эффективно функционировать за пределами узко определённого набора данных. В результате, оценка производительности искусственного интеллекта становится неполной и может ввести в заблуждение относительно его реального интеллектуального потенциала и способности к настоящему научному мышлению.

Представленная таблица демонстрирует сравнительные показатели производительности различных моделей.

COMPOSITE-STEM: Новый эталон научной мощи

Тест COMPOSITE-STEM представляет собой строгий эталон, состоящий из 70 задач, разработанных экспертами в области физики, биологии, химии и математики. Этот набор задач предназначен для всесторонней оценки способностей моделей искусственного интеллекта в решении сложных научных проблем, охватывающих широкий спектр дисциплин STEM. Каждая задача была тщательно сформулирована и проверена на предмет научной корректности и соответствия современным стандартам в соответствующих областях. Набор задач включает в себя как теоретические вопросы, требующие глубокого понимания принципов, так и практические задачи, направленные на проверку умения применять полученные знания для решения конкретных проблем.

Разработка COMPOSITE-STEM опирается на тщательную курацию задач экспертами в соответствующих областях науки. Этот процесс включает в себя не только создание задач, но и их многократную проверку на предмет научной корректности, логической непротиворечивости и соответствия современным научным знаниям. Эксперты оценивают не только правильность ответа, но и обоснованность решения, исключая возможность получения верного ответа случайным образом или за счет использования неверных предпосылок. Такой подход гарантирует, что задачи COMPOSITE-STEM являются надежным инструментом для оценки научных способностей и выявления реальных знаний, а не просто способности к запоминанию или манипулированию информацией. Каждая задача проходит несколько этапов экспертной оценки, что обеспечивает высокую степень валидности и надежности итогового теста.

Результаты тестирования моделей на базе COMPOSITE-STEM демонстрируют существенные различия в их способностях. Модель claude-opus-4.6 показала наилучший результат, успешно выполнив 21.4% задач из набора, оцениваемого по принципу Pass@1. При этом, более современные модели, такие как GPT-5.4 и Grok-4.20-beta, показали значительно более низкие показатели успешности, что указывает на существующий разрыв в возможностях между передовыми языковыми моделями при решении сложных научно-технических задач.

Надежные методы оценки для точной оценки

Для оценки ответов используется комбинация методов: точное соответствие (Exact Match Grading) применяется к вопросам с однозначными ответами, а для оценки семантической корректности используется подход LLM-as-a-Jury, когда несколько больших языковых моделей (LLM) выступают в роли экспертов. Этот подход позволяет оценить не только формальную правильность ответа, но и его смысловое соответствие заданию, что особенно важно для задач, требующих развернутого ответа или творческого подхода. Использование нескольких LLM в качестве «жюри» повышает надежность оценки и снижает влияние субъективных факторов, свойственных оценке одного эксперта.

В рамках системы оценки используется AsymmetryZero для формализации предпочтений экспертов в виде проверяемых контрактов, что обеспечивает согласованность оценки. AsymmetryZero позволяет задать четкие критерии оценки, выраженные в виде логических правил и весов, которые применяются к ответам. Эти правила служат как “аудиторский след”, позволяющий проверить, почему конкретный ответ получил определенную оценку. Такой подход минимизирует субъективность и обеспечивает воспроизводимость результатов, поскольку каждый этап оценки может быть проверен и подтвержден на соответствие заданным экспертным предпочтениям. Это особенно важно для сложных заданий, где требуется не только формальная правильность, но и семантическая корректность и соответствие заданным критериям.

Для задач, связанных с химическим анализом, используется программный пакет RDKit, обеспечивающий высокую точность оценки. В ходе тестирования, модель claude-opus-4.6 успешно определила количество атомов водорода в заданном соединении как 350. В то же время, модель GPT-5.4, использующая пользовательский Python-скрипт для выполнения аналогичной задачи, выдала результат в 399 атомов водорода. Данное расхождение демонстрирует важность выбора и настройки инструментов, а также потенциальные различия в точности различных моделей при решении специализированных задач.

Тепловая карта результатов выполнения задач показывает, что модель успешно справляется с задачами в большинстве областей (зеленый цвет), но испытывает трудности в некоторых (красный цвет), при этом часть задач не оценивалась (серый цвет).

Воспроизводимость и будущее оценки искусственного интеллекта

В основе разработки платформы Harbor лежит принцип воспроизводимости результатов, что позволяет независимым исследователям верифицировать полученные данные и подтверждать надежность оценки производительности искусственного интеллекта. Эта возможность критически важна для развития доверия к системам ИИ, поскольку позволяет исключить субъективность и обеспечить прозрачность процесса оценки. Платформа предоставляет четко определенные параметры, данные и процедуры, необходимые для повторного проведения экспериментов и получения аналогичных результатов, что способствует более объективному сравнению различных моделей и алгоритмов. Благодаря этому, Harbor не просто инструмент для оценки, но и гарант достоверности и надежности получаемых данных, стимулирующий дальнейшее развитие области искусственного интеллекта.

Развивая платформу TerminalBench, создана стандартизированная среда для оценки интеллектуальных агентов. Этот подход значительно упрощает сопоставление результатов, полученных разными исследователями и командами, позволяя объективно сравнивать производительность различных моделей и алгоритмов. Стандартизация процесса оценки не только повышает прозрачность исследований в области искусственного интеллекта, но и существенно ускоряет прогресс, поскольку позволяет быстро выявлять наиболее перспективные направления и избегать дублирования усилий. В результате, создается более эффективная и продуктивная экосистема для разработки и совершенствования интеллектуальных систем.

Архитектура фреймворка отличается высокой модульностью, что позволяет легко интегрировать разнообразные мультимодальные входные данные. Данный подход был успешно продемонстрирован в Multimodal Terminus-2, расширив спектр оцениваемых навыков за пределы традиционных текстовых задач. Благодаря такой гибкости, система способна обрабатывать и анализировать информацию, поступающую из различных источников — изображения, аудио, видео — что открывает новые возможности для оценки способностей искусственного интеллекта в решении более сложных и реалистичных задач, приближая его к человеческому восприятию мира и повышая надежность оценки в целом.

Представленный подход к оценке возможностей ИИ-агентов в решении STEM-задач, воплощенный в COMPOSITE-STEM, подчеркивает важность целостного взгляда на систему. Этот бенчмарк, состоящий из 70 экспертно отобранных задач, требует от агентов не просто отдельных решений, но и демонстрации научного мышления и способности к решению проблем. Как однажды заметил Анри Пуанкаре: «Наука не состоит из ряда истин, а из методов». Иными словами, не столько важен сам ответ, сколько процесс его достижения, логика рассуждений и способность адаптироваться к новым условиям. Хорошая архитектура незаметна, пока не ломается, и только тогда видна настоящая цена решений. Аналогично, эффективность ИИ-агента проявляется в его способности к последовательному и обоснованному решению сложных задач.

Что Дальше?

Представленный набор задач COMPOSITE-STEM, несомненно, является шагом к более тонкой оценке возможностей искусственного интеллекта в решении научных проблем. Однако, подобно тщательно спланированному городу, он лишь отражает текущее состояние инфраструктуры. Важно помнить, что истинное понимание интеллекта требует не просто достижения успеха в отдельных задачах, а демонстрации способности к адаптации и эволюции структуры познания. Текущая метрика, хотя и тщательно проработана, остается статичным снимком, не учитывающим динамику обучения и потенциал для самосовершенствования.

Особое внимание следует уделить разработке методов оценки не только результата, но и процесса решения задачи. Простота и ясность, как архитектурные принципы, должны лежать в основе будущих бенчмарков. Настоящий вызов заключается в создании систем, способных не только решать поставленные задачи, но и формулировать новые вопросы, выявлять пробелы в знаниях и самостоятельно искать пути их устранения. Попытки «починить» отдельные аспекты интеллекта без понимания его целостной структуры, вероятно, окажутся неэффективными.

Будущие исследования должны сосредоточиться на создании более гибких и адаптивных бенчмарков, которые будут отражать сложность и непредсказуемость реального научного поиска. Подобно тому, как город растет и меняется, система оценки должна эволюционировать вместе с развитием искусственного интеллекта, избегая необходимости полной перестройки при появлении новых возможностей.

Оригинал статьи: https://arxiv.org/pdf/2604.09836.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-14 14:09

🚀 Квантовые новости