Физика по плечу нейросетям? Проверка искусственного интеллекта на прочность

Автор: Денис Аветисян

Новое исследование сравнивает способность современных языковых моделей решать задачи из курса углубленной физики, выявляя сильные и слабые стороны искусственного интеллекта в научном мышлении.

Наблюдаемые колебания в эффективности моделей искусственного интеллекта при оценке экзаменационных работ по физике демонстрируют нестабильность рейтингов, поскольку конкретные характеристики экзаменационных заданий разных лет - например, повышенная сложность в 2017 и 2022 годах или, напротив, относительная легкость в 2021 - существенно влияют на результаты и степень согласованности оценок между независимыми экспертами. — Наблюдаемые колебания в эффективности моделей искусственного интеллекта при оценке экзаменационных работ по физике демонстрируют нестабильность рейтингов, поскольку конкретные характеристики экзаменационных заданий разных лет — например, повышенная сложность в 2017 и 2022 годах или, напротив, относительная легкость в 2021 — существенно влияют на результаты и степень согласованности оценок между независимыми экспертами.

Оценка производительности больших языковых моделей при решении свободных вопросов AP Physics, с акцентом на алгебраические навыки, визуальное понимание и применение физических принципов.

Несмотря на стремительное развитие больших языковых моделей (LLM), их способность к решению комплексных задач по физике, требующих не только алгебраических навыков, но и пространственного мышления, остаётся недостаточно изученной. В настоящей работе, озаглавленной ‘How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions’, проведена сравнительная оценка производительности четырех LLM — ChatGPT, Gemini, Claude и DeepSeek — при решении задач AP Physics. Полученные результаты демонстрируют высокий уровень владения моделями алгебраическим аппаратом, однако выявляют систематические ошибки в интерпретации графиков, понимании векторных направлений и применении трехмерных концепций, что указывает на ограничения в задачах, требующих визуального и концептуального анализа. Какие подходы необходимо разработать для повышения способности LLM к решению задач по физике, требующих интеграции различных типов информации и глубокого понимания физических принципов?

За гранью шума: LLM и вызов фундаментальной физики

Несмотря на значительный прогресс в области обработки естественного языка, современные большие языковые модели (LLM) демонстрируют трудности при решении задач, требующих сложного логического мышления, особенно если это связано с количественными расчетами и пространственным воображением. Эти модели, обученные на огромных объемах текстовых данных, часто испытывают затруднения в применении абстрактных концепций к конкретным ситуациям, а также в обработке информации, требующей визуализации или геометрического представления. В частности, задачи, требующие манипулирования числами, понимания физических законов или анализа пространственных отношений, представляют особую сложность для LLM, указывая на необходимость дальнейших исследований и разработок в области улучшения их способности к абстрактному и количественному мышлению.

Оценка возможностей больших языковых моделей (LLM) посредством стандартизированных тестов, таких как экзамен AP Physics, выявила существенные пробелы в их способности применять фундаментальные физические принципы для решения задач. Результаты показывают, что модели демонстрируют средний балл в диапазоне 82-91% по AP Physics 1 и 82-92% по AP Physics 2. Несмотря на кажущуюся близость к проходному баллу, эта статистика подчеркивает, что LLM испытывают трудности с глубоким пониманием физических законов и их практическим применением в количественных задачах. Данный результат указывает на необходимость разработки новых подходов к обучению и оценке LLM, чтобы повысить их компетентность в области точных наук и обеспечить более надежное решение сложных проблем, требующих не только знания фактов, но и умения логически мыслить и применять $F = ma$ в различных контекстах.

Экзаменационные вопросы AP Physics в формате свободной демонстрации знаний требуют от отвечающего не просто получения правильного ответа, но и детального, логически выстроенного обоснования каждого шага решения. Исследования показывают, что большие языковые модели (LLM), несмотря на успехи в обработке естественного языка, часто испытывают трудности именно в этой части — в предоставлении последовательных и понятных объяснений. Модели способны генерировать корректные численные ответы, однако испытывают дефицит в аргументации, необходимой для подтверждения этих ответов с точки зрения фундаментальных физических принципов. Данная особенность подчеркивает, что LLM нуждаются в совершенствовании способности к рассуждениям и построению логических цепочек, а не только в способности к запоминанию и воспроизведению информации.

Неспособность больших языковых моделей (LLM) демонстрировать надежное рассуждение в задачах, требующих количественного и пространственного понимания, подчеркивает настоятельную необходимость разработки более строгих метрик оценки. Существующие тесты, хоть и показывают определенный уровень успеваемости, не всегда способны выявить тонкие недостатки в логике и обосновании решений. Для исправления этой ситуации требуются целенаправленные улучшения в архитектуре и обучении LLM, акцентирующие внимание на развитии навыков дедуктивного мышления и применения фундаментальных принципов к сложным задачам. Разработка специализированных тестов, оценивающих не только правильность ответа, но и полноту и ясность объяснений, представляется критически важной для продвижения исследований в области искусственного интеллекта и создания действительно разумных систем.

Анализ стабильности рейтингов моделей по годам экзаменов показывает низкую согласованность в AP Physics 1 (коэффициент согласованности Кендалла <span class="katex-eq" data-katex-display="false">W=0.182</span>), где наблюдаются частые пересечения и изменения рангов, в то время как в AP Physics 2 наблюдается большая стабильность (<span class="katex-eq" data-katex-display="false">W=0.532</span>), с преобладанием Gemini и DeepSeek на первых двух позициях и более низким рангом ChatGPT, что подтверждается результатами Friedman теста и последующего анализа. — Анализ стабильности рейтингов моделей по годам экзаменов показывает низкую согласованность в AP Physics 1 (коэффициент согласованности Кендалла $W=0.182$ ), где наблюдаются частые пересечения и изменения рангов, в то время как в AP Physics 2 наблюдается большая стабильность ( $W=0.532$ ), с преобладанием Gemini и DeepSeek на первых двух позициях и более низким рангом ChatGPT, что подтверждается результатами Friedman теста и последующего анализа.

Разобрать по косточкам: ключевые навыки рассуждения в физике

Успешное решение задач на экзамене AP Physics в значительной степени зависит от количественного анализа — способности решать проблемы, используя числовые данные и математические формулы. Этот навык предполагает не только знание формул, но и умение правильно применять их к конкретным числовым значениям, представленным в условии задачи. Ключевыми компонентами количественного анализа являются: выполнение математических операций (сложение, вычитание, умножение, деление, возведение в степень, извлечение корня), преобразование единиц измерения, а также применение алгебраических и тригонометрических методов для вывода искомых величин. Например, для расчета кинетической энергии используется формула $KE = \frac{1}{2}mv^2$ , где m — масса, а v — скорость. Умение правильно подставлять значения и выполнять вычисления — необходимое условие для получения корректного ответа.

Успешное решение задач по физике требует владения векторной алгеброй, поскольку силы, скорости и перемещения часто представлены в виде векторов. Эти величины характеризуются не только модулем (значением), но и направлением, что необходимо учитывать при математических операциях. Векторное сложение и вычитание, а также определение проекций векторов на оси координат, являются ключевыми навыками для анализа сил, действующих на объект, определения результирующей скорости или вычисления пройденного пути. Например, для определения равнодействующей силы необходимо сложить все векторные силы, действующие на тело, учитывая их направления и модули, что часто выполняется с использованием $\vec{F} = \sum \vec{F_i}$ . Игнорирование векторной природы этих величин приводит к неверным результатам и ошибкам в решении задач.

Для успешного решения физических задач, помимо численных вычислений, языковые модели (LLM) должны демонстрировать качественное рассуждение, то есть предоставлять четкие и логичные объяснения своих решений. Это предполагает не просто получение числового ответа, но и аргументированное обоснование каждого шага, включая применение соответствующих физических законов и принципов. Качественное рассуждение включает в себя объяснение почему был выбран тот или иной подход, а не просто как он был реализован. Например, при решении задачи о движении тела необходимо объяснить, какие силы действуют на тело, как они влияют на его ускорение, и как это связано с полученным ответом. Отсутствие подобного объяснения делает решение неполным и не демонстрирует истинное понимание физической сути задачи. Способность LLM к качественному рассуждению является ключевым показателем его способности к решению задач на уровне, близком к человеческому.

Критическим недостатком современных больших языковых моделей (LLM) является сложность с пространственным мышлением и интерпретацией диаграмм, возникающая при решении физических задач. LLM испытывают трудности с точным извлечением информации из визуальных представлений, таких как схемы сил, графики движения или геометрические построения. Это проявляется в неспособности правильно определять направления векторов, углы между ними, а также корректно соотносить элементы диаграммы с соответствующими физическими величинами и условиями задачи. В результате, модели часто допускают ошибки при анализе визуальной информации, что приводит к неверным решениям, даже если математические расчеты выполнены правильно. Проблема усугубляется сложностью представления трехмерных объектов на двухмерных диаграммах и необходимостью правильной интерпретации масштаба и пропорций.

Сравнение распределений результатов по физике демонстрирует, что Gemini и DeepSeek показывают стабильно высокие результаты с узким диапазоном, в то время как ChatGPT демонстрирует большую вариативность, включая способность к идеальному выполнению заданий (100% в 2025 году), но при этом имеет более низкие типичные показатели и заметное разброс, особенно в Physics 1, где наблюдается некоторая бимодальность.

Оценка возможностей LLM: строгий подход

Для оценки возможностей больших языковых моделей (LLM) была использована стандартизированная методика, основанная на экзаменационных материалах AP Physics 1 и AP Physics 2. Выбор данных экзаменов обусловлен их широким охватом физических принципов и количественным характером задач, что позволяет объективно оценивать способность моделей к решению проблем и логическому мышлению. Использование унифицированных экзаменационных материалов гарантирует сопоставимость результатов, полученных для различных моделей, и позволяет выявить статистически значимые различия в их производительности. Данный подход позволяет провести комплексную оценку способностей LLM в области решения физических задач, выходя за рамки простого анализа языковых навыков.

Для обеспечения сопоставимости результатов оценки больших языковых моделей (LLM) использовалась система балльной оценки на основе четко определенных критериев — рубрики. Этот подход позволил исключить субъективность при анализе ответов моделей на вопросы экзаменов AP Physics 1 и AP Physics 2, предоставив объективную метрику для сравнения производительности различных моделей, таких как ChatGPT, Claude, Gemini и DeepSeek. Рубрика содержала детальные описания уровней достижения для каждого аспекта ответа, что гарантировало единообразное применение оценочных критериев всеми экспертами, участвующими в процессе проверки.

Для обеспечения объективности оценки ответов больших языковых моделей (LLM) был проведен анализ согласованности между оценщиками. Использовался коэффициент внутренней согласованности (Intraclass Correlation Coefficient, ICC), значения которого составили от 0.75 до 0.93. Данный диапазон значений ICC указывает на высокую степень согласованности между оценщиками при применении разработанной рубрики, что подтверждает надежность и воспроизводимость процесса оценки ответов LLM на экзаменационных заданиях по физике.

В ходе оценки производительности больших языковых моделей (LLM), включая ChatGPT, Claude, Gemini и DeepSeek, с использованием экзамена AP Physics 2, были выявлены статистически значимые различия в результатах (p-value = 0.0012). Модели Gemini и DeepSeek продемонстрировали более стабильные показатели по сравнению с другими. В частности, коэффициент вариации для DeepSeek составил 4.7%, что указывает на относительно низкий уровень разброса результатов и, следовательно, на более предсказуемую и согласованную производительность в решении задач по физике.

Улучшение рассуждений LLM: роль подсказок и мультимодального ввода

Метод “цепочки рассуждений” стал эффективным инструментом для повышения точности работы больших языковых моделей (LLM). Суть подхода заключается в том, чтобы побудить модель не просто выдавать ответ, но и последовательно излагать шаги, приведшие к этому ответу. Вместо прямого предоставления решения, LLM генерирует промежуточные логические выводы, имитируя процесс человеческого мышления. Такой подход позволяет не только получить более точный результат, но и обеспечивает возможность проверки логической обоснованности ответа, а также выявления возможных ошибок в рассуждениях модели. Исследования показывают, что даже относительно небольшие изменения в формулировке запроса, направленные на стимулирование “цепочки рассуждений”, могут значительно улучшить производительность LLM в решении сложных задач, требующих логического анализа и дедукции.

Исследования показывают, что даже сложные текстовые запросы зачастую не способны преодолеть ограничения больших языковых моделей в области пространственного мышления и интерпретации диаграмм. Модели, обученные преимущественно на текстовых данных, испытывают трудности при решении задач, требующих визуализации и понимания геометрических отношений. Это связано с тем, что они лишены возможности непосредственно обрабатывать визуальную информацию, необходимую для адекватного анализа графических представлений, таких как схемы, чертежи или диаграммы. В результате, точность ответов на вопросы, связанные с пространственным пониманием, остается недостаточной, несмотря на сложность используемых текстовых запросов и глубину языковой модели.

Исследования показывают, что интеграция мультимодальной информации — объединение текстовых данных с визуальными элементами, такими как диаграммы и графики — значительно повышает способность больших языковых моделей (LLM) к решению физических задач. Традиционные текстовые подсказки часто оказываются недостаточными для эффективного понимания пространственных взаимосвязей и интерпретации визуальных представлений, что ограничивает возможности LLM в области физики. Включение визуальной информации позволяет моделям формировать более полное и точное представление о проблеме, что, в свою очередь, приводит к улучшению результатов и более обоснованным решениям. Данный подход открывает новые перспективы для применения LLM в образовании и научных исследованиях, позволяя создавать интеллектуальные системы, способные не только решать задачи, но и объяснять ход своих рассуждений на основе анализа как текстовых, так и визуальных данных.

Несмотря на значительный прогресс в области языковых моделей, их потенциал в физическом образовании и научных исследованиях остается не полностью реализованным. Дальнейшие исследования направлены на определение наиболее эффективного сочетания методов подсказок и мультимодальных входных данных. Ученые стремятся выявить, какие конкретно стратегии побуждения модели к рассуждениям, в сочетании с визуальной информацией, позволяют достичь максимальной точности и глубины понимания сложных физических задач. Оптимизация этого симбиоза текстовых подсказок и визуального представления данных — ключевой фактор для создания интеллектуальных систем, способных не просто решать задачи, но и демонстрировать процесс логического мышления, что особенно важно в образовательном контексте и при проведении научных исследований, требующих интерпретации графиков, диаграмм и других визуальных материалов.

В исследовании, оценивающем возможности больших языковых моделей в решении задач по физике, отчетливо прослеживается закономерность: модели демонстрируют впечатляющие навыки в алгебраических вычислениях, но испытывают трудности с интерпретацией визуальной информации и применением физических принципов к конкретным ситуациям. Это напоминает о том, как часто элегантная теория разбивается о суровую реальность продакшена. Как однажды заметил Ричард Фейнман: «Если вы не можете объяснить что-то простыми словами, значит, вы сами этого не понимаете». В данном случае, способность решать задачи требует не только математической грамотности, но и интуитивного понимания физических процессов, которое, судя по результатам, пока недоступно этим системам. Иначе говоря, алгоритм может манипулировать символами, но не понимать, что они означают.

Что дальше?

Очевидно, что модели демонстрируют неплохую алгебраическую подготовку. Но давайте не будем обманываться. Всё это, в конечном итоге, превратится в умение красиво решать задачи, не понимая, что за ними стоит. Сейчас это назовут “AI reasoning” и получат инвестиции, но через пару лет кто-нибудь обнаружит, что это просто сложные подстановки в заранее захардкоженные формулы. Особенно забавно наблюдать за проблемами с визуальной интерпретацией. Начинаю подозревать, что они просто повторяют модные слова, когда речь заходит о “понимании” графиков.

Не стоит забывать, что даже идеальное решение задач — лишь полдела. Реальный физик — это не решатель уравнений, а человек, умеющий строить модели и делать адекватные упрощения. И здесь, боюсь, у моделей еще долгий путь. Каждая «революционная» технология завтра станет техдолгом. Вскоре, чтобы заставить эти модели хоть что-то понимать, потребуется тонны размеченных данных и километры кода, которые придется поддерживать.

В конечном счете, вся эта работа напоминает мне попытку воссоздать мозг, начиная с умения решать примеры. Это как если бы, пытаясь построить космический корабль, начали с оптимизации работы калькулятора. И да, документация снова соврала. Простите за цинизм, но кто-то должен напомнить, что сложная система «когда-то была простым bash-скриптом».

Оригинал статьи: https://arxiv.org/pdf/2603.07457.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-10 16:02

🚀 Квантовые новости