Искусственный интеллект на уроках физики: новые возможности и вызовы

Автор: Денис Аветисян

Современные модели обработки естественного языка демонстрируют впечатляющую способность решать сложные физические задачи и оценивать решения студентов, открывая новые перспективы для обучения.

Тепловая карта демонстрирует производительность модели в области классической механики, выявляя области, где точность предсказаний максимальна и минимальна, что позволяет оценить сильные и слабые стороны подхода.

В обзоре рассматривается потенциал и ограничения применения больших языковых моделей в физическом образовании, включая автоматическую проверку работ и анализ рукописных решений.

Несмотря на традиционные трудности в автоматизированной проверке сложных рассуждений, исследование, посвященное ‘Using Large Language Models in Physics Education’, демонстрирует значительный прогресс в применении больших языковых моделей (LLM) для решения задач и оценивания работ по физике. Результаты трех исследований, проведенных в период с середины 2024 по конец 2025 года, показали, что современные архитектуры, такие как ChatGPT-5.1 и Gemini 3.0 Pro, демонстрируют почти идеальные результаты в решении задач по классической механике, электромагнетизму и квантовой механике, а также способны надежно оценивать письменные решения студентов, особенно с учетом мультимодальной интеграции. Однако, несмотря на улучшение в распознавании рукописного текста и оценке полных решений, автоматизированное присвоение частичных баллов за неполные или ошибочные рассуждения остается сложной задачей. Каковы перспективы дальнейшего развития LLM для обеспечения персонализированной поддержки обучения и автоматизации оценки в физике, и какие ограничения необходимо учитывать?

Вызов автоматизированной оценки знаний по физике

Традиционная оценка знаний по физике исторически базируется на ручной проверке работ, процесс, требующий значительных временных затрат от преподавателей. Эта практика, несмотря на свою давнюю устоявшуюся природу, неизбежно связана с субъективными оценками и потенциальными несоответствиями в критериях оценивания. Даже при наличии четких методических указаний, индивидуальное восприятие и текущее состояние проверяющего могут влиять на итоговую оценку, приводя к различиям в оценке одних и тех же решений разными преподавателями. В результате, объективность оценки может быть поставлена под сомнение, а достоверность результатов проверочных работ снижается, что особенно критично при больших объемах проверяемых работ и ограниченности ресурсов.

Автоматизированная проверка знаний по физике с использованием больших языковых моделей (БЯМ), таких как ChatGPT-3.5, представляла собой перспективное решение проблемы трудоемкой и субъективной ручной оценки. Однако, первоначальные версии этих моделей демонстрировали ограничения в оценке сложных этапов решения задач. Они часто успешно определяли правильность конечного ответа, но испытывали трудности в понимании логики и последовательности шагов, приведших к нему. Это особенно критично в физике, где процесс решения задачи, включающий применение законов и принципов, столь же важен, как и сам результат. Таким образом, хотя БЯМ и показали потенциал в автоматизации оценки, для полноценной замены традиционных методов требовалось значительное улучшение способности к анализу и пониманию логики решения физических задач.

Основная сложность автоматизированной оценки физических задач заключается не просто в определении правильности ответа, а в понимании логики и последовательности рассуждений, приведших к этому ответу. Современные большие языковые модели (LLM) должны демонстрировать способность к анализу каждого шага решения, подобно тому, как это делает опытный преподаватель. Важно, чтобы модель не только констатировала верность или неверность промежуточных результатов, но и выявляла концептуальные ошибки, неполноту аргументации или альтернативные, но равноценные подходы к решению. Успешная автоматизация требует, чтобы LLM могли реконструировать ход мысли учащегося, оценивая не только конечный результат, но и качество представленного доказательства, что является ключевым аспектом оценки в физике и других точных науках. Это подразумевает необходимость разработки алгоритмов, способных к глубокому семантическому анализу физических задач и представленных решений, а также к выявлению скрытых предположений и логических связей.

Средняя абсолютная ошибка оценки моделей для идеальных и неидеальных рукописных решений по физике демонстрирует, что, хотя оценка идеальных работ почти не содержит ошибок для нескольких моделей, оценка неидеальных работ приводит к значительно более высоким ошибкам, что подчеркивает сложность оценки на основе логических рассуждений с частичным зачетом.

Эволюция LLM для повышения эффективности решения задач

Более современные большие языковые модели (LLM), такие как ChatGPT-4o, Gemini 1.5 Pro и DeepSeek-V3, продемонстрировали значительное улучшение в решении задач и повышении точности в оценках по физике. Наблюдается существенный прогресс в способности этих моделей к логическому выводу и применению физических принципов для решения количественных задач. Результаты показывают, что увеличение числа параметров и усовершенствование архитектуры моделей позволяет им более эффективно обрабатывать и анализировать сложные физические концепции, что приводит к повышению общей производительности в задачах, требующих знаний в области физики.

Современные большие языковые модели (LLM), такие как ChatGPT-4o, Gemini 1.5 Pro и DeepSeek-V3, демонстрируют повышенную способность к решению физических задач благодаря увеличению числа параметров и усовершенствованию архитектуры. Это позволяет им более точно моделировать сложные физические концепции, охватывающие классическую механику, электромагнетизм и квантовую механику. В частности, на бенчмарке «Quantum Mechanics (Set B)» эти модели достигают средних показателей, близких к 100%, что свидетельствует о значительном прогрессе в понимании и применении принципов квантовой физики.

Наборы данных Set A и Set B сыграли ключевую роль в оценке прогресса и выявлении областей для дальнейшего улучшения в больших языковых моделях (LLM). Set A охватывает широкий спектр задач по физике, в то время как Set B представляет собой более сложный набор вопросов, ориентированный на квантовую механику. Использование этих наборов данных позволило разработчикам количественно оценить улучшения в способности LLM решать физические задачи, а также выявить конкретные концепции, требующие дополнительной проработки в архитектуре и обучении моделей. Результаты, полученные на этих бенчмарках, стали основой для итеративного улучшения LLM, направленного на повышение их точности и надежности в решении сложных научных задач.

Анализ усредненных результатов по квантовой механике показывает, что модели поколения 5 превосходят модели поколения 4.

Мультимодальная оценка: интерпретация визуальной информации

Появление мультимодальных наборов данных, таких как Set C, позволило провести тестирование возможностей больших языковых моделей (LLM) в интерпретации диаграмм, что является критически важным навыком для оценки решений в области физики. Набор данных Set C содержит изображения физических задач и соответствующих решений, представленных в виде диаграмм и уравнений. Это позволяет оценивать способность LLM не только понимать текстовое описание задачи, но и извлекать информацию непосредственно из визуального представления, что необходимо для проверки корректности решения и логических шагов, предпринятых для его достижения. Тестирование на подобных наборах данных выявляет ограничения существующих моделей в обработке визуальной информации и стимулирует разработку более эффективных алгоритмов мультимодального анализа.

Методы многомодальной обработки и визуального логического вывода (Visual Chain-of-Thought) позволяют большим языковым моделям (LLM) извлекать информацию из изображений и интегрировать её с текстовым рассуждением. Данные методы включают в себя предварительную обработку изображений для выявления ключевых элементов, а затем использование этих элементов в качестве входных данных для языковой модели. Визуальный логический вывод позволяет LLM последовательно анализировать изображение, формулировать промежуточные выводы и, в конечном итоге, прийти к решению, основанному как на визуальной, так и на текстовой информации. Это достигается за счет обучения моделей на наборах данных, содержащих как изображения, так и соответствующие текстовые описания или решения, что позволяет им устанавливать связи между визуальными и текстовыми представлениями данных.

Технологии распознавания рукописных решений, основанные на методах мультимодальной обработки, позволяют автоматизировать оценку студенческих работ, представленных в нецифровом формате. Современные модели демонстрируют предельную точность — около нуля средней абсолютной ошибки (MAE) — при оценке идеально решенных рукописных задач. Это достигается за счет извлечения информации из изображений рукописных решений и интеграции ее с логическим выводом, что позволяет системам автоматически проверять правильность шагов и конечного ответа, представленных студентом.

Визуальное сопоставление со свободными диаграммами тел позволяет добиться многомодальной производительности в задачах классической механики.

Учет завышения оценок и преодоление “порога рассуждений”

При оценке больших языковых моделей (LLM) последовательно наблюдается тенденция к завышению оценок по сравнению с оценками, выставляемыми людьми. Это означает, что LLM склонны присваивать более высокие баллы за одни и те же работы, что может искажать реальную картину успеваемости и затруднять объективное сравнение результатов. Данное явление, известное как “инфляция оценок”, требует внимательной калибровки моделей и, возможно, внедрения механизмов обратной связи с участием человека для обеспечения справедливой и точной оценки знаний и навыков. Важно учитывать эту особенность при использовании LLM в образовательных целях и при автоматизированной проверке работ, чтобы избежать необоснованно высоких оценок и поддерживать достоверность системы оценивания.

Проблема завышенных оценок, присущая большим языковым моделям, требует тщательной калибровки систем оценки. Исследования показывают, что модели склонны к более лояльному оцениванию, чем люди, что создает необходимость в механизмах, обеспечивающих справедливость и точность. Внедрение обратной связи от экспертов-людей, так называемого “human-in-the-loop” подхода, представляется перспективным решением. Такой метод позволяет корректировать предвзятость моделей, сопоставляя их оценки с экспертными, и тем самым повышать надежность автоматизированной оценки знаний и навыков. Подобная интеграция человеческого опыта и машинного обучения способна значительно улучшить качество оценки, обеспечивая более объективные и достоверные результаты.

Исследования выявили, что языковые модели могут сталкиваться с так называемыми “порогами рассуждений” — трудностями при решении задач, требующих сложного пространственного мышления или настройки систем. Однако, модели пятого поколения демонстрируют значительное снижение этих проблем. В частности, Gemini 3.0 Pro достигла коэффициента корреляции Пирсона в 0.9191 и коэффициента детерминации R² в 0.8448, что указывает на высокую степень согласованности с оценками, выставляемыми людьми. Это свидетельствует о значительном прогрессе в способности моделей к комплексному анализу и решению задач, приближая их к человеческому уровню понимания и оценки.

Анализ ошибок при оценке рукописных решений по физике показал, что расхождения между оценками модели и человека не связаны с общим количеством баллов в задании, а обусловлены различиями в выставленных баллах, что объясняет наблюдаемую в Figure 8 пропорциональную смещенность оценок.

Исследование демонстрирует возрастающую способность современных больших языковых моделей к решению сложных физических задач и оценке студенческих работ. Однако, как и в любом сложном механизме, существуют пределы и зоны уязвимости. Эта работа подчеркивает, что оценка нюансированного мышления и рукописных работ остается сложной задачей для ИИ. В связи с этим вспоминается высказывание Николы Теслы: «Самое важное — это не то, что я изобретаю, а то, что я помогаю другим изобретать». Подобно тому, как Тесла видел свою роль в раскрытии потенциала других, данное исследование стремится определить границы возможностей ИИ в образовании, чтобы направить дальнейшие разработки и совершенствование систем оценки и обучения.

Что дальше?

Представленные исследования демонстрируют, что современные большие языковые модели (БЯМ) всё увереннее справляются с задачами, традиционно относящимися к области физического образования. Однако, подобно любой системе, подверженной влиянию времени, БЯМ не избегают собственных ограничений. Несмотря на впечатляющую способность решать сложные задачи, оценка нюансированного рассуждения и, особенно, распознавание рукописного текста остаются областями, требующими дальнейшей доработки. Время, как среда, в которой функционируют эти системы, неизбежно выявляет уязвимости.

Вместо того, чтобы стремиться к созданию «идеального» оценщика, представляется более продуктивным признать, что ошибки — это не дефекты, а шаги на пути к зрелости системы. Будущие исследования должны сосредоточиться не только на повышении точности, но и на разработке методов, позволяющих БЯМ «учиться» на собственных ошибках и адаптироваться к различным стилям обучения и представления информации.

В конечном счете, вопрос не в том, смогут ли БЯМ заменить преподавателя, а в том, как эти инструменты могут быть использованы для создания более гибкой и персонализированной образовательной среды. Ведь любая система, чтобы оставаться актуальной, должна не просто функционировать, но и эволюционировать во времени.

Оригинал статьи: https://arxiv.org/pdf/2605.23660.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-25 20:41

🚀 Квантовые новости