Искусственный интеллект на службе образования: автоматическая проверка текстов нового поколения

Автор: Денис Аветисян


Новое исследование показывает, как использование дополнительных данных из смежных областей позволяет значительно повысить точность систем автоматической проверки письменных работ.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Для классификации ответов студентов используется конвейер, основанный на моделях GPT, в котором в запрос включается тип вопроса (воспроизведение, перефразирование или перевод), примеры правильных, неполных и неправильных ответов, а также ответ самого студента; полученные от предварительно обученных (и дообученных, и не дообученных) моделей GPT текстовые классификации требуют ручной интерпретации для сопоставления с категориями «Правильно», «Неполно» или «Неправильно», а в качестве эталонных данных для оценки используются ответы, оцененные экспертами в предметной области.
Для классификации ответов студентов используется конвейер, основанный на моделях GPT, в котором в запрос включается тип вопроса (воспроизведение, перефразирование или перевод), примеры правильных, неполных и неправильных ответов, а также ответ самого студента; полученные от предварительно обученных (и дообученных, и не дообученных) моделей GPT текстовые классификации требуют ручной интерпретации для сопоставления с категориями «Правильно», «Неполно» или «Неправильно», а в качестве эталонных данных для оценки используются ответы, оцененные экспертами в предметной области.

Обучение моделей на данных из смежных областей позволяет достичь сопоставимой с GPT-3.5 точности при проверке ответов на открытые вопросы, используя более эффективные модели, такие как BERT.

Оценка развернутых ответов является ключевым аспектом образовательного процесса, однако ограниченность ресурсов и большие объемы работы затрудняют предоставление своевременной и детальной обратной связи. В работе, посвященной AI-Enabled grading with near-domain data for scaling feedback with human-level accuracy’, предложен новый подход к автоматической оценке ответов на вопросы с кратким ответом, основанный на использовании данных из смежных предметных областей. Показано, что применение такого подхода позволяет достичь точности, сопоставимой с результатами, полученными с использованием больших языковых моделей, таких как GPT-3.5, при этом используя более эффективные модели, например BERT. Какие перспективы открывает использование данных из смежных областей для повышения эффективности и масштабируемости систем автоматической оценки в образовании?


Автоматизированная Оценка: Между Идеалом и Реальностью

Автоматизированная проверка кратких ответов (ASAG) сталкивается со значительными трудностями, обусловленными внутренней изменчивостью человеческого языка. Закон Ципфа, описывающий неравномерное распределение частотности слов, демонстрирует, что небольшое количество слов встречается очень часто, в то время как подавляющее большинство — редко. Это означает, что даже простые ответы могут быть выражены бесконечным числом способов, что затрудняет создание алгоритмов, способных точно оценивать семантическую эквивалентность различных формулировок. Вследствие этого, системам ASAG необходимо учитывать не только наличие ключевых слов, но и синонимы, перефразировки и контекст, чтобы адекватно оценивать ответы, что представляет собой сложную лингвистическую задачу.

Традиционная оценка письменных работ, осуществляемая людьми, демонстрирует уровень согласованности между разными проверяющими примерно в 80%. Этот показатель, хоть и считается приемлемым, указывает на значительную субъективность в процессе оценивания и потенциальную непоследовательность в выставлении баллов. Несмотря на опыт и квалификацию педагогов, различия в интерпретации ответов неизбежны, что подчеркивает необходимость разработки надежных автоматизированных систем оценки, способных обеспечить более объективный и воспроизводимый результат. Автоматизированные решения, стремящиеся к высокой степени согласованности, могут не только повысить справедливость оценивания, но и освободить время преподавателей для более важных задач, связанных с индивидуальной работой с учащимися.

Большие Языковые Модели: Новый Инструмент в Автоматизированной Оценке

Современные большие языковые модели, такие как GPT-3.5 Turbo, GPT-4 Turbo и GPT-4o, демонстрируют значительный потенциал для автоматизации оценки ответов на вопросы с кратким ответом. Эти модели, основанные на архитектуре трансформеров, способны анализировать текст и выявлять семантические связи, что позволяет им оценивать соответствие ответа заданному вопросу и критериям оценки. Использование таких моделей позволяет снизить трудозатраты на проверку работ, особенно в условиях массовых онлайн-курсов и образовательных платформ. В отличие от традиционных методов автоматической проверки, основанных на сопоставлении ключевых слов, современные языковые модели учитывают контекст и смысл ответа, что повышает точность и объективность оценки.

Для повышения эффективности оценки ответов на открытые вопросы, большие языковые модели, такие как GPT, могут быть подвергнуты тонкой настройке (fine-tuning). Этот процесс адаптирует общие знания модели к специфическим требованиям конкретных оценочных задач. Архитектуры, основанные на BERT (Bidirectional Encoder Representations from Transformers), широко используются в тонкой настройке благодаря их способности эффективно обрабатывать контекст и понимать нюансы языка. В отличие от использования модели «из коробки», тонкая настройка позволяет модели лучше интерпретировать ответы студентов, учитывая специфическую терминологию, структуру ответов и ожидаемый уровень детализации, что в итоге приводит к более точной и релевантной оценке.

Тонкая настройка больших языковых моделей (БЯМ) с использованием данных, близких к предметной области оценки, значительно повышает их эффективность в автоматизированной проверке коротких ответов. В частности, использование таких данных позволяет моделям лучше понимать нюансы ответов студентов, что приводит к существенному улучшению показателей точности. В ходе экспериментов было зафиксировано увеличение производительности до 43.61% по вопросу Q2 по сравнению с базовыми моделями, что демонстрирует значительный потенциал данного подхода для повышения качества автоматизированной оценки.

Последовательная дообучающая настройка моделей BMQ на близких к целевым данным значительно повышает их точность в задачах транскрипции и перевода, позволяя достичь лучших результатов с меньшим объемом обучающих данных, хотя дальнейшее увеличение данных приводит к насыщению точности.
Последовательная дообучающая настройка моделей BMQ на близких к целевым данным значительно повышает их точность в задачах транскрипции и перевода, позволяя достичь лучших результатов с меньшим объемом обучающих данных, хотя дальнейшее увеличение данных приводит к насыщению точности.

Оценка Эффективности: От Теории к Практике

Оценка производительности моделей машинного обучения осуществляется с использованием метрик, таких как точность ($Accuracy$), прецизионность ($Precision$), полнота ($Recall$) и F1-мера, обеспечивающих всестороннюю оценку их способности к классификации. В частности, модель BERT, прошедшая тонкую настройку, демонстрирует точность в 92.5% при использовании данных, близких к целевой предметной области. Данный показатель отражает эффективность модели в правильной классификации входных данных и является ключевым критерием при сравнении с другими моделями машинного обучения.

Оценка моделей в контексте центральной догмы молекулярной биологии необходима для обеспечения их применимости к конкретной предметной области. Центральная догма, описывающая поток генетической информации от ДНК к РНК и далее к белкам, определяет фундаментальные принципы, лежащие в основе биологических процессов. Соответственно, модели, демонстрирующие понимание этих принципов — например, корректное определение связей между генами, транскрипцией, трансляцией и функциями белков — будут более надежно и точно оценивать знания в данной области. Игнорирование этих основополагающих принципов может привести к неверной оценке ответов, даже если они формально соответствуют заданным критериям.

При развертывании больших языковых моделей для крупномасштабной оценки необходимо учитывать вычислительные затраты. В частности, модель BERT, прошедшая тонкую настройку, требует значительно меньше размеченных данных для достижения сопоставимой точности по сравнению с более крупными языковыми моделями. Это означает, что, несмотря на потенциально более высокие требования к вычислительным ресурсам во время обучения, BERT может обеспечить более экономичное решение в долгосрочной перспективе за счет снижения затрат на сбор и разметку данных. Снижение потребности в больших объемах размеченных данных также ускоряет процесс обучения и позволяет быстрее адаптировать модель к конкретным задачам.

Модель последовательно дообучается на различных наборах данных (T1, T2, T3), начиная с базовой BERT-модели (B0), что позволяет получить специализированные версии (BMQ1, BMQ1Q2, BMQ1Q2Q3) для конкретных задач.
Модель последовательно дообучается на различных наборах данных (T1, T2, T3), начиная с базовой BERT-модели (B0), что позволяет получить специализированные версии (BMQ1, BMQ1Q2, BMQ1Q2Q3) для конкретных задач.

Взгляд в Будущее: Автоматизация Оценки и Переосмысление Образования

Успешное применение больших языковых моделей (LLM) к автоматизированной оценке кратких ответов (ASAG) указывает на перспективный переход к новым подходам в образовательной практике. Автоматизация процесса оценивания открывает возможности для масштабирования и повышения объективности, что особенно важно при работе с большим количеством студентов. Это позволяет не только снизить нагрузку на преподавателей, но и обеспечить единообразие критериев оценки, минимизируя субъективные факторы. Подобные системы способны оперативно обрабатывать большие объемы данных, предоставляя своевременную обратную связь и выявляя пробелы в знаниях учащихся, что в конечном итоге способствует повышению эффективности обучения.

Автоматизация оценивания, ставшая возможной благодаря применению языковых моделей, предоставляет преподавателям ценное время для переключения фокуса с рутинной проверки заданий на более важные аспекты образовательного процесса. Освобожденные от трудоемкой оценки, педагоги могут уделить больше внимания индивидуальным потребностям каждого ученика, разрабатывая персонализированные стратегии обучения и оказывая адресную поддержку. Такой подход способствует не просто проверке усвоенных знаний, но и развитию критического мышления, творческих способностей и глубокого понимания материала, что, в конечном итоге, ведет к повышению качества образования и формированию более компетентных и мотивированных обучающихся.

Исследования показывают, что для автоматизированной оценки ответов на открытые вопросы, модели на базе BERT, подвергшиеся тонкой настройке с использованием данных, близких к предметной области, демонстрируют сопоставимую или даже превосходящую точность по сравнению с крупными языковыми моделями, такими как GPT-3.5, GPT-4 и GPT-4o. При этом, тонкая настройка BERT требует значительно меньше размеченных данных и вычислительных ресурсов, достигая точности в диапазоне 67.0-80.0%. В связи с этим, дальнейшие исследования должны быть направлены на снижение вычислительных затрат и повышение надежности подобных моделей в различных образовательных контекстах, что позволит сделать автоматизированную оценку более доступной и эффективной.

Наблюдается закономерность: стремление к автоматизации оценки, описанное в статье, неизбежно сталкивается с необходимостью адаптации моделей к специфике предметной области. Авторы демонстрируют, что использование «почти-доменных» данных значительно повышает точность систем оценки коротких ответов, приближая их к производительности крупных языковых моделей, таких как GPT-3.5, но с использованием более эффективных моделей вроде BERT. Как будто каждый «революционный» инструмент требует калибровки под реальные условия. В этой связи вспоминается высказывание Анри Пуанкаре: «Наука не состоит из ряда истин, а из методов». Иначе говоря, важна не сама модель, а способность адаптировать её к конкретным задачам, используя доступные данные и методы обучения.

Куда Поведёт Автоматизация?

Представленная работа демонстрирует, что даже скромные модели, вроде BERT, способны приблизиться к иллюзии человеческой оценки, если их «подкармливать» данными из смежных областей. Это, конечно, не отменяет фундаментальной проблемы: каждая «точность», достигнутая сегодня, — это лишь отложенный долг, который придётся выплачивать завтра. Скоро обнаружится, что «смежные области» — это лишь эвфемизм для «недостаточно тщательно протестированных граничных случаев». Каждый раз, когда кто-то говорит о «масштабируемости», стоит помнить, что это обычно означает «не протестировано под нагрузкой».

Более того, оптимизация под «человеческую точность» — занятие, возможно, бессмысленное. Оценка — процесс субъективный, а попытка его автоматизировать неизбежно приводит к навязыванию одной, «правильной» точки зрения. В конце концов, иногда лучше монолитный, пусть и несовершенный, критерий оценки, чем сто микросервисов, каждый из которых врёт по-своему. Особенно, когда эти микросервисы пытаются имитировать нюансы человеческого мышления.

В перспективе, стоит задуматься не о том, как улучшить автоматическую оценку, а о том, не упустим ли мы что-то важное в погоне за эффективностью. Ведь «экономия времени» — это лишь красивая обёртка для «утраты навыка критического мышления». И, возможно, в конечном итоге, преподаватели окажутся заняты не проверкой работ, а разбором бреда, сгенерированного «умными» системами.


Оригинал статьи: https://arxiv.org/pdf/2512.04113.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-07 00:34