Автор: Денис Аветисян
Новое исследование показывает, что современные языковые модели часто не могут адекватно оценить сложность учебных заданий так, как это делает человек.

Исследование выявляет расхождения между оценками сложности заданий, данными большими языковыми моделями, и реальными трудностями, с которыми сталкиваются учащиеся, используя симуляцию учебного процесса и теорию отклика на задачу.
Несмотря на впечатляющие успехи больших языковых моделей (LLM) в решении сложных задач, их способность понимать когнитивные трудности обучающихся остаётся под вопросом. В работе «Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction» представлен масштабный анализ соответствия оценок сложности задач, задаваемых LLM и людьми. Полученные результаты демонстрируют, что увеличение размера модели не приводит к лучшему согласованию с человеческим восприятием, а, напротив, к формированию “машинного консенсуса”, игнорирующего индивидуальные уровни подготовки. Действительно ли современные LLM способны не только решать задачи, но и моделировать процесс обучения, необходимый для автоматизированной оценки сложности материала?
Вызов Точной Оценки Сложности Задач
Традиционные методы определения сложности тестовых заданий, основанные на полевых испытаниях, представляют собой значительные затраты времени и ресурсов. Для оценки каждого вопроса требуется привлечение большого числа испытуемых, сбор и анализ данных об их ответах. Этот процесс не только дорог, но и длителен, поскольку для получения статистически значимых результатов необходим существенный объем данных. Кроме того, полевые испытания могут быть затруднены логистическими проблемами, особенно при оценке вопросов, требующих специализированных знаний или доступа к определенному оборудованию. В результате, разработка и валидация новых тестов и экзаменов может затягиваться на месяцы или даже годы, ограничивая возможности оперативной оценки знаний и навыков.
Точная оценка сложности заданий имеет решающее значение для эффективного адаптивного обучения и обеспечения справедливой оценки знаний. Существующие методы, как правило, не способны уловить тонкие нюансы, влияющие на восприятие сложности учащимися. В частности, традиционные подходы часто полагаются на статистические показатели, полученные в результате тестирования больших групп, не учитывая когнитивные процессы, которые определяют, насколько сложным кажется задание конкретному ученику. Это приводит к тому, что задания, кажущиеся легкими для одних, могут оказаться сложными для других, и наоборот. Неспособность точно оценить сложность препятствует созданию персонализированных образовательных траекторий и может привести к несправедливой оценке способностей, поскольку стандартные тесты могут недооценивать знания тех, кто испытывает трудности с восприятием формулировок, или переоценивать тех, кто хорошо адаптируется к тестовым ситуациям.
Современные языковые модели, обладая обширными знаниями, представляются перспективным инструментом для автоматической оценки сложности заданий. Однако, первоначальные исследования демонстрируют существенное расхождение между предсказанной моделью сложностью и фактическим уровнем трудности, подтвержденным результатами тестирования. В частности, анализ данных USMLE показал крайне низкую корреляцию между прогнозируемой и реальной сложностью, выраженную коэффициентом корреляции Спирмена $ρ$, приблизительно равным 0.13. Этот результат указывает на необходимость дальнейшей доработки методов, использующих языковые модели, для достижения адекватной оценки сложности заданий и эффективного применения в адаптивном обучении и объективной оценке знаний.

Ограничения Языковых Моделей: Отсутствие Метакогниции и Эффект «Машинного Консенсуса»
Большие языковые модели (LLM) демонстрируют явную неспособность точно оценивать собственные ограничения, что проявляется в виде “метакогнитивной слепоты” — несоответствия между объемом знаний и осознанием границ этих знаний. Этот феномен указывает на отсутствие у моделей самооценки в отношении достоверности генерируемых ответов. Измерение метакогнитивной слепоты с использованием метрики AUROC (площадь под ROC-кривой) показывает низкий результат, приблизительно 0.55, что сопоставимо со случайным угадыванием при прогнозировании собственных ошибок. Фактически, модели не способны надежно определить, когда их ответы могут быть неверными или ненадежными, что представляет собой значимую проблему для надежного применения в критически важных областях.
Способность больших языковых моделей (LLM) к самооценке собственной точности ограничена, что подтверждается количественными метриками. В частности, показатель $AUROC$ (Area Under the Receiver Operating Characteristic Curve), измеряющий способность модели различать правильные и ошибочные ответы, составляет приблизительно 0.55. Этот результат сопоставим с производительностью случайного угадывания, что указывает на существенные трудности LLM в прогнозировании собственных ошибок и оценке достоверности генерируемой информации. Низкое значение $AUROC$ свидетельствует о проблемах с метакогнитивными способностями моделей и требует разработки методов повышения их самосознания.
Анализ тенденции к «машинному консенсусу» в больших языковых моделях (LLM) показал, что модели часто демонстрируют согласованность в оценке сложности задач, даже если эта оценка расходится с человеческим восприятием. Набор данных USMLE продемонстрировал “уровень эксперта” (Savant Rate) в 70.4

Моделирование Успеваемости Учащихся: Согласование ИИ с Когнитивными Принципами
Моделирование уровня успеваемости учащихся представляет собой метод улучшения согласования сложности между человеком и искусственным интеллектом, основанный на создании моделей, отражающих различные уровни знаний студентов — от низкого до высокого. Данный подход позволяет исследовать, как ИИ оценивает сложность концепций для учащихся с разным уровнем подготовки. Имитируя различные профили знаний, можно калибровать прогнозы больших языковых моделей (LLM) в соответствии с установленными принципами когнитивной психологии и оценивать, насколько адекватно ИИ понимает трудности, с которыми сталкиваются учащиеся с разным уровнем подготовки. Это позволяет не просто оценивать, что знает ИИ, а то, как он воспринимает сложность материала для различных категорий учащихся.
Моделирование различных уровней понимания позволяет исследователям калибровать прогнозы больших языковых моделей (LLM) в соответствии с установленными когнитивными принципами. Этот процесс включает в себя создание искусственных профилей учащихся с разным уровнем знаний и навыков, что позволяет оценить, как LLM оценивает сложность концепций для каждой из этих групп. Сопоставляя прогнозы LLM с ожидаемыми результатами учащихся, основанными на когнитивных моделях, можно выявить расхождения и внести коррективы в алгоритмы LLM для повышения их способности адаптироваться к различным уровням подготовки. Такой подход позволяет не просто оценить знания LLM, а проверить, насколько адекватно она понимает трудности, с которыми сталкиваются учащиеся с разным опытом.
Метод моделирования уровня знаний учащихся позволяет оценить не просто объем знаний, которыми обладает большая языковая модель (LLM), но и её способность определять сложность концепций для обучающихся с различным уровнем подготовки. В отличие от простой проверки фактов, данный подход анализирует, как LLM воспринимает трудности, возникающие у учеников с разным опытом. Хотя коэффициент корреляции рангов Спирмена (ρ) для набора данных SAT Math составляет умеренные 0.41, моделирование уровня знаний направлено на дальнейшее улучшение согласованности и преодоление ограничений, выявленных в наборе данных USMLE, где корреляция была низкой.
Преодоление Когнитивных Искажений и Перспективы Развития
Феномен, известный как “проклятие знания”, оказывает существенное влияние на оценку сложности задач как людьми, так и искусственным интеллектом. Суть этого явления заключается в том, что человеку, уже владеющему информацией или навыком, крайне сложно объективно оценить, насколько сложна задача для того, кто с ней сталкивается впервые. Это приводит к систематическим ошибкам при калибровке систем оценки сложности, поскольку эксперты склонны недооценивать трудности, с которыми может столкнуться новичок. В результате, разработанные алгоритмы и тесты могут оказаться слишком сложными или, наоборот, слишком простыми для целевой аудитории. Для преодоления этой проблемы необходимо учитывать субъективность оценки и использовать методы, позволяющие выявлять и корректировать смещения, вызванные “проклятием знания”, при разработке и валидации систем искусственного интеллекта, предназначенных для оценки компетенций и адаптивного обучения.
Для обеспечения надежности оценки сложности задач, генерируемых искусственным интеллектом, все больше внимания уделяется использованию устоявшихся психометрических моделей, таких как теория отклика на задачу (IRT). Данный подход позволяет перейти от субъективных оценок к эмпирически обоснованным показателям сложности, учитывающим не только характеристики самой задачи, но и способности решающего. Применение IRT предполагает анализ откликов большого числа испытуемых на задачи различной сложности, что позволяет построить модель, связывающую вероятность успешного решения с уровнем знаний и характеристиками задачи. В результате, сложность задач, определяемая машиной, калибруется на основе объективных данных, что повышает точность адаптивных систем обучения и тестирования, а также способствует созданию более эффективных образовательных ресурсов, соответствующих индивидуальному уровню подготовки каждого учащегося.
Согласование оценки сложности задач человеком и искусственным интеллектом открывает широкие перспективы в области персонализированного обучения и адаптивного тестирования. Более точное определение уровня сложности позволяет создавать учебные программы, идеально соответствующие индивидуальным потребностям каждого учащегося, максимизируя эффективность усвоения материала. Адаптивные тесты, использующие согласованные оценки сложности, способны более точно измерить знания и навыки, избегая как чрезмерной простоты, так и необоснованной сложности вопросов. В результате, появляется возможность разработки более эффективных образовательных ресурсов, способствующих глубокому пониманию и долгосрочному запоминанию, а также повышению общей успеваемости обучающихся. Улучшенная калибровка сложности между человеком и ИИ не только оптимизирует процесс обучения, но и обеспечивает более справедливую и объективную оценку знаний.
Исследование демонстрирует, что современные большие языковые модели испытывают трудности с точной оценкой сложности заданий, подобно тому, как это делают люди. Этот разрыв в оценках указывает на отсутствие у моделей метакогнитивного осознания, необходимого для согласования их прогнозов с реальными трудностями, с которыми сталкиваются учащиеся. Как отмечал Эдсгер Дейкстра: «Программы должны быть написаны для людей, а не для компьютеров». Данная работа подтверждает, что даже сложные системы, подобные LLM, нуждаются в более глубоком понимании когнитивных процессов человека для эффективной адаптации к образовательным задачам и прогнозированию успешности выполнения заданий, особенно учитывая, что архитектура без истории действительно хрупка и скоротечна.
Что дальше?
Представленная работа обнажает закономерность: языковые модели, несмотря на кажущуюся компетентность, демонстрируют расхождение в оценке сложности задач по сравнению с человеческим восприятием. Это не столько ошибка алгоритма, сколько закономерное следствие его природы — системы, оперирующей статистическими связями, а не пониманием. Стабильность этих прогнозов — иллюзия, закешированная временем, и, как показывает исследование, она не отражает реальные трудности, с которыми сталкиваются учащиеся.
Попытки сблизить машинную оценку сложности с человеческой, вероятно, потребуют не столько увеличения объемов данных или усложнения архитектуры моделей, сколько принципиально нового подхода к моделированию метапознания. Задержка, как плата за каждый запрос, становится особенно заметной именно здесь — модель оперирует информацией, не имея представления о её осмыслении.
В конечном итоге, вопрос не в том, чтобы научить машину предсказывать сложность, а в том, чтобы понять, что само понятие “сложность” — динамичное, контекстуальное и неотделимое от процесса обучения. Все системы стареют — вопрос лишь в том, делают ли они это достойно, принимая неизбежность изменений и не пытаясь зафиксировать иллюзорную стабильность.
Оригинал статьи: https://arxiv.org/pdf/2512.18880.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Нейронные Операторы в Энергетике: Новый Подход к Моделированию
- Фотонные квантовые вычисления: на пути к практической реализации
- Квантовая оптимизация без ограничений: Новый подход к масштабируемым алгоритмам
- Быстрая генерация текста: от авторегрессии к диффузионным моделям
- Квантовый сенсор: Оптимизация для быстрых и точных измерений
- Адаптивная Квантизация: Новый Подход к Сжатию Больших Языковых Моделей
- Квантовые ядра в работе: новый взгляд на классификацию данных
- Ранговая оптимизация без градиента: Новые границы эффективности
- Синергия лекарств: поиск комбинаций с помощью квантовых вычислений
- Искусство отбора данных: Новый подход к обучению генеративных моделей
2025-12-23 17:02