Автор: Денис Аветисян
Новое исследование сравнивает способность больших языковых моделей и людей оценивать увлекательность математических задач, выявляя как сходства, так и различия в их восприятии.

Исследование корреляции между оценками интересности математических задач, данными людьми и большими языковыми моделями, и ее последствия для автоматизированного поиска и обучения.
Несмотря на возрастающую роль искусственного интеллекта в математике, вопрос о том, насколько хорошо машины понимают, что делает математическую задачу интересной, остается открытым. В своей работе ‘A Matter of Interest: Understanding Interestingness of Math Problems in Humans and Language Models’ мы исследуем, насколько оценки «интересности» математических задач, данных большими языковыми моделями (LLM), согласуются с человеческими суждениями, привлекая как широкую аудиторию, так и экспертов-олимпиадников. Полученные результаты показывают, что хотя LLM и демонстрируют общую тенденцию к согласию с людьми, они не воспроизводят тонкости и распределение оценок, характерные для человеческого восприятия. Смогут ли современные LLM стать надежными партнерами в математических исследованиях и обучении, если не способны в полной мере оценить «притягательность» задачи?
Субъективность Математической Ценности
Оценка математических задач выходит за рамки сложности, определяясь понятием «интересности», которое носит субъективный характер. Традиционные метрики вычислительной сложности не отражают качества, привлекательные для исследователей. Человеческие математики ценят элегантность и новизну решений, характеристики, трудно поддающиеся количественной оценке для ИИ. Понимание этих предпочтений – ключ к созданию ИИ, способного ценить красоту и оригинальность математических идей.

Истинное математическое понимание подобно живому организму: каждое новое ограничение – цена свободы, а структура определяет потенциал роста.
Оценка ИИ на Основе Человеческих Суждений
Для оценки способности ИИ к определению ценности задачи используются «экспертные оценки» математиков, служащие эталоном для сравнения с результатами моделей. Используются наборы данных, включающие задачи из соревнований AMC и IMO, обеспечивая широкий спектр математических проблем. Большие языковые модели способны аппроксимировать человеческое восприятие интересности математических задач с коэффициентом детерминации $R^2$ от 0.48 до 0.78, демонстрируя значительное соответствие человеческим суждениям.

Метрика «Расстояние Вассерштейна» используется для строгого сравнения распределений оценок. Лучшая модель (Mistral 7B) достигает WD 12.4 (95% CI: [0.3, 16.0]), базовая оценка (основанная на оценках людей) – 9.5 (CI: [7.8, 11.5]).
Большие Модели Рассуждений для Эффективной Оценки
Представлены «Большие модели рассуждений» (LRM), обученные с использованием обучения с подкреплением для оптимизации точности и вычислительной эффективности. Этот подход позволяет достичь лучших результатов по сравнению с традиционными методами, за счет стратегического распределения «количества токенов рассуждений» для фокусировки на наиболее релевантных аспектах проблемы. В отличие от больших языковых моделей, способных решать математические задачи, но требующих больших вычислительных затрат, LRM разработаны не только для поиска решений, но и для оценки качества математической задачи, адаптируя глубину и сложность рассуждений к характеристикам конкретной проблемы.

Оптимизация LRM осуществляется на основе баланса между точностью решения и вычислительными ресурсами, что делает их перспективными для задач, требующих высокой производительности. Обучение с подкреплением позволяет модели самостоятельно определять оптимальную стратегию рассуждений для каждой задачи, избегая избыточной сложности.
К Автоматизированному Математическому Открытию
Оценка «интересности задачи» большими языковыми моделями (LRM) направляет поиск новых математических задач, обеспечивая более эффективное распределение вычислительных ресурсов и фокусировку на перспективных направлениях исследований. Исследование «вариаций задач» позволяет выявить признаки, определяющие воспринимаемую интересность, и уточнить суждения модели, анализируя различные формулировки одной и той же задачи.

Создание основы для «автоматизированного математического открытия», где ИИ автономно предлагает и исследует новые теоремы, становится все более реальным. Автоматизация этого процесса потенциально способна ускорить темпы математических инноваций, расширяя границы человеческого знания. И, подобно тому, как экосистема процветает благодаря взаимосвязи всех ее частей, математическое знание растет благодаря сложной сети идей и открытий.
Исследование показывает, что оценка «интересности» математических задач как человеком, так и большой языковой моделью, не является тривиальной задачей. Авторы статьи выявили корреляцию между суждениями людей и LLM, однако и существенные различия в распределении оценок. Это подчеркивает важность понимания внутренних критериев оценки, которыми руководствуется каждая из сторон. Как однажды заметил Марвин Минский: «Наиболее перспективный способ сделать что-либо новое — это увидеть что-то старое по-новому». Действительно, способность LLM к оценке математических задач может открыть новые пути для автоматического открытия и обучения, однако для этого необходимо учитывать специфику их «восприятия» и избегать упрощенных аналогий с человеческим мышлением. Понимание границ ответственности и предвидение слабых мест системы, как в алгоритме, так и в процессе обучения, является ключом к успешному развитию искусственного интеллекта.
Куда Ведет Любопытство?
Настоящая работа, исследуя способность больших языковых моделей оценивать «интересность» математических задач, лишь приоткрывает дверь в сложный лабиринт. Замеченная корреляция между оценками моделей и людей, безусловно, обнадеживает, но различия в распределениях заставляют задуматься о природе самого «интереса». Представляется, что модели, оперируя статистическими закономерностями, упускают тонкие нюансы, формирующие человеческое любопытство – интуицию, эстетическое удовольствие от элегантного решения, ощущение «ага!» момента. Каждая новая зависимость от этих моделей – это скрытая цена свободы от самостоятельного мышления.
Перспективы применения в автоматизированном обнаружении математических истин и образовании кажутся заманчивыми, но требуют осторожного подхода. Оценивая задачу как «интересную», модель, по сути, сигнализирует о наличии потенциала для дальнейшего исследования, но не гарантирует его ценности. Важно помнить, что структура определяет поведение, и если система оценки «интересности» построена на упрощенных критериях, она может привести к пренебрежению нетривиальными, но глубокими задачами.
Следующим шагом видится не просто улучшение корреляции, но и попытка понять, как модели формируют свое представление об «интересности». Необходимо разработать более тонкие метрики, учитывающие не только сложность задачи, но и ее потенциальную связь с другими областями математики, ее эстетическую привлекательность и возможность для творческого решения. Иначе, рискуем создать систему, которая лишь подтверждает наши собственные предубеждения, а не открывает новые горизонты.
Оригинал статьи: https://arxiv.org/pdf/2511.08548.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- Квантовый скачок из Андхра-Прадеш: что это значит?
- Виртуальная примерка без границ: EVTAR учится у образов
- Геометрия на пределе: как алгоритмы оптимизации превосходят языковые модели
- Разгадывая тайны квантового мира: переработка кубитов и шум как тайная приправа?
- Оптимизация партийных запросов: Метод имитации отжига против градиентных подходов
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Скрытая сложность: Необратимые преобразования в квантовых схемах
2025-11-12 23:34