LLM: математика — предел возможностей.

Автор: Денис Аветисян


На основе данных о производительности различных больших языковых моделей на AMO-Bench, показатель AVG@32 демонстрирует существенные различия в эффективности между ними.
На основе данных о производительности различных больших языковых моделей на AMO-Bench, показатель AVG@32 демонстрирует существенные различия в эффективности между ними.

Долгое время считалось, что прогресс в области больших языковых моделей неумолим, что каждая новая итерация приближает нас к искусственному интеллекту, способному решать задачи, ранее подвластные лишь человеческому разуму. Казалось бы, математика, с её строгой логикой и чёткостью, должна была стать триумфом этих систем. Однако, публикация AMO-Bench: Large Language Models Still Struggle in High School Math Competitions безжалостно демонстрирует, что даже кажущийся успех в решении математических задач часто является иллюзией, скрывающей глубокую неспособность к настоящему пониманию и инновационному решению проблем. Настоящая сложность математики, требующая не просто воспроизведения шаблонов, но и гибкого мышления, по-прежнему остаётся недостижимой для современных моделей. И если даже школьные математические олимпиады представляют собой непреодолимый барьер, не является ли наше представление об «интеллекте» искусственного интеллекта, в конечном итоге, просто проекцией наших собственных надежд и заблуждений?

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

Пределы Современных Эталонов

Существующие эталоны оценки математического мышления, такие как AIME, всё чаще оказываются недостаточными для адекватной оценки продвинутых языковых моделей. Наблюдается тенденция к завышению метрик производительности, поскольку эти эталоны перестают предлагать задачи, требующие истинно сложного и новаторского подхода к решению. Проще говоря, они больше не заставляют модели демонстрировать подлинную глубину понимания.

Эти эталоны часто лишены глубины и сложности, необходимой для оценки способности модели справляться с принципиально новыми и запутанными математическими проблемами. Уровень абстракции и креативности, требуемые для решения сложных задач, часто упускается из виду, что приводит к упрощённой оценке реальных возможностей модели. Истинно сложная проблема требует не только знания формул, но и умения адаптировать и комбинировать их нестандартным образом.

Исследование демонстрирует, что производительность модели и длина выходных данных изменяются в зависимости от приложенных усилий при рассуждении.
Исследование демонстрирует, что производительность модели и длина выходных данных изменяются в зависимости от приложенных усилий при рассуждении.

Ясность – это минимальная форма любви. Поэтому, при создании эталонов оценки, необходимо стремиться к максимальной чёткости и прозрачности задач, исключая любые двусмысленности или излишнюю сложность, не относящуюся к сути проверяемого навыка. Простота – это не упрощение, а концентрация на главном. Задача должна быть сформулирована так, чтобы модель могла сосредоточиться на решении, а не на расшифровке условий.

Необходимо помнить, что истинное понимание математики проявляется не в способности воспроизводить известные решения, а в умении находить новые пути к решению принципиально новых задач. Именно это умение должно быть в центре внимания при создании эталонов оценки.

AMO-Bench: Новый Стандарт Рассуждений

Представлена работа над новым стандартом оценки математического мышления – AMO-Bench. Это не просто набор задач, а тщательно выстроенный критерий, состоящий из пятидесяти проблем, намеренно превосходящих по сложности существующие эталоны, такие как AIME. Цель – не увеличение объема, а повышение концентрации вызова для моделей искусственного интеллекта.

В основе создания AMO-Bench лежит принцип ‘Оригинальное Создание Проблем’. Это не компиляция существующих задач, а их генерация с нуля. Исключена любая возможность утечки данных из существующих источников. Идея проста: оценить не способность запоминать, а способность мыслить.

Представленный конвейер построения и оценки AMO-Bench обеспечивает структурированный подход к оценке моделей.
Представленный конвейер построения и оценки AMO-Bench обеспечивает структурированный подход к оценке моделей.

Гарантия высокого уровня сложности достигается благодаря процессу ‘Оценка Гарантированной Сложности’. Каждая задача проходит строгую проверку экспертами, специализирующимися в математических олимпиадах. Однако, человеческая оценка не является единственным критерием. В оценке также участвуют современные языковые модели, что позволяет выявить недостаточно сложные или неоднозначные задачи. Это симбиоз человеческого опыта и машинной точности.

Задача не в том, чтобы создать больше задач, а в том, чтобы отобрать наиболее значимые и сложные. В AMO-Bench оставлено только то, что действительно проверяет глубину математического мышления. Все лишнее было удалено, чтобы сконцентрироваться на сути. Смысл не в количестве, а в качестве.

Оценка LLM с Использованием AMO-Bench

Для оценки производительности больших языковых моделей (LLM) на базе AMO-Bench был применен метод ‘Оценивание по конечному ответу’ (Final-Answer Grading), разработанный для обеспечения эффективной автоматической оценки. Данный подход был дополнен двумя основными компонентами: ‘Оценивание на основе парсера’ для числовых и множественных ответов, и ‘Оценивание на основе LLM’ для более сложных, описательных ответов.

Применяемый подход к оцениванию позволяет автоматизировать процесс проверки ответов, минимизируя субъективность и обеспечивая воспроизводимость результатов. ‘Оценивание на основе парсера’ эффективно обрабатывает ответы, представленные в структурированном формате, обеспечивая высокую точность и скорость оценки. ‘Оценивание на основе LLM’ обеспечивает гибкость при оценке ответов, требующих более глубокого понимания и интерпретации.

Модели, такие как GPT-5-Thinking и DeepSeek, были подвергнуты оценке, что позволило получить первоначальные представления об их производительности на этом новом, сложном эталоне. Полученные результаты позволяют оценить текущие возможности LLM в решении сложных математических задач и определить направления для дальнейших исследований.

Анализ показывает, что производительность LLM, измеренная как AVG@32, обратно пропорциональна средней длине генерируемого вывода.
Анализ показывает, что производительность LLM, измеренная как AVG@32, обратно пропорциональна средней длине генерируемого вывода.

Анализ полученных данных выявил обратную зависимость между производительностью LLM, измеренной как AVG@32, и средней длиной генерируемого вывода. Данный результат указывает на то, что более сложные задачи требуют от LLM более развернутых объяснений, что, в свою очередь, может снижать общую эффективность решения. Более подробный анализ данной зависимости представлен в последующих разделах.

В рамках оценки производительности LLM на базе AMO-Bench, особое внимание уделялось не только точности получаемых ответов, но и эффективности процесса решения. Данный подход позволяет получить более полное представление о возможностях LLM и определить направления для дальнейшей оптимизации.

Анализ Эффективности Рассуждений и Потенциала

Оценка производительности на AMO-Bench выявила важность учета не только точности, но и потребления токенов. Каждая сложность требует алиби, и потребление токенов указывает на эффективность рассуждений.

Абстракции стареют, принципы — нет. Метрика ‘Pass@32’, определяющая вероятность правильного ответа при множестве попыток, предоставляет более тонкое понимание потенциала модели, чем однократная точность. Это позволяет выявить скрытые возможности и оценить стабильность рассуждений.

На различных математических тестах наблюдается взаимосвязь между точностью решения и средней длиной выводимого ответа.
На различных математических тестах наблюдается взаимосвязь между точностью решения и средней длиной выводимого ответа.

Для поддержки анализа и разработки более надежных моделей рассуждений были созданы подробные пути рассуждений, аннотированные экспертами. Каждая деталь важна, и эти пути позволяют отследить ход мыслей и выявить слабые места в логике.

В конечном итоге, задача не в том, чтобы создать сложные модели, а в том, чтобы создать простые и эффективные. Принципы должны быть ясными, а решения — логичными. Каждая сложность должна быть оправдана, а каждый шаг — понятен.

Представленный труд демонстрирует, что даже самые передовые большие языковые модели испытывают трудности с решением нестандартных математических задач, требующих глубокого понимания принципов, а не просто воспроизведения заученных шаблонов. Это напоминает о важности ясности в подходах к решению проблем. Тим Бернерс-Ли однажды заметил: «Связь между страницами — это не просто техническая возможность, это способ мышления». Подобно тому, как взаимосвязанные страницы требуют четкой структуры, так и решение сложных математических задач требует ясности в логических связях и понимании фундаментальных принципов. AMO-Bench, как новый бенчмарк, подчеркивает необходимость поиска более эффективных методов оценки и улучшения способностей моделей к рассуждению и решению проблем.

Что дальше?

Представленный здесь набор задач, получивший имя AMO-Bench, не является целью сам по себе. Он – лишь зеркало, отражающее текущую несостоятельность больших языковых моделей в области, требующей истинного рассуждения, а не просто статистического сопоставления паттернов. Они назвали это «фреймворком», чтобы скрыть панику. Проблема не в недостатке данных, а в фундаментальном непонимании природы математического мышления. До тех пор, пока модели будут оперировать символами, не понимая лежащих в их основе понятий, они останутся блестящими попугаями, а не мыслителями.

Будущие исследования должны сосредоточиться не на увеличении размеров моделей или на создании ещё более изощрённых методов обучения, а на разработке архитектур, способных к абстрактному мышлению и логическому выводу. Необходимо искать пути к интеграции символьного и нейронного подходов, чтобы создать системы, способные не только решать задачи, но и понимать почему они решаются именно так, а не иначе. Простота – признак зрелости. Усложнение ради усложнения – признак беспомощности.

И, возможно, самое главное, необходимо признать, что искусственный интеллект, способный к истинному математическому творчеству, – это задача, которая потребует не только технологических прорывов, но и глубокого философского осмысления природы разума и познания. Ожидать немедленных результатов было бы наивно. Но игнорировать эту необходимость – преступно.


Оригинал статьи: https://arxiv.org/pdf/2510.26768.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-01 02:17