Когда Искусственный Интеллект Перерастает Экзаменаторов

Автор: Денис Аветисян

Новое исследование показывает, что современные системы ИИ достигают пределов точности не из-за собственных ограничений, а из-за несовершенства методов оценки.

Оценка математических способностей современных моделей, таких как Claude Sonnet 4.5, DeepSeek v3.2, Gemini 3 Pro, GPT-5 и Kimi K2 Thinking, на отфильтрованном наборе данных Omni-MATH-2 показывает, что расхождения в оценках, обусловленные субъективностью экспертов, а не случайными ошибками в разметке, приводят к изменению относительного рейтинга моделей и особенно усиливаются при решении сложных задач, демонстрируя зависимость результатов от выбора эксперта и специфики предметной области, например, в области математического анализа для моделей Claude и DeepSeek.

По мере улучшения больших языковых моделей (БЯМ) стандартные бенчмарки перестают быть информативными из-за ошибок в данных и субъективности оценки, что приводит к насыщению результатов.

Парадоксально, но по мере развития больших языковых моделей (LLM) все более узким местом в оценке их возможностей становится сама процедура бенчмаркинга. В работе «Benchmarks Saturate When The Model Gets Smarter Than The Judge» представлен анализ набора данных Omni-MATH-2, выявляющий существенные погрешности в существующих наборах данных и непоследовальность в оценках, предоставляемых автоматическими судьями. Ключевой вывод состоит в том, что насыщение бенчмарков может быть вызвано не истинным пределом возможностей модели, а ошибками в данных и субъективностью оценок. Не приведет ли это к необходимости разработки принципиально новых подходов к оценке LLM, ориентированных на более глубокое понимание, а не просто на количественные метрики?

Пределы современных оценок

Оценка больших языковых моделей (БЯМ) требует надежных критериев, однако существующие наборы данных, такие как Omni-MATH, обладают неотъемлемыми ограничениями. Эти ограничения проявляются в сложности создания задач, которые одновременно проверяют математические способности и не требуют доступа к внешним источникам информации, что часто приводит к неоднозначности в определении корректного решения. Несовершенство существующих бенчмарков затрудняет объективную оценку прогресса в области математического мышления БЯМ, поскольку модели могут демонстрировать высокие результаты, полагаясь на запоминание шаблонов или использование статистических закономерностей в данных, а не на истинное понимание принципов решения задач. В связи с этим, существует необходимость в разработке более качественных и тщательно продуманных наборов данных, которые позволят более точно оценивать реальные возможности языковых моделей в области математики.

Существующие наборы данных для оценки больших языковых моделей (LLM) зачастую содержат задачи, требующие доступа к информации, находящейся за пределами самого набора, или же не имеют однозначно определенного решения. Такие неточности в формулировках и требованиях вводят значительный шум в процесс оценки, искажая реальную картину способностей модели. В результате, LLM могут демонстрировать высокие результаты, полагаясь на случайные совпадения или внешние источники информации, а не на истинное понимание и навыки решения математических задач. Это приводит к завышенной оценке эффективности и препятствует прогрессу в развитии действительно интеллектуальных систем, способных к глубокому логическому мышлению и решению сложных проблем, таких как $\intx^2 dx$ .

Оценка математических способностей больших языковых моделей (LLM) часто опирается на сопоставление точных ответов с ожидаемыми результатами, однако такой подход упускает из виду тонкости логического мышления. Игнорирование промежуточных этапов решения, альтернативных подходов и обоснования ответа приводит к тому, что модель может демонстрировать высокую производительность, лишь формально воспроизводя шаблоны, не понимая сути задачи. Например, даже если $2 + 2 = 4$ верно, оценка ограничивается лишь конечным результатом, не учитывая способность модели объяснить процесс сложения или адаптироваться к более сложным задачам, требующим аналогичного принципа. Такой подход сдерживает прогресс в развитии истинного математического интеллекта, поскольку акцент смещается с понимания и рассуждений на простое воспроизведение заученных ответов.

Исследования показывают, что недостаточно продуманное качество наборов данных для оценки больших языковых моделей может приводить к ложным выводам об их способностях. Вместо того чтобы оценивать истинные навыки решения задач, существующие метрики зачастую поощряют поверхностное сопоставление шаблонов и запоминание ответов. Модели могут демонстрировать высокие результаты, успешно воспроизводя известные примеры, но при этом испытывать трудности с новыми или нестандартными задачами, требующими глубокого понимания и логического мышления. Такой подход нивелирует прогресс в области искусственного интеллекта, поскольку не стимулирует развитие подлинных навыков решения проблем, а лишь создает иллюзию компетентности. Необходимо тщательно отбирать и создавать наборы данных, которые проверяют не только способность модели к воспроизведению, но и её умение анализировать, обобщать и находить решения в новых, непредсказуемых ситуациях.

Для создания набора данных Omni-MATH-2, содержащего 647 отредактированных (14.6%), 247 помеченных как нестандартные (5.6%) задач, исходные <span class="katex-eq" data-katex-display="false">4428</span> математических выражений были приведены в соответствие с LaTeX, проверены на разрешимость и верифицируемость математиком, при необходимости дополнены информацией, полученной вручную или с помощью GPT-5.1, и обогащены изображениями, а затем отфильтрованы для формирования подмножества Omni-MATH-2-Filtered (n=4181), пригодного для автоматической проверки решений. — Для создания набора данных Omni-MATH-2, содержащего 647 отредактированных (14.6%), 247 помеченных как нестандартные (5.6%) задач, исходные $4428$ математических выражений были приведены в соответствие с LaTeX, проверены на разрешимость и верифицируемость математиком, при необходимости дополнены информацией, полученной вручную или с помощью GPT-5.1, и обогащены изображениями, а затем отфильтрованы для формирования подмножества Omni-MATH-2-Filtered (n=4181), пригодного для автоматической проверки решений.

Улучшение бенчмарка: Omni-MATH-2

Omni-MATH-2 является развитием оригинального набора данных Omni-MATH, предназначенного для более надежной и сложной оценки больших языковых моделей (LLM) в области математических задач. В отличие от предшественника, Omni-MATH-2 стремится предоставить более точную картину способностей LLM к решению математических проблем, за счет повышения качества и разнообразия задач. Улучшения направлены на создание более строгого и репрезентативного теста, позволяющего более эффективно сравнивать различные модели и отслеживать прогресс в развитии их математических навыков. Набор данных разработан для объективной оценки способности LLM к логическому мышлению и применению математических знаний для решения сложных задач.

В процессе улучшения бенчмарка Omni-MATH-2 особое внимание было уделено четкости формулировок задач. Анализ исходного набора выявил необходимость внесения изменений в 14.6% вопросов для обеспечения их однозначности и решаемости с использованием предоставленной информации. Данные правки включали перефразировку условий, уточнение требуемых действий и исключение двусмысленностей, что позволило повысить надежность оценки математических способностей больших языковых моделей (LLM) и снизить вероятность ошибок, связанных с неправильной интерпретацией задач.

В отличие от предыдущих бенчмарков, ориентированных преимущественно на решение уравнений, Omni-MATH-2 включает в себя задачи, требующие более широкого спектра математических навыков и логического мышления. Это достигается за счет включения задач, охватывающих геометрию, теорию вероятностей, комбинаторику и логические головоломки. В частности, бенчмарк включает задачи, требующие доказательства теорем, анализа данных и построения математических моделей, что позволяет более полно оценить способность языковых моделей к комплексному математическому рассуждению и решению проблем, выходящих за рамки простого вычисления числовых ответов. Разнообразие типов задач призвано выявить слабые места в способности моделей к абстрактному мышлению и применению математических принципов в новых контекстах.

В процессе разработки Omni-MATH-2 были предприняты усилия по минимизации неоднозначности формулировок задач, чтобы снизить вероятность неверной интерпретации как языковой моделью (LLM), так и автоматической системой оценки. В результате анализа, 5.6% задач были помечены как нетиповые и исключены из строгой оценки. Данное решение позволило избежать случаев, когда LLM, формально верное в решении, может быть признано ошибочным из-за нестандартной интерпретации условия, либо наоборот — когда неверное решение может быть ошибочно признано верным из-за нечеткой постановки вопроса. Задачами, помеченными как нетиповые, могут быть те, что требуют неявных допущений или подразумевают альтернативные способы решения, которые не предусмотрены в эталонном ответе.

На подмножестве задач оценки в Omni-MATH-2 системы Omni-Judge и GPT-5 mini часто ошибочно отклоняют верные решения, при подсчете баллов используется правило оценки, указанное в условии или решении.

Проблема автоматизированной оценки

Автоматизированные системы оценки, такие как Omni-Judge, играют ключевую роль в масштабировании процесса оценки больших языковых моделей (LLM). Однако, следует признать, что они не являются безошибочными и могут вносить так называемые “ошибки, вызванные оценщиком” (Judge-Induced Errors). Несмотря на эффективность в обработке больших объемов данных, автоматизированные системы подвержены ограничениям, что может приводить к неточным результатам оценки. Использование автоматизированных судей требует внимательного контроля качества и дополнительных методов верификации для минимизации влияния этих ошибок на общую надежность оценки LLM.

Задачи, требующие анализа изображений, оценок или доказательств, особенно подвержены ошибкам автоматизированной оценки из-за ограничений современных методов автоматизированной верификации. Существующие алгоритмы испытывают трудности с корректной интерпретацией визуальной информации и проверкой логических цепочек, представленных в доказательствах. Невозможность автоматизированного подтверждения корректности оценок, требующих субъективной или контекстуальной оценки, также способствует увеличению числа ошибок. В результате, автоматические судьи, такие как Omni-Judge, демонстрируют более низкую точность при оценке задач данного типа по сравнению с задачами, требующими только текстового анализа.

Автоматизированные системы оценки, такие как Omni-Judge, могут допускать ошибки при анализе ответов, требующих сложных цепочек рассуждений или нестандартных подходов к решению задач. Это связано с тем, что алгоритмы оценки часто полагаются на заранее заданные шаблоны и критерии, которые могут быть неадекватны для оценки креативных или оригинальных решений. В случаях, когда ответ отличается от ожидаемого, но при этом является корректным, автоматизированный судья может ошибочно признать его неверным, что приводит к искажению результатов оценки и снижению надежности автоматизированной системы.

В ходе анализа расхождений между автоматическим судьей Omni-Judge и моделью GPT-5 mini было выявлено, что в 96.4% случаев, когда автоматический судья допускал ошибку, он не соглашался с оценкой GPT-5 mini. При этом, в 64.8% случаев, когда GPT-5 mini правильно оценивал ответ, возникало расхождение с автоматическим судьей. Дополнительно, при разборе случаев разногласий, у 14 из 100 вопросов были обнаружены неполные эталонные ответы, что указывает на потенциальную проблему в качестве данных, используемых для автоматической оценки.

Модель GPT-5 верно определяет отсутствие необходимого изображения в задаче Omni-MATH, что делает её решение невозможным, однако система оценки Omni-Judge ошибочно классифицирует это как неверный ответ.

К надёжной оценке: отфильтрованный подход

Набор данных Omni-MATH-2-Filtered представляет собой практичный шаг к повышению надежности оценки больших языковых моделей (LLM). В отличие от традиционных подходов, он фокусируется исключительно на задачах, имеющих четкие и проверяемые решения. Этот подход позволяет избежать субъективности, связанной с оценкой ответов на вопросы, допускающие различные интерпретации или не имеющие единственно верного ответа. Концентрируясь на задачах с однозначными решениями, исследователи могут более объективно измерять математические способности LLM и сравнивать различные модели, обеспечивая более точную и воспроизводимую оценку их прогресса в области рассуждений.

В процессе оценки возможностей больших языковых моделей (LLM) часто возникают ошибки, связанные с субъективной интерпретацией ответов. Новый отфильтрованный набор данных Omni-MATH-2-Filtered призван минимизировать влияние этих “ошибок оценщиков”, исключая задачи с неоднозначными формулировками или допускающие множество корректных решений. Благодаря этому подходу, фокус смещается на задачи с четкими и проверяемыми ответами, что позволяет добиться большей согласованности в оценке производительности различных LLM. Устранение субъективности в оценке обеспечивает более надежные результаты и позволяет исследователям уверенно сравнивать различные модели, отслеживая прогресс в развитии навыков математического рассуждения.

Возможность более уверенного сопоставления различных больших языковых моделей (LLM) и отслеживания прогресса в развитии навыков математического рассуждения представляет собой ключевое преимущество использования отфильтрованных наборов данных. Традиционные методы оценки часто страдают от субъективности, связанной с интерпретацией решений и оценкой неоднозначных вопросов. Отфильтрованный набор данных, содержащий задачи с четкими и проверяемыми ответами, позволяет исследователям получить более объективные и сопоставимые результаты. Это, в свою очередь, облегчает выявление сильных и слабых сторон различных моделей, а также мониторинг их улучшения с течением времени. В результате, появляется возможность более точно оценивать эффективность новых алгоритмов и подходов к обучению, способствуя дальнейшему развитию области искусственного интеллекта в сфере математики.

Несмотря на то, что Omni-MATH-2-Filtered не является исчерпывающим решением проблемы оценки больших языковых моделей, он представляет собой ценный инструмент для проведения строгих и воспроизводимых исследований. Этот отфильтрованный набор данных, сфокусированный на задачах с однозначными и проверяемыми ответами, позволяет исследователям с большей уверенностью сравнивать различные модели и отслеживать прогресс в области математического рассуждения. Уменьшая влияние субъективных оценок и повышая согласованность измерений производительности, Omni-MATH-2-Filtered способствует более надежной и объективной оценке возможностей LLM в решении математических задач, предоставляя прочную основу для дальнейших исследований и разработок в этой области.

Несмотря на сложность оценки эквивалентности ответа модели и эталонного, эксперты-математики, используя LLM-совет (включая Claude Opus 4.5, DeepSeek v3.2, GPT-5 и Gemini 3 Pro), подтвердили корректность ответа модели и, следовательно, правильность оценки эквивалентности GPT-5 mini.

Основа ясной коммуникации: LaTeX

Необходимость последовательного и точного форматирования математических задач является ключевым фактором для эффективного понимания их языковыми моделями и корректной работы систем автоматической проверки. Неоднозначность в представлении математических выражений, таких как $\in t_0^\in fty e^{-x^2} dx$ или $\frac{d}{dx} x^2$ , может привести к различным интерпретациям, что критически влияет на способность модели решать задачу правильно. Автоматизированные системы оценки, требующие четких и однозначных ответов, особенно чувствительны к подобным несоответствиям. Поэтому, стандартизация представления математических задач не просто желательна, а абсолютно необходима для обеспечения надежности и воспроизводимости оценок, а также для развития более эффективных и точных языковых моделей.

Система типографического набора LaTeX обеспечивает стандартизированное представление математических выражений, что критически важно для исключения неоднозначности и неверной интерпретации. В отличие от визуальных редакторов, LaTeX оперирует с логической структурой формул, а не с их пиксельным отображением, гарантируя единообразие в отображении $\in t_0^\in fty e^{-x^2} dx$ на различных платформах и устройствах. Такая точность необходима для корректной обработки задач языковыми моделями и автоматизированными системами проверки, поскольку даже незначительные визуальные отличия могут привести к ошибкам в понимании и оценке решения. Благодаря этому, LaTeX выступает гарантом ясности и непротиворечивости в представлении сложных математических концепций, способствуя более эффективному взаимодействию между человеком и машиной.

Широкое распространение LaTeX в математическом сообществе делает его незаменимым инструментом для создания надежных и воспроизводимых бенчмарков и наборов данных. Благодаря стандартизированному подходу к оформлению математических выражений, таких как $\in t_{a}^{b} f(x) \, dx$ или $E = mc^2$ , LaTeX позволяет избежать неоднозначности и ошибок при интерпретации задач. Это особенно важно при оценке возможностей больших языковых моделей (LLM) в решении математических задач, где даже небольшая неточность в формулировке может привести к неправильному ответу. Использование LaTeX гарантирует, что все участники, от создателей бенчмарков до оценивающих моделей, работают с единым, четким и однозначным представлением математических выражений, что существенно повышает достоверность и сопоставимость результатов.

Перспективные исследования должны быть направлены на внедрение строгих стандартов форматирования, особенно в отношении математических выражений, для повышения надежности и воспроизводимости оценок больших языковых моделей (LLM). Внедрение единообразных правил представления, таких как использование $\frac{a}{b}$ для дробей или $\sum_{i=1}^{n} x_i$ для сумм, позволит минимизировать неоднозначность и ошибки при автоматической проверке решений. Стандартизация не только упростит процесс оценки, но и обеспечит возможность более точного сравнения различных LLM, что является ключевым фактором для дальнейшего развития и улучшения их способностей в области математического моделирования и решения задач. Подобный подход позволит создать более объективную и прозрачную систему оценки, способствующую прогрессу в области искусственного интеллекта.

Оценка вопроса, помеченного как доказательство, демонстрирует процесс проверки его обоснованности.

Исследование демонстрирует, что по мере развития больших языковых моделей (LLM) оценка их возможностей становится узким местом, выявляя ошибки в используемых наборах данных и непоследовательность в работе судей-оценщиков. Этот процесс приводит к насыщению эталонов, когда показатели перестают расти, что не всегда отражает реальные ограничения моделей. Как заметил Пол Эрдёш: «Математика — это искусство открывать закономерности, скрытые в хаосе». Подобно тому, как математик ищет истину сквозь кажущийся беспорядок, данная работа выявляет скрытые недостатки в методах оценки LLM, подчеркивая необходимость более надежных и точных инструментов для измерения их истинного потенциала. Хорошая архитектура незаметна, пока не ломается, и только тогда видна настоящая цена решений.

Куда Ведет Этот Путь?

Наблюдаемое насыщение бенчмарков, вызванное не столько истинным пределом возможностей моделей, сколько несовершенством систем оценки, требует переосмысления всей методологии. Очевидно, что, подобно развитию городской инфраструктуры, нельзя просто добавлять новые «полосы» в виде более сложных задач, не заботясь о качестве существующих «дорог» — данных и критериев оценки. Повторяющиеся ошибки в наборах данных и непоследовательность в работе «судей» (LLM-ов, используемых для оценки) обнажают фундаментальную проблему: мы оцениваем системы, которые умнее инструментов, которыми их оцениваем.

Будущие исследования должны сосредоточиться не на создании еще более масштабных бенчмарков, а на разработке принципиально новых методов оценки, способных выявлять и корректировать ошибки в данных, а также обеспечивать согласованность и объективность суждений. Важно понимать, что совершенствование моделей — лишь одна сторона медали. Не менее важным является создание надежной и прозрачной системы оценки, способной адекватно отражать их истинный потенциал. В противном случае, мы рискуем застрять в ловушке кажущегося прогресса, где улучшение показателей на бенчмарках не коррелирует с реальным ростом интеллекта.

Элегантное решение этой проблемы, вероятно, лежит в эволюционном подходе к разработке бенчмарков — постепенном улучшении существующих данных и методов оценки, а не в создании новых, еще более сложных систем. Необходимо стремиться к простоте и ясности, помня, что хорошая система, подобно живому организму, должна развиваться органично, а не подлежать радикальной перестройке.

Оригинал статьи: https://arxiv.org/pdf/2601.19532.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-28 15:19

🚀 Квантовые новости