Автор: Денис Аветисян
Новый набор задач LeanCat позволяет оценить возможности современных моделей искусственного интеллекта в области формального доказательства теорем и абстрактного мышления.

Представлен LeanCat — эталонный набор из 100 задач по теории категорий, формализованных в Lean 4, демонстрирующий трудности современных больших языковых моделей в абстрактном рассуждении и навигации по математическим библиотекам.
Несмотря на значительный прогресс в формальном доказательстве теорем с использованием больших языковых моделей, существующие бенчмарки недостаточно оценивают способность к абстрактному мышлению и использованию библиотек, необходимых для современной математики. В данной работе представлена ‘LeanCat: A Benchmark Suite for Formal Category Theory in Lean (Part I: 1-Categories)’ — новая платформа для оценки формализации теории категорий в Lean, включающая 100 задач, разработанных с помощью LLM и экспертов. Результаты показывают, что даже самые мощные модели испытывают трудности с решением задач, требующих абстрактного мышления и навигации по библиотекам, решая лишь небольшую часть задач. Сможет ли LeanCat послужить надежным инструментом для отслеживания прогресса как в области искусственного интеллекта, так и в формальной верификации математических теорем?
Неизбежность Абстракции: Преодоление Разрыва в Формализации
Несмотря на значительный прогресс в области искусственного интеллекта, формализация сложных математических концепций остается серьезным препятствием, особенно когда речь идет об абстрактных структурах. Проблема заключается не только в вычислительной сложности, но и в самой природе математической абстракции, требующей от систем способности оперировать понятиями, оторванными от конкретных примеров и интуитивных представлений. Традиционные подходы к автоматическому доказательству теорем часто сталкиваются с трудностями при работе с этими абстракциями, поскольку требуют четкого и однозначного определения каждого понятия и отношения, что в случае сложных математических объектов может быть чрезвычайно трудоемким и подвержено ошибкам. В результате, системы искусственного интеллекта зачастую не способны эффективно рассуждать на высоком уровне абстракции, ограничивая их возможности в решении сложных математических задач и в проверке корректности математических доказательств. Преодоление этого барьера требует разработки новых методов формализации, позволяющих эффективно представлять и оперировать абстрактными математическими структурами.
Существующие автоматические системы доказательства теорем испытывают трудности с так называемым “разрывом абстракций”, что существенно ограничивает их способность эффективно рассуждать на более высоких уровнях математики. Этот феномен проявляется в неспособности систем легко переходить между различными уровнями абстракции — от конкретных примеров к общим принципам и обратно. Вместо этого, системы часто требуют излишне детализированных представлений, упуская из виду ключевые общие закономерности, которые позволяют человеку быстро и элегантно решать сложные задачи. Как следствие, системы часто застревают в деталях, не в состоянии увидеть лес за деревьями, что делает автоматизацию доказательств на высоком уровне крайне сложной задачей и требует разработки новых подходов к представлению и обработке математических знаний.
Ограничения существующих автоматизированных систем доказательства теорем усугубляются так называемыми «пробелами в библиотеках» — отсутствием необходимых определений в формальных библиотеках, таких как Mathlib. Это означает, что даже если алгоритм способен к абстрактному мышлению, он может столкнуться с невозможностью выполнить базовые операции, поскольку требуемые понятия просто не формализованы и не представлены в доступных ресурсах. По сути, система, подобно математику, лишенному справочников или базовых определений, оказывается неспособной решать даже относительно простые задачи, требующие знания элементарных понятий и их формальных выражений. Этот фактор существенно ограничивает возможности автоматизации математических рассуждений, поскольку требует от разработчиков не только создания алгоритмов, но и постоянного расширения и поддержания актуальности формальных библиотек, что является трудоемким и ресурсозатратным процессом.
Для достижения эффективной автоматизации математических доказательств необходима принципиально новая структура, способная справляться с абстракциями и компенсировать недостатки формальных библиотек. Результаты тестирования на бенчмарке LeanCat наглядно демонстрируют эту проблему: текущий показатель успешности, Pass@1, составляет всего 8.25%. Этот низкий процент указывает на существенные трудности, с которыми сталкиваются автоматические решатели задач при работе с математическими понятиями высокого уровня, требующими понимания сложных абстракций и доступа к полному набору необходимых определений. Разработка фреймворка, способного эффективно преодолевать эти ограничения, является ключевым шагом к созданию действительно интеллектуальных систем доказательства теорем и расширению возможностей автоматизированной математики.

Lean и LeanCat: Испытательный Полигон для Формального Рассуждения
Lean — это мощная система зависимых типов и интерактивный решатель теорем, предназначенный для формализации математических утверждений. В основе Lean лежит логика высшего порядка, позволяющая выражать сложные математические концепции с высокой точностью. Система типов Lean позволяет проверять корректность математических доказательств на уровне типов, что обеспечивает высокую надежность формализованных результатов. Формализация в Lean включает в себя не только само утверждение, но и полное, верифицируемое доказательство, что делает его ценным инструментом для исследования основ математики и разработки надежного программного обеспечения. Σ — типичный пример использования зависимых типов в Lean.
Lean 4 представляет собой новейшую версию системы формального доказательства, разработанную на основе зависимой теории типов. В сравнении с предыдущими версиями, Lean 4 демонстрирует значительное повышение производительности благодаря оптимизированному ядру и улучшенной системе типов. Новые возможности включают более эффективную обработку больших доказательств, расширенную поддержку метапрограммирования и улучшенные инструменты для разработки и отладки формальных доказательств. Эти улучшения позволяют решать более сложные математические задачи и формализовывать более объемные и сложные теории, что особенно важно при работе с абстрактными математическими структурами, такими как теория категорий.
LeanCat — это новый эталонный набор задач, состоящий из 100 проблем из теории категорий, формализованных на языке Lean 4. Он разработан специально для оценки эффективности автоматических решателей теорем. Формализация задач в Lean 4 позволяет проводить строгую и воспроизводимую оценку, а концентрация на теории категорий позволяет проверить способность решателей работать с абстрактными математическими структурами и сложными логическими зависимостями. Использование именно Lean 4 обеспечивает использование современных возможностей языка и его оптимизаций для более эффективной проверки.
Тестовый набор LeanCat, состоящий из 100 задач по теории категорий, формализованных в Lean 4, предназначен для оценки возможностей автоматических решателей в работе с абстрактными математическими структурами. Акцент на теорию категорий позволяет проводить строгую оценку производительности, поскольку данная область требует обработки сложных взаимосвязей и обобщений. Результаты тестирования показали, что лучшая модель достигла показателя Pass@4, равного 12%, что означает успешное решение в среднем 12 задач из 100 после четырех попыток.
![LeanBridge позволяет оценить возможности LeanCat в различных больших языковых моделях, демонстрируя, как модели генерируют корректные доказательства ([зеленые ячейки]), корректные утверждения без доказательств ([синие ячейки]), утверждения, отличающиеся по формулировке от исходной задачи ([оливковые ячейки]), или неполные Lean-скрипты, содержащие синтаксические или типовые ошибки ([серые ячейки]).](https://arxiv.org/html/2512.24796v1/x2.png)
Усиление Доказателей: Извлечение Знаний и Логические Рассуждения
В последнее время наблюдается растущее применение больших языковых моделей (БЯМ) в области формального доказательства теорем. Этот подход обусловлен потенциалом БЯМ автоматизировать сложные этапы логических рассуждений, которые традиционно требуют значительных усилий от человека. БЯМ способны анализировать математические утверждения и предлагать промежуточные шаги доказательства, что позволяет ускорить процесс верификации и обнаружения ошибок в формальных системах. Использование БЯМ позволяет не только упростить процесс доказательства, но и расширить возможности автоматизированного анализа сложных математических задач и формальных спецификаций.
Метод «Chain-of-Thought» (Цепочка рассуждений) позволяет большим языковым моделям (LLM) генерировать промежуточные этапы логического вывода при решении задач формального доказательства. Вместо прямого предоставления ответа, модель последовательно формулирует шаги, ведущие к решению, что повышает её способность справляться со сложными задачами. Этот подход имитирует человеческий процесс рассуждения, где сложные проблемы разбиваются на более мелкие, управляемые этапы. Генерация промежуточных шагов не только улучшает точность решения, но и позволяет анализировать процесс рассуждения модели, выявляя потенциальные ошибки и области для улучшения.
Технология Retrieval Augmented Generation (RAG) расширяет возможности больших языковых моделей (LLM) за счет извлечения релевантной информации из формальных библиотек, таких как Mathlib. Инструменты, такие как LeanExplore, используются для поиска и предоставления LLM необходимых определений, теорем и доказательств, хранящихся в этих библиотеках. Этот процесс позволяет LLM опираться на существующие знания, а не генерировать все необходимые шаги доказательства самостоятельно, что повышает точность и эффективность решения задач формального доказательства теорем. Использование RAG позволяет LLM эффективно работать с обширными формальными знаниями, представленными в Mathlib, и применять их для автоматизации сложных рассуждений.
Эффективность моделей, используемых в формальном доказательстве теорем, оценивается с помощью метрики Pass@K, которая определяет долю успешно решенных задач при K попытках. Текущие модели демонстрируют Pass@1 в 8.25% и Pass@4 в 12% на наборе данных LeanCat, что свидетельствует о достигнутом прогрессе. Однако, производительность значительно варьируется в зависимости от сложности задач: 32.5% на простых задачах, 4.17% на задачах средней сложности и 0% на сложных задачах. Данные показатели позволяют количественно оценить возможности и ограничения современных моделей в области автоматического доказательства теорем.

Расширяющийся Ландшафт Теории Категорий: От Базовых Понятий к Продвинутым Структурам
Теория категорий представляет собой мощный унифицирующий каркас для всей математики, позволяя взглянуть на разнообразные структуры — от простых множеств до сложных топологических пространств — через единую призму абстракции. Вместо фокусировки на внутренних элементах объектов, она акцентирует внимание на отношениях между ними, определяемых посредством морфизмов. Такой подход не только упрощает доказательства и выявляет скрытые связи между различными математическими дисциплинами, но и предоставляет универсальный язык для формализации и обобщения математических концепций. \text{Hom}(A, B) — обозначение множества всех морфизмов из объекта A в объект B, являющееся ключевым элементом в категорной структуре. Эта гибкость и общность делают теорию категорий незаменимым инструментом для современных математических исследований и приложений, выходящих за рамки традиционных областей математики.
Универсальные свойства и моноидальные категории представляют собой основополагающие элементы для анализа сложных математических систем. Универсальное свойство, по сути, определяет объект через его связи с другими объектами, а не через его внутреннюю структуру, что позволяет устанавливать соответствия между различными математическими областями. Моноидальные категории, в свою очередь, обобщают понятие умножения, вводя операции, объединяющие объекты в новые объекты, и обеспечивая необходимую структуру для работы с композицией функций и другими сложными операциями. Эти концепции, хотя и абстрактные, оказывают значительное влияние на такие области, как гомологическая алгебра, топология и информатика, позволяя математикам и ученым строить более общие и элегантные модели для решения разнообразных задач. Например, в теории типов моноидальные категории используются для моделирования вычислений и построения надежных программных систем. \otimes — символ, часто используемый для обозначения моноидальной операции, подчеркивает важность композиции и объединения элементов в рамках этой структуры.
Теория категорий не останавливается на представлении объектов и их отображений; она расширяется до уровней, где отношения между самими отношениями становятся предметом изучения. В 2-теории категорий, морфизмы — это уже не просто отображения объектов, а отображения между морфизмами исходной категории. Это позволяет описывать более сложные структуры, где преобразования самих преобразований играют ключевую роль. Дальнейшее обобщение, уходящее за пределы 2-теории категорий, позволяет представлять иерархии отношений, где связи между связями между связями становятся доступными для формального анализа. Такой подход не только углубляет математическое понимание абстрактных структур, но и открывает возможности для моделирования систем, в которых взаимосвязи являются фундаментальной характеристикой, например, в теории типов и функциональном программировании.
Диаграммное мышление представляет собой визуальный подход к освоению сложных категорных структур, предоставляя интуитивно понятный способ представления абстрактных понятий. Вместо громоздких формальных определений, диаграммы позволяют увидеть взаимосвязи между объектами и морфизмами, упрощая понимание и запоминание. Этот метод оказывается эффективным не только для людей, облегчая усвоение материала, но и для автоматизированных систем. Алгоритмы, основанные на анализе диаграмм, способны автоматизировать доказательства теорем и выполнять сложные вычисления в рамках теории категорий, открывая новые возможности для формальной верификации и разработки интеллектуальных систем. \mathcal{C} — пример категории, которую можно эффективно визуализировать с помощью диаграмм, демонстрируя ее объекты и морфизмы.
Исследование, представленное в данной работе, подчеркивает сложность абстрактного мышления для современных больших языковых моделей в контексте формальных доказательств. Эта сложность особенно проявляется при работе с категориями и библиотеками, что демонстрирует, что способность к формализации математических концепций требует не просто манипулирования символами, но и глубокого понимания структуры и взаимосвязей. Как отмечал Марвин Мински: «Лучший способ — это всегда лучший способ». В данном случае, наилучший способ решения задач формального доказательства требует от системы не только вычислительной мощности, но и способности к построению и навигации по сложным абстрактным структурам, что, судя по результатам, остается серьезным вызовом для современных ИИ.
Куда Ведет Эта Дорога?
Представленный набор задач LeanCat, как и любой тщательно сконструированный инструмент, обнажил не столько пределы возможностей современных больших языковых моделей, сколько особенности их старения. Проблемы с абстрактным мышлением и навигацией по библиотекам, выявленные в формальном доказательстве теорем, не являются фатальными, но указывают на необходимость переосмысления архитектуры этих систем. Недостаточно просто увеличить количество параметров; требуется принципиально иное понимание того, как знания кодируются и извлекаются.
Очевидно, что архитектура без истории обречена на хрупкость. Каждая задержка в освоении формальной логики — это цена понимания, а не просто техническое препятствие. Будущие исследования должны сосредоточиться не только на увеличении скорости формализации, но и на создании систем, способных к осмысленному обобщению и применению уже доказанных теорем, а также к эффективному использованию существующих математических библиотек. Иначе, накопление формализованных знаний превратится в бессмысленное складирование данных.
По сути, LeanCat — это не просто бенчмарк, а своеобразный индикатор времени. Он демонстрирует, что скорость не является самоцелью, а лишь одним из параметров системы. Истинная ценность заключается в способности адаптироваться, учиться на ошибках и сохранять целостность со временем. Иначе говоря, вопрос не в том, как быстро мы можем формализовать математику, а в том, как создать системы, которые смогут существовать в этой среде достойно.
Оригинал статьи: https://arxiv.org/pdf/2512.24796.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Насколько важна полнота при оценке поиска?
- Вопросы по PDF: Новый вызов для искусственного интеллекта
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- От принципа Ферма к нейронным сетям: новый взгляд на вариационную физику
- Искусственный интеллект на службе науки: новый инструмент для анализа данных
- Оптический Искусственный Интеллект: Новый Взгляд на Энергоэффективность
- Переключение намагниченности в квантовых антиферромагнетиках: новые горизонты для терагерцовой спинтроники
- Машинное обучение и тайны модулярности
- Диффузия против Квантов: Новый Взгляд на Факторизацию
- Квантовое превосходство в простых вычислениях: Разделение QAC0 и AC0
2026-01-03 22:38