Искусственный интеллект выходит на новый уровень: представлен проект INTELLECT-3

Автор: Денис Аветисян

Новая языковая модель с более чем 100 миллиардами параметров демонстрирует передовые результаты в рассуждениях и задачах, требующих автономности.

Результаты оценки INTELLECT-3 демонстрируют, что использование публичных, воспроизводимых сред и прямых API от разработчиков моделей позволяет избежать потерь производительности, связанных с квантованием или оптимизациями при выводе, обеспечивая максимально точную и надежную оценку.

В статье представлен INTELLECT-3 — крупномасштабная языковая модель, обученная с использованием открытой инфраструктуры обучения с подкреплением, обеспечивающая воспроизводимость и доступность для исследователей.

Несмотря на значительный прогресс в области больших языковых моделей, воспроизводимость и доступность инфраструктуры для их обучения остаются сложной задачей. В данной работе, ‘INTELLECT-3: Technical Report’, представлена модель INTELLECT-3 — экспертная система на основе смеси экспертов с 106 миллиардами параметров (12 миллиардов активных), обученная с использованием масштабного обучения с подкреплением. Достигнув передовых результатов по ряду тестов в математике, кодировании, науке и рассуждениях, модель сопровождается полным комплектом инструментов и библиотек с открытым исходным кодом для обучения и оценки, включая новый фреймворк prime-rl для распределенного обучения с подкреплением. Какие перспективы открываются для создания еще более эффективных и доступных систем искусственного интеллекта на основе этой инфраструктуры?

Фундамент: Архитектура Разумного Вывода

Несмотря на впечатляющие возможности современных языковых моделей, их применение в задачах, требующих сложного логического мышления, зачастую сталкивается с ограничениями. Существующие архитектуры, демонстрирующие успех в генерации текста и понимании языка, нередко оказываются неспособны эффективно решать проблемы, требующие многоступенчатых умозаключений, анализа противоречивой информации или абстрактного мышления. Данное ограничение подчеркивает необходимость разработки новых архитектур, способных не просто оперировать языковыми конструкциями, но и моделировать процессы логического вывода, приближая возможности искусственного интеллекта к человеческому разуму. Потребность в усовершенствовании существующих подходов стимулирует исследования в области создания более эффективных и надежных систем, способных справляться со сложными интеллектуальными задачами.

Разработка INTELLECT-3 опирается на базовую модель GLM-4.5-Air, что позволило создать прочный фундамент для расширенных возможностей. В результате, новая модель демонстрирует превосходство над значительно более крупной GLM-4.5, в три раза превышающей INTELLECT-3 по параметрам, во многих задачах. Этот успех обусловлен не только архитектурными решениями, но и эффективным использованием ресурсов, позволяющим достичь высокой производительности даже при относительно небольшом размере модели. Такой подход открывает перспективы для развертывания передовых систем искусственного интеллекта на более широком спектре устройств и платформ, где вычислительные ресурсы ограничены.

Первичная настройка модели INTELLECT-3 посредством контролируемого обучения (Supervised Fine-Tuning, SFT) играет ключевую роль в формировании ее базовых навыков рассуждения. Данный этап позволяет модели усвоить общие принципы логического мышления и решения задач, прежде чем приступить к более узкоспециализированному обучению. В процессе SFT модель обучается на размеченном наборе данных, что позволяет ей сопоставлять входные данные с ожидаемыми результатами и постепенно улучшать свою способность к абстрактному мышлению и решению проблем. Эффективность контролируемого обучения является фундаментом для последующей оптимизации модели и достижения высоких результатов в различных областях применения, обеспечивая надежную основу для более сложных операций рассуждения.

Обучение с учителем демонстрирует плавную оптимизацию и отсутствие скачков потерь как на этапе общего рассуждения, так и на этапе обучения агента.

Обучение с Подкреплением и Проектирование Среды

Для улучшения навыков рассуждения и решения задач, модель INTELLECT-3 проходит обучение с подкреплением (Reinforcement Learning, RL). Обучение с подкреплением представляет собой метод машинного обучения, в котором агент учится принимать решения в среде для максимизации кумулятивной награды. В процессе обучения модель взаимодействует со средой, выполняя действия и получая обратную связь в виде наград или штрафов. На основе этой обратной связи модель корректирует свою стратегию, стремясь к оптимальному поведению и повышению эффективности решения поставленных задач. Этот итеративный процесс позволяет INTELLECT-3 совершенствовать свои когнитивные способности и адаптироваться к различным сценариям.

Ключевым элементом процесса обучения с подкреплением для модели INTELLECT-3 является Environments Hub — централизованный репозиторий стандартизированных и повторно используемых сред обучения. Этот хаб предоставляет унифицированный интерфейс для взаимодействия с различными средами, что упрощает процесс разработки и тестирования алгоритмов обучения с подкреплением. Стандартизация обеспечивает совместимость между различными компонентами системы и позволяет исследователям обмениваться средами и результатами обучения. Повторное использование сред обучения снижает затраты на разработку и позволяет сосредоточиться на совершенствовании алгоритмов, а не на создании новых сред с нуля.

Библиотека Verifiers обеспечивает надежность и валидность используемых сред обучения с подкреплением, что критически важно для получения последовательных и точных результатов. Она включает в себя набор инструментов и тестов, предназначенных для автоматической проверки соответствия сред заданным спецификациям и выявления потенциальных ошибок или несоответствий. Это позволяет гарантировать, что обучение модели INTELLECT-3 происходит в предсказуемой и контролируемой среде, что повышает воспроизводимость экспериментов и достоверность полученных результатов. Verifiers также позволяет выявлять и устранять проблемы, связанные с непредсказуемым поведением сред, которые могут привести к неоптимальному обучению модели или ложным выводам.

Фреймворк prime-rl, используемый для обучения с подкреплением, обеспечивает ускорение процесса за счет разделения компонентов обучения и вывода. В традиционных системах обучения эти компоненты часто тесно связаны, что ограничивает масштабируемость и скорость. В prime-rl, компонент тренера (trainer) отвечает за вычисление градиентов и обновление параметров модели, а компонент вывода (inference) отвечает за выполнение действий в среде на основе текущей модели. Асинхронное разделение позволяет этим компонентам работать параллельно и независимо, значительно повышая пропускную способность и эффективность обучения, особенно при использовании распределенных вычислений и больших объемов данных. Это разделение также упрощает масштабирование системы для поддержки более сложных моделей и сред.

Обучение с подкреплением осуществляется за счет скоординированной работы тренажера, оркестратора и сервиса инференса, причем тренажер FSDP и инференс vLLM могут быть развернуты независимо на нескольких узлах.

Валидация: Оценка Способностей к Рассуждению и Решению Задач

Модель INTELLECT-3 продемонстрировала высокие результаты в ряде стандартных бенчмарков, предназначенных для оценки возможностей рассуждения и решения задач. В частности, модель показала уверенные результаты в MMLU-Pro, оценивающем многозадачное понимание языка, GPQA, проверяющем способность к решению задач с использованием знаний, и LiveCodeBench, предназначенном для оценки способности к генерации и пониманию программного кода. Эти результаты подтверждают общую эффективность INTELLECT-3 в различных областях применения, требующих когнитивных способностей и логического мышления.

Модель INTELLECT-3 демонстрирует высокую эффективность в решении сложных математических задач, что подтверждается результатами тестов на наборах данных MATH-500, AIME 2024 и AIME 2025. На AIME 2024 модель достигла результата в 90.8%, превзойдя показатели GLM-4.5 Air. В тесте AIME 2025 INTELLECT-3 набрал 88.0%, также показав превосходство над GLM-4.5 Air. Данные результаты указывают на значительный прогресс в способности модели к математическому рассуждению и решению задач.

Результаты тестирования INTELLECT-3 на стандартных бенчмарках, таких как MMLU-Pro, GPQA, LiveCodeBench, MATH-500 и AIME, демонстрируют превосходство над моделью DeepSeek R1. Данное превосходство подтверждает прогресс в развитии архитектуры и алгоритмов, используемых в INTELLECT-3. В частности, на бенчмарке AIME 2024, INTELLECT-3 достиг 90.8% результата, что превышает показатель GLM-4.5 Air, а на AIME 2025 — 88.0% против GLM-4.5 Air. Результаты на LiveCodeBench v6 (69.3%) также свидетельствуют о значительном улучшении по сравнению с GLM-4.5-Air (на 8%), подтверждая прогресс в области обобщенных знаний и логического мышления.

Результаты тестирования модели INTELLECT-3 на LiveCodeBench v6 составили 69.3%, что на 8% превышает показатели GLM-4.5-Air. Дополнительно, результаты на HLE (Human Level Evaluation) демонстрируют развитые способности модели в области общих знаний и логического мышления, подтверждая её высокий уровень понимания и решения задач, требующих комплексного анализа информации. Данные показатели свидетельствуют о значительном прогрессе в возможностях модели по сравнению с существующими аналогами.

В процессе обучения с подкреплением наблюдается устойчивый рост показателей на оценочных тестах, что указывает на отсутствие признаков насыщения.

Масштабируемость и Безопасное Исполнение

Для эффективного масштабирования INTELLECT-3 до обработки последовательностей большей длины используется параллелизм контекста. Этот подход позволяет распределить вычисления, связанные с обработкой входных данных, между несколькими вычислительными блоками, существенно повышая скорость работы модели при анализе сложных и объемных текстов. Вместо последовательной обработки каждого элемента входной последовательности, параллелизм контекста позволяет одновременно обрабатывать различные её части, что особенно важно для задач, требующих понимания долгосрочных зависимостей и контекста. Благодаря этому, INTELLECT-3 демонстрирует повышенную производительность и способность к решению задач, недоступных менее масштабируемым моделям, открывая новые возможности в области обработки естественного языка и искусственного интеллекта.

В основе безопасной работы модели INTELLECT-3 лежит система Prime Sandboxes — многоуровневый механизм оркестровки контейнеров. Эта система создает изолированные среды выполнения для любого кода, генерируемого моделью, предотвращая потенциальные риски, связанные с выполнением недоверенного или вредоносного кода. Каждый контейнер Prime Sandbox функционирует как независимый «песочница», ограничивая доступ к системным ресурсам и предотвращая распространение ошибок или атак. Благодаря этой архитектуре, INTELLECT-3 способна генерировать и выполнять код с повышенной степенью безопасности, что особенно важно при работе с чувствительными данными или в критически важных приложениях. Использование контейнеров обеспечивает предсказуемость и воспроизводимость результатов, а также упрощает процесс отладки и обновления системы.

Сочетание масштабируемости и безопасности в архитектуре INTELLECT-3 открывает двери для его применения в широком спектре областей, ранее недоступных из-за ограничений вычислительных ресурсов или рисков, связанных с выполнением потенциально небезопасного кода. Возможность эффективно обрабатывать длинные последовательности данных в сочетании с надежной системой контейнеризации Prime Sandboxes позволяет развертывать модель в критически важных приложениях, таких как автоматизированный анализ больших данных, разработка сложных систем искусственного интеллекта и даже в сферах, требующих повышенной безопасности, например, в финансовых технологиях или здравоохранении. Такая комбинация характеристик делает INTELLECT-3 не просто мощным инструментом, но и надежной платформой для инноваций, способной решать задачи, требующие как высокой производительности, так и гарантий безопасности.

Архитектура INTELLECT-3, сочетающая в себе возможности параллельного контекста и безопасного выполнения кода в изолированных окружениях, позволяет модели не только эффективно обрабатывать сложные и объемные данные, но и гарантирует надежную защиту от потенциальных угроз, связанных с исполнением сгенерированного кода. Такой подход к разработке, обеспечивающий одновременно масштабируемость и безопасность, выводит INTELLECT-3 на передовые позиции в области искусственного интеллекта, открывая возможности для широкого спектра приложений, где критичны как вычислительные ресурсы, так и конфиденциальность данных. Благодаря этим характеристикам, система способна к адаптации к разнообразным задачам и демонстрирует высокую производительность даже при работе с крупномасштабными проектами, укрепляя свою роль лидера в безопасной и масштабируемой разработке ИИ.

Figure 5:Execution time and TFLOPS oftorch.\_grouped\_mmwith hidden dim40964096and MoE dim14081408on H200 SXM at different sequence lengths and number of experts. We assume that the input is perfectly balanced between the experts and thus an increase in experts leads to an inversely proportional decrease in the number of tokens and work per expert, eventually causing lower TFLOPS as the work per expert is no longer able to saturate the kernel. At sequence lengths (N)32,76832,768and65,53665,536, the TFLOPS remains in the saturated regime up to128128experts. We thus do not gain significant throughput from using expert parallel given our training parameters.

Представленная работа демонстрирует стремление к систематизации и проверке границ возможного в области обучения больших языковых моделей. Разработка INTELLECT-3, основанная на открытой инфраструктуре и подкрепляющем обучении, подчеркивает важность воспроизводимости и доступности результатов, что соответствует идее взлома системы для понимания ее внутренней архитектуры. Как однажды заметил Г.Х. Харди: «Математика — это наука о том, что логично, а не о том, что наблюдается». Эта фраза отражает подход, использованный в INTELLECT-3, где логическая структура обучения и стремление к достижению новых рубежей в бенчмарках агентного ИИ превалируют над простым наблюдением за результатами. Акцент на post-training и distributed training демонстрирует попытку не просто создать модель, но и понять принципы ее работы, что соответствует философии реверс-инжиниринга реальности.

Что дальше?

Представленная работа, демонстрируя возможности модели INTELLECT-3, неизбежно поднимает вопрос о границах применимости и, что более интересно, о её слабостях. Достижение высоких результатов на текущих бенчмарках — это лишь подтверждение работоспособности системы, но не гарантия её устойчивости к непредсказуемым задачам. Истинное испытание — не в решении известных проблем, а в умении генерировать вопросы, на которые еще нет ответов. По сути, это не столько создание интеллекта, сколько конструирование машины для самозадач.

Особое внимание следует уделить проблеме воспроизводимости и доступности. Открытая инфраструктура — это шаг в правильном направлении, но она лишь облегчает процесс верификации, а не гарантирует его. Неизбежно возникнет необходимость в создании стандартов оценки и валидации моделей, независимых от конкретных производителей и алгоритмов. В противном случае, мы рискуем оказаться в ситуации, когда «прогресс» измеряется лишь в количестве параметров, а не в качестве решения задач.

Будущие исследования, вероятно, сосредоточатся на создании систем, способных к обучению в реальном времени, адаптации к меняющимся условиям и, что самое главное, к самоанализу. Попытка построить «разумную» систему, игнорируя вопрос о её собственной мотивации и целях, напоминает создание сложного инструмента без понимания того, для чего он предназначен. В конечном счете, задача состоит не в том, чтобы создать искусственный интеллект, а в том, чтобы понять, что такое интеллект вообще.

Оригинал статьи: https://arxiv.org/pdf/2512.16144.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-21 19:44

🚀 Квантовые новости