Нейросеть-разумник: Nemotron 3 Super выходит на новый уровень

Автор: Денис Аветисян

Разработчики представили новую 120-миллиардную языковую модель, сочетающую в себе лучшие черты Mixture-of-Experts и Mamba, демонстрирующую впечатляющую скорость и точность.

В архитектуре Nemotron 3 Super реализован гибридный подход, сочетающий Mamba и механизм внимания, при этом впервые для масштабирования модели применяется разреженное представление на основе LatentMoE слоев, в отличие от стандартных MoE слоев.

Nemotron 3 Super — это гибридная архитектура, объединяющая MoE и Mamba, с использованием квантизации и обучения с подкреплением для повышения эффективности и производительности.

Современные большие языковые модели часто сталкиваются с компромиссом между вычислительной эффективностью и точностью. В данной работе представлена модель ‘Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning’, представляющая собой 120-миллиардную (с 12 миллиардами активных параметров) гибридную архитектуру, сочетающую Mixture-of-Experts и Mamba, оптимизированную для повышения скорости инференса. Модель демонстрирует сопоставимую точность с другими крупными языковыми моделями, при этом обеспечивая до 2.2 и 7.5 раз более высокую производительность по сравнению с GPT-OSS-120B и Qwen3.5-122B соответственно, благодаря применению квантизации и обучения с подкреплением. Какие перспективы открывает такая комбинация архитектур для создания более эффективных и интеллектуальных агентов, способных к сложному рассуждению?

За пределами Трансформеров: Архитектура для Глубинного Рассуждения

Традиционные архитектуры трансформаторов, несмотря на свою впечатляющую эффективность в различных задачах обработки естественного языка, сталкиваются с фундаментальными ограничениями при масштабировании глубины рассуждений и общей вычислительной эффективности. По мере увеличения числа слоев и параметров, необходимых для решения сложных задач, возрастают как потребность в вычислительных ресурсах, так и время, затрачиваемое на обучение и инференс. Это связано с тем, что стандартные механизмы внимания в трансформаторах требуют квадратичного увеличения вычислительной сложности с ростом длины входной последовательности, что становится узким местом при обработке длинных текстов или сложных логических цепочек. В результате, дальнейшее увеличение размера моделей, хотя и приводит к улучшению производительности в некоторых случаях, становится все более дорогостоящим и неэффективным, что стимулирует поиск альтернативных архитектур, способных преодолеть эти ограничения и обеспечить более глубокое и эффективное рассуждение.

Появление архитектур «Смесь экспертов» (MoE), таких как LatentMoE, знаменует собой переход к более биологически обоснованным и масштабируемым моделям. Вдохновленные принципами работы мозга, где различные нейронные сети специализируются на обработке определенных типов информации, MoE-архитектуры состоят из множества «экспертов» — небольших нейронных сетей. Вместо активации всей модели для каждого входного сигнала, MoE-системы динамически выбирают и активируют лишь небольшое подмножество экспертов, наиболее подходящих для конкретной задачи. Такой подход позволяет значительно увеличить вычислительную мощность и емкость модели, сохраняя при этом относительно небольшое количество активных параметров и повышая эффективность обработки информации, что открывает новые возможности для решения сложных задач, требующих глубокого рассуждения и генерации.

Архитектура Nemotron3Super использует подход Mixture-of-Experts (MoE), позволяя достичь впечатляющего масштаба в 120 миллиардов параметров при одновременном снижении количества активных параметров до 12 миллиардов. Такая конструкция значительно повышает эффективность вычислений: в ходе тестирования продемонстрирована скорость обработки данных до 2.2 раза выше, чем у модели GPT-OSS-120B, и до 7.5 раза выше, чем у Qwen3.5-122B. Данное решение открывает возможности для создания более мощных и быстрых систем, способных к сложным рассуждениям и генерации текста, сохраняя при этом приемлемые требования к вычислительным ресурсам.

Архитектурный подход, основанный на разреженной активации экспертов, направлен на значительное расширение возможностей логического мышления и генерации текста при одновременном повышении эффективности вычислений. В отличие от традиционных моделей, где каждый параметр участвует в каждой операции, данная конструкция позволяет активировать лишь небольшую часть параметров сети для конкретной задачи. Это приводит к снижению вычислительных затрат и ускорению процесса обработки информации, не жертвуя при этом способностью к сложному анализу и созданию связного текста. Подобный подход, имитирующий принципы работы биологических нейронных сетей, открывает перспективы для создания более мощных и экономичных систем искусственного интеллекта, способных решать задачи, требующие глубокого понимания и креативности.

Модель Nemotron 3 Super демонстрирует сопоставимую точность с GPT-OSS-120B и Qwen3.5-122B, при этом обеспечивая значительно более высокую скорость вывода - до 2.2 и 7.5 раза выше для последовательностей длиной 8k и 64k, соответственно, при использовании GPU B200 и оптимизаций vLLM/TRT-LLM. — Модель Nemotron 3 Super демонстрирует сопоставимую точность с GPT-OSS-120B и Qwen3.5-122B, при этом обеспечивая значительно более высокую скорость вывода — до 2.2 и 7.5 раза выше для последовательностей длиной 8k и 64k, соответственно, при использовании GPU B200 и оптимизаций vLLM/TRT-LLM.

Ускорение Инференса: Гибридное Внимание и Квантизация

Для устранения узких мест при выводе, Nemotron3Super использует гибридный механизм внимания Mamba-Attention. Данная архитектурная оптимизация позволила добиться существенного увеличения пропускной способности при инференсе. В частности, Mamba-Attention эффективно обрабатывает длинные последовательности, снижая вычислительную сложность по сравнению с традиционными механизмами внимания, основанными на матрицах, что приводит к более быстрой генерации текста и снижению задержки.

Для ускорения процесса инференса, Nemotron3Super использует постобученческую квантизацию (PTQ), которая позволяет уменьшить размер модели и повысить скорость вычислений. PTQ — это метод снижения точности весов и активаций модели после завершения обучения, что приводит к уменьшению потребления памяти и увеличению пропускной способности. В данном случае, PTQ применяется для оптимизации модели без необходимости повторного обучения, что делает его эффективным решением для развертывания моделей в условиях ограниченных ресурсов и для снижения задержек при инференсе.

Пост-тренировочная квантизация (PTQ) в Nemotron3Super использует как FP8, так и NVFP4 для оптимизации производительности на различных графических процессорах. FP8 применяется для ускорения вычислений на GPU архитектуры Hopper, обеспечивая значительное снижение требований к памяти и увеличение пропускной способности. В свою очередь, NVFP4 — это новый формат квантизации, разработанный NVIDIA и предназначенный для дальнейшей оптимизации эффективности на новейших GPU Blackwell, что позволяет добиться еще более высокой скорости инференса и снижения энергопотребления. Использование обоих форматов позволяет адаптировать модель к различным аппаратным платформам и максимизировать производительность в зависимости от доступных ресурсов.

Для дальнейшей оптимизации производительности на новейших GPU архитектуры Blackwell используется метод квантизации NVFP4. В отличие от традиционных форматов квантизации, NVFP4 обеспечивает более высокую эффективность за счет использования 4-битного представления чисел с плавающей точкой, разработанного специально для архитектуры Blackwell. Это позволяет значительно снизить требования к памяти и вычислительным ресурсам, сохраняя при этом приемлемый уровень точности. Внедрение NVFP4Quantization позволяет Nemotron3Super добиться существенного ускорения инференса и снижения задержек на GPU Blackwell, что критически важно для приложений, требующих высокой пропускной способности и низкой латентности.

Смешивание данных SFT позволило улучшить производительность модели Nemotron 3 Super.

Уточнение Спекулятивного Декодирования для Качества и Скорости

В Nemotron3Super для ускорения процесса инференса и генерации текста используется метод Multi-Token Prediction (MTP) в рамках спекулятивного декодирования. MTP позволяет предсказывать сразу несколько токенов за один шаг, в отличие от традиционного декодирования, предсказывающего только один токен за раз. Это значительно сокращает общее время генерации текста, так как уменьшается количество необходимых проходов через модель. Эффективность MTP достигается за счет параллельного предсказания нескольких токенов, что позволяет более эффективно использовать вычислительные ресурсы и повысить пропускную способность системы.

Для поддержания точности при спекулятивном декодировании в Nemotron3Super используется метод MTPHealing, представляющий собой переобучение “голов” Multi-Token Prediction (MTP) после первичного обучения модели. Этот процесс корректирует веса MTP-голов, позволяя им более эффективно предсказывать следующие токены и минимизировать ошибки, возникающие в процессе спекулятивного декодирования. Переобучение MTP-голов выполняется после завершения основного этапа обучения модели и направлено на повышение согласованности предсказаний MTP с основной моделью, что способствует улучшению качества генерируемого текста и снижению вероятности появления неточностей.

Результаты тестирования Nemotron3Super демонстрируют значительное повышение как скорости генерации текста, так и его качества при использовании комбинации Multi-Token Prediction (MTP) и MTPHealing. Эксперименты показали, что предсказание нескольких токенов одновременно с последующей корректировкой MTP-головок после обучения позволяет сократить время генерации без ущерба для точности и связности текста. Оптимизация, достигнутая за счет совместного применения этих техник, подтверждает их эффективность в улучшении общей производительности модели и предоставляет возможность более быстрой и качественной генерации текста.

Интеграция Multi-Token Prediction (MTP) и механизма MTPHealing демонстрирует комплексный подход к оптимизации всего конвейера вывода модели. MTP ускоряет генерацию текста, предсказывая сразу несколько токенов, а MTPHealing, посредством дообучения MTP-головок после первоначальной тренировки, обеспечивает поддержание точности и качества генерируемого текста. Данная комбинация технологий направлена на повышение производительности на каждом этапе — от предсказания токенов до их корректировки, что позволяет добиться оптимального баланса между скоростью и качеством генерации текста.

Для обучения Nemotron 3 Super использовался конвейер генерации синтетических данных, предназначенный для создания специализированных обучающих данных для диалоговых инструментов.

Обучение для Агентных Возможностей и Надежности

В процессе предварительного обучения модель Nemotron3Super использовала формат NVFP4, что позволило добиться стабильного и точного обучения при пониженной точности вычислений. Данный подход, отличающийся эффективностью использования ресурсов, не только обеспечил сохранение высокой производительности, но и продемонстрировал возможность успешного обучения больших языковых моделей с использованием низкоточных форматов данных. Это открывает перспективы для снижения затрат на обучение и развертывание подобных систем, делая их более доступными и масштабируемыми.

Для повышения адаптивности модели Nemotron3Super применяется обучение с подкреплением на основе проверяемых вознаграждений (RLVR). Данный метод предполагает обучение модели в различных средах, где система получает четкие и верифицируемые сигналы об успехе или неудаче при выполнении задач. В отличие от традиционного обучения с подкреплением, RLVR позволяет более эффективно исследовать пространство решений, поскольку вознаграждения не зависят от субъективных оценок или сложных эвристик. Это способствует формированию у модели способности быстро адаптироваться к новым условиям и решать разнообразные задачи, не требуя значительной перенастройки или дополнительного обучения.

Процесс обучения с подкреплением на основе обратной связи от людей (RLHF) играет ключевую роль в совершенствовании способности модели следовать инструкциям и улучшении качества взаимодействия. Данный метод позволяет модели не просто понимать запросы, но и формировать ответы, соответствующие ожиданиям человека. Специалисты оценивают результаты работы модели и предоставляют обратную связь, которая используется для корректировки ее поведения. По сути, RLHF — это процесс “тонкой настройки”, в ходе которого модель учится учитывать нюансы человеческого языка и контекста, что существенно повышает ее полезность и удобство использования, делая взаимодействие более естественным и эффективным.

Комплексная программа обучения позволила создать модель, демонстрирующую надежные агентные способности и повышенную производительность в различных задачах. В ходе тренировок использовались как методы обучения с подкреплением на основе проверяемых вознаграждений (RLVR), повышающие адаптивность, так и обучение с подкреплением на основе обратной связи от человека (RLHF), улучшающее качество следования инструкциям и взаимодействия. Результатом стало достижение сопоставимой точности на эталонных бенчмарках: HumanEval (58.8%) и MMLU (72.2%), что свидетельствует о способности модели эффективно решать широкий спектр задач, требующих как логического мышления, так и понимания естественного языка.

После обучения модель Nemotron 3 Super проходит дополнительную обработку, включающую в себя этапы фильтрации, ранжирования и слияния ответов для повышения их качества и релевантности.

Исследование архитектуры Nemotron 3 Super, объединяющей Mixture-of-Experts и Mamba, демонстрирует не просто стремление к повышению производительности, но и признание сложности систем. Эта модель, подобно растущей экосистеме, требует тонкой настройки и адаптации. Как однажды заметил Дональд Кнут: «Преждевременная оптимизация — корень всех зол». Разработчики Nemotron 3 Super, используя методы квантизации и обучение с подкреплением, стремятся не к мгновенному результату, а к созданию системы, способной к долгосрочной эволюции и самосовершенствованию. Именно такой подход, ориентированный на адаптивность, а не на жесткое программирование, является ключом к созданию действительно интеллектуальных систем.

Что дальше?

Эта работа демонстрирует, как можно склеить воедино фрагменты разных архитектур — MoE и Mamba — в надежде получить нечто большее, чем сумма частей. Но в каждом таком кропотливо выстроенном гибриде скрыт страх перед хаосом, предчувствие неизбежного распада. Ускорение инференса за счёт квантизации и обучения с подкреплением — это лишь отсрочка неизбежного, попытка удержать энтропию силой инженерной мысли.

Впрочем, истинная проблема не в скорости, а в предсказуемости. Модели становятся все сложнее, а их внутреннее устройство — все более непрозрачным. Этот паттерн выродится через три релиза: неизбежно возникнут неявные зависимости, непредсказуемые побочные эффекты, и хрупкость системы станет очевидной. Надежда на идеальную архитектуру — это форма отрицания энтропии, иллюзия контроля над неумолимым течением времени.

В ближайшем будущем следует ожидать не прорыва в архитектурах, а усложнения инструментов анализа и диагностики. Потребуются новые методы интерпретации, способные выявлять скрытые уязвимости и предсказывать будущие сбои. Необходимо научиться не строить системы, а выращивать их, позволяя им эволюционировать и адаптироваться к меняющимся условиям.

Оригинал статьи: https://arxiv.org/pdf/2604.12374.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-15 06:48

🚀 Квантовые новости