Когда точность встречается с эффективностью: новый взгляд на низкобитовую квантизацию

Автор: Денис Аветисян


Как переход к мелкозернистой целочисленной квантизации может превзойти традиционные форматы с плавающей точкой по точности и аппаратной эффективности.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
При сравнении различных целочисленных и чисел с плавающей точкой, теоретическое отношение сигнал/шум (QSNR) демонстрирует зависимость от коэффициента гребня, при этом точки пересечения кривых, отражающие оптимальный баланс между этими форматами, определяются коэффициентом гребня и соответствующим значением QSNR.
При сравнении различных целочисленных и чисел с плавающей точкой, теоретическое отношение сигнал/шум (QSNR) демонстрирует зависимость от коэффициента гребня, при этом точки пересечения кривых, отражающие оптимальный баланс между этими форматами, определяются коэффициентом гребня и соответствующим значением QSNR.

Исследование сравнивает производительность целочисленных и чисел с плавающей точкой при мелкозернистой низкобитовой квантизации и определяет точку перехода, где целочисленные форматы становятся предпочтительнее.

Несмотря на преобладание форматов с плавающей точкой в современных аппаратных решениях для искусственного интеллекта, всестороннего сравнения эффективности целочисленных и чисел с плавающей точкой при гранулярной квантизации до сих пор не проводилось. Данное исследование, озаглавленное ‘INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats’, систематически анализирует компромиссы между этими подходами. Полученные результаты показывают, что при мелкозернистой квантизации целочисленные форматы, в частности MXINT8, могут превосходить аналогичные форматы с плавающей точкой как с точки зрения точности, так и аппаратной эффективности. Ставит ли это под сомнение текущую тенденцию к повсеместному использованию чисел с плавающей точкой и открывает ли путь к новым архитектурам AI-ускорителей?


Квантование LLM: Путь к Эффективности

Большие языковые модели (LLM) требуют значительных вычислительных ресурсов, ограничивая их широкое распространение. Архитектура Transformer усложняет квантование из-за выбросов в распределениях активаций. Традиционные методы квантования недостаточно точны, что требует инновационных подходов. Исследования показывают, что мелкозернистое целочисленное квантование (MXINT8) превосходит квантование с низкой точностью с плавающей точкой (MXFP8).

Обучение модели Llama-1B на 100 миллиардах токенов с использованием форматов BF16, MXFP8 и MXINT8 демонстрирует различные кривые потерь, сглаженные экспоненциальным скользящим средним с коэффициентом 0.9.
Обучение модели Llama-1B на 100 миллиардах токенов с использованием форматов BF16, MXFP8 и MXINT8 демонстрирует различные кривые потерь, сглаженные экспоненциальным скользящим средним с коэффициентом 0.9.

Иногда, чтобы увидеть истинный масштаб проблемы, нужно не добавлять детали, а убрать все лишнее.

Гранулярность Квантования: Баланс Точности и Вычислений

Уровень гранулярности – ключевой фактор успешного квантования. Подходы варьируются от квантования всего тензора до квантования по каналам и блочным методов. Блочная квантотация, такая как NVIDIA (NV) Format и Microscaling (MX) Format, представляет собой компромисс между точностью и затратами. MX форматы используют общие коэффициенты масштабирования для экономии памяти, а NV форматы – специфические для оптимизации производительности. MXINT8 обеспечивает отношение сигнал/шум (QSNR) до 13.80 дБ + 6.02M дБ с достаточным динамическим диапазоном, превосходя многие форматы с плавающей точкой.

Целочисленные и Форматы с Низкой Точностью: Сравнение

Переоценивается использование целочисленных (INT) форматов для квантования LLM. Они позволяют повысить эффективность вычислений, но требуют внимания к динамическому диапазону. Форматы чисел с плавающей точкой пониженной точности (FP), такие как FP8 и FP4, приобретают популярность благодаря способности представлять широкий диапазон значений и обрабатывать выбросы. BFloat16 часто используется как базовый для сравнения. Однако, MXINT8 демонстрирует сопоставимые с BFloat16 значения функции потерь, при этом обеспечивая примерно 34% снижение площади и 37-38% снижение энергопотребления при сопоставимой пропускной способности по сравнению с MXFP8 + NVFP4.

Вычисление потока данных в прямом и обратном распространении линейного слоя показывает процесс обработки информации в нейронной сети.
Вычисление потока данных в прямом и обратном распространении линейного слоя показывает процесс обработки информации в нейронной сети.

Аппаратная Эффективность: Путь к Масштабированию

Анализ аппаратных затрат критичен для определения площади и энергоэффективности различных форматов квантования. Это позволяет выбрать оптимальные конфигурации, максимизируя производительность при заданных ограничениях. Методы, такие как симметричное отсечение (Symmetric Clipping), смягчают смещение градиента и повышают устойчивость обучения моделей с низкой точностью. Комбинация тщательно подобранных форматов квантования и аппаратных оптимизаций открывает возможности для развертывания LLM на устройствах с ограниченными ресурсами. MXINT8 демонстрирует конкурентоспособные результаты по KL-дивергенции и значительные улучшения в площади и энергоэффективности, представляя собой убедительный путь к масштабируемому и эффективному развертыванию LLM. Простота – не ограничение, а доказательство понимания.

Исследование демонстрирует, что стремление к высокой точности не всегда оправдано с точки зрения эффективности. Авторы работы показывают, что тонкозернистая целочисленная квантизация способна превзойти традиционные форматы с плавающей точкой, предлагая компромисс между точностью и аппаратной эффективностью. Это напоминает принцип, сформулированный Полом Эрдешем: “Не существует красивых предложений, только красивые идеи.” Аналогично, не всегда необходима максимальная точность представления данных; важнее – элегантное и эффективное решение, позволяющее достичь необходимого результата с минимальными затратами. Работа подчеркивает, что упрощение, удаление избыточности и концентрация на главном – путь к совершенству, особенно в контексте разработки аппаратного обеспечения для искусственного интеллекта.

Что дальше?

Представленная работа, намеренно или нет, обнажила изрядную долю самодовольства в области низкоточного вычисления. Долгое время превозносимые форматы с плавающей точкой оказались не столь уж непревзойденными, как казалось. И дело здесь не в триумфе целых чисел, а в признании того, что оптимизация ради оптимизации – пустой звук. Необходима переоценка подхода к квантованию, отказ от слепого следования устоявшимся шаблонам.

Очевидным направлением дальнейших исследований представляется поиск действительно тонких гранулярностей квантования. Не просто разделение на блоки, а адаптация точности к специфике каждого слоя, каждого веса. Однако, заманчивость подобной детализации таит в себе опасность усложнения, которое необходимо обрезать безжалостно. Ключевым вопросом остаётся не то, что можно оптимизировать, а то, что необходимо упростить.

Не стоит забывать и о практической реализации. Теоретические выкладки должны быть подкреплены адекватной аппаратной поддержкой. А это, в свою очередь, требует пересмотра архитектурных решений и отказа от устаревших догм. Поиск точки пересечения между точностью, эффективностью и простотой – задача, которая, по всей видимости, потребует немало усилий и, возможно, смирения.


Оригинал статьи: https://arxiv.org/pdf/2510.25602.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-04 01:40