Сжатие моделей нового поколения: как уменьшить размер нейросетей, не теряя в качестве

Автор: Денис Аветисян


В новой работе исследователи представляют метод, позволяющий значительно уменьшить размер больших языковых моделей, сохранив при этом высокую точность и производительность.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Средняя точность 2-битных ($W2A16$) моделей демонстрирует стабильные результаты на больших языковых моделях Llama 2 и Llama 3 70B, что подтверждается подробными данными, представленными в Таблице 1.
Средняя точность 2-битных ($W2A16$) моделей демонстрирует стабильные результаты на больших языковых моделях Llama 2 и Llama 3 70B, что подтверждается подробными данными, представленными в Таблице 1.

SignRoundV2 — фреймворк для постобработочной квантизации, достигающий передовых результатов при сжатии больших языковых моделей до 2 бит с использованием нового критерия чувствительности и эффективного распределения бит.

Квантование больших языковых моделей (LLM) до крайне низких разрядностей является ключевым фактором эффективного развертывания, однако часто приводит к существенной деградации производительности. В данной работе, ‘SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs’, представлен новый фреймворк SignRoundV2, позволяющий значительно снизить потери точности при квантовании до 2-5 бит за счет адаптивного распределения разрядности и оптимизации масштабирования. Предложенный подход демонстрирует конкурентоспособные результаты, приближающиеся к точности моделей, использующих полную разрядность, даже при экстремально низких битовых ширинах. Возможно ли дальнейшее улучшение производительности LLM за счет комбинирования SignRoundV2 с другими методами сжатия и оптимизации?


Эффективность под вопросом: узкие места больших языковых моделей

Современные большие языковые модели, такие как LLaMA и Qwen, демонстрируют впечатляющие возможности в обработке и генерации текста, превосходя многие предыдущие решения в различных задачах. Однако, столь впечатляющая производительность достигается ценой огромных вычислительных затрат и значительных требований к памяти. Размер этих моделей, измеряемый в миллиардах параметров, делает их развертывание на стандартном оборудовании крайне сложным, а обучение и даже инференс — ресурсоемким и дорогостоящим. Подобный тренд, при сохранении текущих темпов развития, ставит под вопрос устойчивость дальнейшего прогресса в области искусственного интеллекта, поскольку масштабирование моделей становится все более непрактичным и экологически неблагоприятным. Поиск путей повышения эффективности, снижения энергопотребления и уменьшения размера моделей является ключевой задачей для обеспечения долгосрочной жизнеспособности больших языковых моделей и расширения их доступности.

Традиционные методы квантования, включая обучение с учетом квантования (Quantization Aware Training), часто приводят к снижению точности моделей, что становится серьезным препятствием для их практического применения. В процессе квантования, когда числа с плавающей точкой заменяются на целые с меньшей разрядностью, неизбежно происходит потеря информации. Несмотря на попытки компенсировать это за счет специальных алгоритмов и техник обучения, значительное снижение производительности, особенно для сложных задач, остается распространенной проблемой. Это ограничивает возможность развертывания больших языковых моделей на устройствах с ограниченными ресурсами, таких как мобильные телефоны или встраиваемые системы, и увеличивает стоимость их эксплуатации в центрах обработки данных. Поэтому поиск эффективных методов квантования, минимизирующих потерю точности, является ключевой задачей в области разработки и применения больших языковых моделей.

Пост-тренировочная квантизация представляет собой перспективный подход к снижению вычислительных затрат, связанных с большими языковыми моделями. Однако, ранние реализации, такие как SignRound, демонстрировали ограниченную точность, приводя к заметной потере производительности. Суть проблемы заключалась в упрощенном представлении весов модели — переход от чисел с плавающей точкой к целочисленным значениям с меньшей разрядностью неизбежно вносил ошибки. В то время как SignRound стремился к радикальному сокращению размера модели, пренебрежение точностью приводило к деградации качества генерируемого текста и снижению способности модели к обобщению. Современные исследования направлены на разработку более сложных методов пост-тренировочной квантизации, которые минимизируют эти потери, используя, например, смешанную точность или калибровку квантованных весов для сохранения ключевой информации, необходимой для эффективной работы модели.

Анализ чувствительности DeltaLoss показывает, что модель Llama-3.1-8B-Instruct демонстрирует схожую производительность при использовании форматов W2A16 и MXFP4 на уровне каждого слоя.
Анализ чувствительности DeltaLoss показывает, что модель Llama-3.1-8B-Instruct демонстрирует схожую производительность при использовании форматов W2A16 и MXFP4 на уровне каждого слоя.

Адаптивная точность: умный подход к квантованию

Адаптивная квантизация с переменной разрядностью решает проблему снижения точности за счет динамического распределения бит между слоями нейронной сети. В отличие от равномерной квантизации, где все слои представляются одинаковым количеством бит, адаптивный подход выделяет больше бит более чувствительным слоям, оказывающим наибольшее влияние на итоговую производительность модели. Это позволяет достичь компромисса между снижением вычислительных затрат и сохранением точности, обеспечивая более эффективное использование ресурсов при сохранении приемлемого уровня качества. Выделение большей разрядности критичным слоям минимизирует потери информации и улучшает общую производительность квантованной модели.

Для определения критически важных параметров в процессе адаптивной квантизации используются метрики чувствительности. Первоначально для этой цели применялся анализ гессианской матрицы ($H$), позволяющий оценить влияние изменений параметров на функцию потерь. Однако вычисление гессиана является вычислительно затратным процессом, особенно для больших моделей. Современные методы, такие как DeltaLoss, предлагают более эффективные альтернативы, основанные на анализе градиентов, что позволяет снизить вычислительную сложность и ускорить процесс определения оптимального распределения разрядности для различных слоев нейронной сети.

SignRoundV2 использует метрику DeltaLoss, основанную на градиентах, для определения оптимального распределения разрядности при постобучении квантовании. DeltaLoss оценивает влияние квантования каждого параметра на функцию потерь, что позволяет более точно определить, какие веса требуют большей точности для минимизации потерь производительности. В отличие от ранних методов, использующих гессиан, DeltaLoss требует значительно меньше вычислительных ресурсов, поскольку основана на первом порядке градиентов. Это позволяет эффективно определять критичные параметры и назначать им более высокую разрядность, в то время как менее чувствительные слои могут быть квантованы с использованием меньшей разрядности, обеспечивая оптимальный компромисс между точностью и размером модели.

Калибровка и проверка: SignRoundV2 в действии

SignRoundV2 использует набор данных The Pile для калибровки, что обеспечивает надежную производительность в широком спектре задач обработки естественного языка. The Pile представляет собой масштабный, разнообразный корпус текстов, включающий данные из различных источников, таких как веб-страницы, книги, научные статьи и исходный код. Использование этого набора данных позволяет SignRoundV2 адаптироваться к различным типам текстовых данных и эффективно работать с задачами, требующими понимания языка, генерации текста и классификации. Разнообразие The Pile критически важно для повышения обобщающей способности модели и снижения риска переобучения на узком подмножестве данных.

Архитектура SignRoundV2 разработана с учетом простоты интеграции с существующими большими языковыми моделями (LLM). Это достигается за счет модульной конструкции и использования стандартных интерфейсов, что позволяет легко адаптировать фреймворк к различным моделям без значительных изменений в коде. Поддержка различных форматов весов и возможность конфигурирования параметров квантования упрощают процесс внедрения SignRoundV2 в существующие пайплайны развертывания LLM. Такая гибкость делает фреймворк применимым в широком спектре сценариев, от исследовательских проектов до производственных систем.

Оценка с использованием LM-Eval-Harness подтвердила, что SignRoundV2 демонстрирует передовые результаты в области квантования больших языковых моделей (LLM), превосходя существующие методы. В частности, SignRoundV2 превосходит существующие методы Post-Training Quantization (PTQ) и достигает сопоставимой точности с методами Quantization-Aware Training (QAT), особенно при экстремально низких разрядностях (2-5 бит). Это указывает на значительное улучшение эффективности и снижение требований к вычислительным ресурсам при сохранении высокой точности модели.

Взгляд в будущее: форматы чисел с плавающей точкой и горизонты квантования

Внедрение оптимизированных форматов чисел с плавающей точкой, таких как MXFP4 и MXFP8, значительно повышает эффективность квантованных моделей на современных ускорителях. Эти форматы, разработанные для снижения требований к памяти и вычислительной мощности, позволяют представлять веса и активации нейронных сетей с меньшей точностью, сохраняя при этом приемлемый уровень производительности. Использование MXFP4 и MXFP8 особенно эффективно применительно к большим языковым моделям (LLM), где снижение точности представления параметров может существенно уменьшить общий размер модели и ускорить процесс инференса без критической потери качества. Такой подход открывает возможности для развертывания мощных LLM на устройствах с ограниченными ресурсами, таких как мобильные телефоны и встраиваемые системы, расширяя доступ к передовым технологиям обработки естественного языка.

Квантизация, фокусирующаяся исключительно на весах модели, в сочетании с адаптивными стратегиями определения разрядности, представляет собой эффективный подход к уменьшению размера модели и снижению задержки. Такой метод позволяет существенно сократить объем хранимых данных, не требуя модификации активаций, что упрощает процесс и снижает вычислительные затраты. Адаптивное определение разрядности позволяет динамически настраивать точность представления весов для каждого слоя или даже отдельных параметров, оптимизируя баланс между степенью сжатия и сохранением точности. Это особенно важно для развертывания больших языковых моделей на устройствах с ограниченными ресурсами, где каждый байт памяти и каждая вычислительная операция имеют значение. Подобный подход обеспечивает значительное ускорение инференса и расширяет возможности использования передовых моделей обработки естественного языка на широком спектре платформ.

Метод SignRoundV2 демонстрирует впечатляющую точность, приближающуюся к полноточной, при использовании всего 5-6 бит для квантизации. Особого внимания заслуживает способность восстановления информации — около 99% при использовании форматов MXFP4/8 с 4 битами. В отличие от трудоемких методов квантизации с обучением (QAT), требующих десятки или даже сотни часов, SignRoundV2 завершает процесс квантизации всего за 2,5 часа. Такая высокая скорость и сохранение точности делают этот подход особенно перспективным для развертывания сложных моделей на устройствах с ограниченными ресурсами, открывая новые возможности для широкого доступа к передовым технологиям обработки естественного языка.

Разработанные методы квантизации и оптимизированные форматы представления данных, такие как MXFP4 и MXFP8, открывают новые возможности для развертывания мощных языковых моделей на устройствах с ограниченными ресурсами. Это позволяет преодолеть барьеры, связанные с вычислительной мощностью и энергопотреблением, и сделать передовые технологии обработки естественного языка доступными для более широкого круга пользователей. Благодаря значительному сокращению размера моделей и времени их работы, становится возможным внедрение сложных NLP-приложений в мобильные устройства, встроенные системы и другие платформы, где ранее это было непрактично. Такое расширение доступа к передовым языковым моделям способствует развитию инноваций в различных областях, от автоматического перевода и анализа текста до виртуальных ассистентов и персонализированного обучения.

Исследование, представленное в данной работе, демонстрирует подход к оптимизации больших языковых моделей посредством квантования с экстремально низкой разрядностью. Авторы не просто стремятся уменьшить размер модели, но и глубоко анализируют чувствительность различных её частей, что позволяет адаптировать разрядность битов для достижения оптимального баланса между сжатием и точностью. Этот процесс напоминает деконструкцию сложной системы с целью выявления ключевых компонентов и их взаимосвязей. Как однажды заметила Ада Лавлейс: «То, что может быть выражено посредством математических символов, может быть познано». В данном контексте, применение метрики DeltaLoss и адаптивного распределения битов — это своего рода математическое выражение, позволяющее познать и контролировать поведение языковой модели даже при сильном сжатии. Работа SignRoundV2 подтверждает, что понимание внутренних механизмов системы позволяет не только уменьшить её размер, но и сохранить её функциональность.

Что дальше?

Представленный фреймворк SignRoundV2, безусловно, продвигает границы пост-тренировочной квантизации, позволяя сжимать большие языковые модели до экстремально низких разрядностей. Однако, подобно любому патчу, он лишь временно замаскировал фундаментальную проблему: несовершенство представления информации. Стремление к всё более компактным моделям неизбежно сталкивается с потерей точности, и вопрос в том, где проходит граница разумного. Успех SignRoundV2 основан на адаптивном распределении битов, но это лишь утончённый способ примириться с неизбежным компромиссом.

Следующим шагом видится не столько дальнейшая оптимизация существующих методов квантизации, сколько поиск принципиально новых подходов к представлению знаний. Возможно, стоит пересмотреть саму архитектуру нейронных сетей, отказавшись от привычной парадигмы весов и смещений в пользу более эффективных и устойчивых к квантизации структур. Или же, возможно, ключ кроется в использовании альтернативных математических моделей, способных более эффективно кодировать информацию при низких разрядностях.

В конечном счёте, вся эта гонка за сжатием — лишь отражение более глубокой философской проблемы: как наилучшим образом представить сложный мир с помощью ограниченных ресурсов. И каждый новый метод, каждая новая оптимизация — это лишь очередная попытка взломать систему, признавая её фундаментальную неидеальность.


Оригинал статьи: https://arxiv.org/pdf/2512.04746.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-06 00:55