Нейросети в памяти: Новый подход к квантованию для энергоэффективных вычислений

Автор: Денис Аветисян

Исследователи разработали инновационный метод квантования нелинейных активаций, позволяющий значительно повысить точность и энергоэффективность вычислений в памяти.

Квантование и характеристики аналого-цифрового преобразователя (АЦП) оказывают существенное влияние на точность моделей глубокого обучения, таких как ResNet-18, VGG-16, Inception-V3 и DistilBERT, демонстрируя, что снижение разрядности представления данных может привести к заметной деградации производительности.

Представлен метод BS-KMQ для нелинейного квантования с использованием малобитных АЦП и SRAM, обеспечивающий существенные улучшения в производительности нейронных сетей.

В глубоких нейронных сетях активации часто неравномерно распределены, что приводит к неоптимальной квантизации и снижению эффективности вычислений. В статье «In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing» предложен новый метод нелинейной квантизации — Boundary Suppressed K-Means Quantization (BS-KMQ), направленный на снижение требований к разрешению аналого-цифровых преобразователей в системах вычислений в памяти. BS-KMQ позволяет добиться более сбалансированной квантизации и повысить точность пост-тренировочной квантизации до 66.8%, одновременно снижая энергопотребление до 24x по сравнению с существующими решениями. Сможет ли данный подход стать основой для создания принципиально новых, энергоэффективных аппаратных ускорителей для задач искусственного интеллекта?

Квантование: Баланс между Точностью и Эффективностью

Глубокие нейронные сети демонстрируют передовые результаты в различных областях, от распознавания изображений до обработки естественного языка. Однако, достижение такой производительности требует значительных вычислительных ресурсов, как в процессе обучения, так и при развертывании. Огромное количество параметров и операций, необходимых для обработки данных, приводит к высоким требованиям к памяти, пропускной способности и энергопотреблению. Это создает серьезные препятствия для применения глубокого обучения на мобильных устройствах, встроенных системах и других платформах с ограниченными ресурсами. По мере усложнения архитектур нейронных сетей и увеличения объемов обрабатываемых данных, потребность в эффективных вычислительных решениях становится все более актуальной и требует разработки инновационных подходов к оптимизации и сжатию моделей.

Снижение разрядности представления данных посредством квантования представляет собой перспективный путь к повышению эффективности вычислений, однако зачастую сопровождается потерей точности. Данная проблема обусловлена нестабильностью на границах квантованных интервалов, когда небольшие изменения входных данных могут приводить к значительным отклонениям в выходных значениях. В процессе квантования, непрерывный диапазон значений заменяется на дискретный набор, что неизбежно вносит погрешности. Чем меньше разрядность, тем грубее квантование и тем более выражены эти погрешности, особенно в областях, где функция имеет резкие переходы или высокую чувствительность к изменениям входных параметров. Несмотря на потенциальную экономию вычислительных ресурсов и памяти, необходимо тщательно балансировать между снижением разрядности и сохранением приемлемого уровня точности для конкретной задачи.

Традиционные методы квантования часто сталкиваются с проблемой неравномерного распределения активаций в нейронных сетях, что приводит к значительной потере информации. Особенно остро эта проблема проявляется при использовании функций активации ReLU, которые по своей природе создают большое количество нулевых значений и редкие, но значимые пики в распределении. В результате, при грубом квантовании, эти редкие пики, несущие важную информацию для принятия решений сетью, могут быть потеряны или искажены. Это происходит потому, что стандартные методы квантования предполагают равномерное распределение данных и не учитывают специфические особенности активаций ReLU, что приводит к существенному снижению точности модели. Поэтому, для эффективного квантования сетей с функциями ReLU требуется разработка специализированных техник, адаптированных к особенностям распределения активаций и минимизирующих потерю информации.

Современные нейронные сети, демонстрирующие передовые результаты, требуют значительных вычислительных ресурсов. Для преодоления этого ограничения, методы квантования, снижающие точность представления данных, представляются перспективным решением. Однако, традиционные подходы к квантованию часто сталкиваются с проблемой потери информации из-за неравномерного распределения активаций, особенно при использовании функций ReLU. В связи с этим, возникает необходимость в разработке новых техник квантования, которые учитывали бы особенности аппаратного обеспечения и адаптировались бы к конкретным распределениям активаций в сети. Такой подход позволит минимизировать потери точности, сохраняя при этом преимущества в плане эффективности и скорости вычислений, что критически важно для развертывания нейронных сетей на устройствах с ограниченными ресурсами.

На моделях ResNet-18, VGG-16, Inception-V3 и DistilBERT наш метод демонстрирует сопоставимую с fine-tuning (FT) точность при квантизации <span class="katex-eq" data-katex-display="false">PTQ</span>, превосходя базовый подход с плавающей точкой (BL). — На моделях ResNet-18, VGG-16, Inception-V3 и DistilBERT наш метод демонстрирует сопоставимую с fine-tuning (FT) точность при квантизации $PTQ$ , превосходя базовый подход с плавающей точкой (BL).

BS-KMQ: Граничное Ограничение для Точного Квантования

Метод BS-KMQ использует кластеризацию K-средних в качестве базового алгоритма, однако вносит существенное дополнение в виде механизма подавления границ. Этот механизм направлен на снижение влияния выбросов в активациях, которые могут исказить процесс квантования и привести к снижению точности. Подавление границ достигается путем ограничения диапазона значений, используемых для формирования кластеров, что позволяет исключить экстремальные значения и повысить стабильность процесса квантования, особенно в случаях, когда распределение активаций имеет длинные хвосты или содержит аномалии.

В BS-KMQ для динамической оценки глобального диапазона границ используется экспоненциальное скользящее среднее. Этот метод позволяет сглаживать распределения активаций, предотвращая установку неточных уровней квантования. Экспоненциальное скользящее среднее рассчитывается по формуле $EMA_t = \alpha <i> x_t + (1 - \alpha) </i> EMA_{t-1}$ , где $x_t$ — текущее значение активации, $EMA_t$ — экспоненциальное скользящее среднее на шаге t, а α — коэффициент сглаживания, определяющий вес текущего значения. Применение данного подхода позволяет эффективно адаптироваться к изменяющимся статистическим характеристикам активаций, минимизируя потери точности при квантовании.

Метод BS-KMQ разработан специально для постобучения квантизации, что позволяет применять его к существующим, предварительно обученным моделям без необходимости дополнительного обучения. В ходе тестирования на моделях ResNet-18, VGG-16, Inception-V3 и DistilBERT, BS-KMQ демонстрирует точность до 66.8% по сравнению с линейной квантизацией. Это достигается за счет сохранения большей части информации о весах модели при переходе к более низкоточной форме представления данных, минимизируя потери точности, которые обычно возникают при квантизации.

Решение BS-KMQ разработано с учетом особенностей аппаратного обеспечения и предназначено для эффективной реализации в перспективных архитектурах вычислений в памяти. Конструкция алгоритма позволяет минимизировать перемещение данных между памятью и вычислительными блоками, что критически важно для повышения энергоэффективности и снижения задержек в системах, где вычисления выполняются непосредственно в памяти. Такой подход особенно актуален для развертывания моделей глубокого обучения на устройствах с ограниченными ресурсами, таких как мобильные устройства и встроенные системы, и позволяет реализовать значительное ускорение по сравнению с традиционными подходами, требующими постоянного обмена данными между процессором и памятью.

Сравнение среднеквадратичной ошибки (MSE) различных схем квантования, включая Lloyd-Max, CDF-based, K-means и разработанный нами BS-KMQ, показывает, что наш метод обеспечивает более высокую точность при квантовании активаций первого Conv-BN-ReLU блока ResNet-18 на наборе данных Cifar-10 при использовании 3-битного квантования.

Реализация в Памяти и Аппаратное Ускорение

BS-KMQ реализована с использованием парадигмы вычислений в памяти, что позволяет эффективно выполнять операции непосредственно в статической оперативной памяти (SRAM). Такой подход исключает необходимость перемещения данных между памятью и процессором, что является основным узким местом в традиционных вычислительных архитектурах. В BS-KMQ логические операции выполняются путем манипулирования состоянием ячеек SRAM, используя их для хранения и обработки данных одновременно. Это обеспечивает значительное повышение производительности и снижение энергопотребления по сравнению с архитектурами, основанными на разделении памяти и процессора.

Новая нелинейная архитектура аналого-цифрового преобразователя (АЦП), построенная на основе двухъячеечной схемы SRAM 9T, обеспечивает реализацию BS-KMQ непосредственно в массиве памяти. Данная архитектура использует нелинейные характеристики двухъячеечной схемы для выполнения операций взвешенного суммирования, необходимых для алгоритма BS-KMQ, без необходимости перемещения данных между памятью и процессором. Двухъячеечная структура позволяет более эффективно использовать доступные ресурсы SRAM, а также повышает точность вычислений за счет снижения влияния шумов и отклонений в характеристиках отдельных ячеек памяти. Такая интеграция АЦП в массив памяти существенно сокращает энергопотребление и задержки, связанные с традиционными архитектурами вычислений.

Реализация BS-KMQ непосредственно в памяти значительно сокращает объем перемещения данных, являющегося ключевым ограничением производительности традиционных вычислительных архитектур. Вместо передачи данных между памятью и процессором, вычисления выполняются непосредственно в ячейках памяти, что позволяет избежать задержек, связанных с обменом данными по шине. Такая архитектура также обеспечивает возможность параллельной обработки данных, поскольку операции могут выполняться одновременно в различных ячейках памяти. В результате проведенных тестов, данная реализация демонстрирует четырехкратное увеличение скорости работы по сравнению с существующими IMC-ускорителями.

Предлагаемый подход демонстрирует значительный потенциал для применения как в маломощных периферийных устройствах, так и в высокопроизводительных центрах обработки данных. В результате проведенных тестов, реализованная архитектура обеспечивает 24-кратное повышение энергоэффективности по сравнению с существующими IMC-ускорителями. Это достигается за счет минимизации перемещения данных и возможности параллельной обработки непосредственно в памяти, что критически важно для снижения энергопотребления в устройствах с ограниченными ресурсами и повышения производительности в требовательных вычислительных средах.

Предложенная двухъядерная 9T SRAM IMC и IM NL-ADC имеет структуру, включающую в себя аппаратную систему, двухъядерную ячейку SRAM и подробную схему с временными диаграммами для обеспечения эффективной работы.

Подтверждение Эффективности и Широкая Применимость BS-KMQ

Проведенные масштабные сравнительные тесты однозначно демонстрируют превосходство BS-KMQ над традиционными методами квантизации применительно к таким моделям глубокого обучения, как ResNet-18, VGG-16, Inception-V3 и DistilBERT. Результаты показывают, что BS-KMQ обеспечивает более высокую точность и эффективность по сравнению с существующими подходами, что подтверждается стабильными улучшениями производительности на различных архитектурах нейронных сетей. Это указывает на значительный прогресс в области оптимизации моделей для развертывания в условиях ограниченных вычислительных ресурсов, а также открывает перспективы для ускорения внедрения технологий глубокого обучения в широком спектре приложений.

Для обеспечения оптимальной точности, разработанный метод BS-KMQ проходит валидацию с использованием специального калибровочного набора данных. Этот набор позволяет точно определить уровни квантования, необходимые для минимизации потерь при переходе к низкоразрядным представлениям. Процесс калибровки гарантирует, что каждый параметр модели будет квантован с учетом его чувствительности, что критически важно для сохранения высокой производительности. Использование калибровочного набора данных позволяет не только повысить точность квантования, но и адаптировать метод к различным архитектурам нейронных сетей и задачам, обеспечивая его универсальность и надежность в широком спектре приложений.

Исследования демонстрируют, что метод BS-KMQ эффективно снижает потерю точности при использовании низкобитной квантизации. Применение 3/3/4/4-битных нелинейных аналого-цифровых преобразователей (NLADC) в моделях ResNet-18, VGG-16, Inception-V3 и DistilBERT приводит к незначительным потерям точности, составляющим всего 0.3%, 0.5%, 0.8% и 1.2% соответственно. Такая минимизация потерь позволяет сохранять высокую производительность моделей даже при значительном снижении вычислительных затрат, что особенно важно для внедрения глубокого обучения в устройства с ограниченными ресурсами.

Полученные результаты демонстрируют значительный потенциал BS-KMQ для расширения применения глубокого обучения в средах с ограниченными ресурсами. В частности, разработанный метод обеспечивает снижение ошибки квантования в 3-8 раз по сравнению с традиционными подходами, такими как линейная квантизация, Lloyd-Max, CDF и стандартный K-means, при использовании 3-битных АЦП. При этом, накладные расходы на площадь NL-АЦП составляют всего 3,3% от площади MAC-массива, что является существенным улучшением — в 7 и 5,2 раза соответственно — по сравнению с традиционными NL ramp АЦП и линейными SAR АЦП, потребляющими 27% и 23% площади. Такая эффективность позволяет создавать более компактные и энергоэффективные системы глубокого обучения, открывая возможности для их внедрения в мобильные устройства, встроенные системы и другие приложения с ограниченными ресурсами.

Предложенный метод демонстрирует более низкую среднеквадратичную ошибку <span class="katex-eq" data-katex-display="false">MSE</span> при 4-битной квантизации в репрезентативном слое DistilBERT по сравнению с линейной квантизацией и другими нелинейными схемами, такими как Lloyd-Max, CDF и стандартный K-means. — Предложенный метод демонстрирует более низкую среднеквадратичную ошибку $MSE$ при 4-битной квантизации в репрезентативном слое DistilBERT по сравнению с линейной квантизацией и другими нелинейными схемами, такими как Lloyd-Max, CDF и стандартный K-means.

Исследование демонстрирует, что эффективность системы напрямую зависит от структуры представления данных. Предложенный метод BS-KMQ, оптимизируя процесс нелинейной квантизации, позволяет значительно повысить точность и энергоэффективность вычислений в памяти. Этот подход подтверждает идею о том, что оптимизация одной части системы требует понимания её целостной архитектуры, поскольку каждая оптимизация неизбежно создает новые точки напряжения. Как отмечал Андрей Колмогоров: «Математика — это искусство видеть невидимое». Данная работа, фокусируясь на нелинейной квантизации, позволяет увидеть скрытые возможности повышения эффективности вычислений, что является ярким примером математической элегантности в инженерной практике.

Что дальше?

Представленный подход, демонстрируя улучшения в точности и энергоэффективности за счёт нелинейной квантизации, неизбежно поднимает вопрос о пределах упрощения. Каждое снижение разрядности аналого-цифрового преобразователя (АЦП) — это компромисс между скоростью, энергопотреблением и, разумеется, точностью. В стремлении к элегантности и минимализму, необходимо помнить, что система — это не просто набор компонентов, а взаимосвязанный организм. Дальнейшие исследования должны быть направлены не только на совершенствование алгоритмов квантизации, но и на адаптацию архитектуры памяти к специфике нелинейных операций.

Особое внимание следует уделить исследованию влияния шумов и вариаций параметров SRAM на производительность системы. Простое увеличение точности квантования не всегда является решением; возможно, более эффективным окажется разработка схем, устойчивых к этим факторам. Кроме того, перспективным направлением представляется поиск оптимального баланса между аппаратными и программными решениями, позволяющий гибко адаптировать систему к различным типам нейронных сетей и задачам.

В конечном итоге, истинный прогресс заключается не в достижении абсолютных пределов, а в понимании ограничений. Изящный дизайн рождается из простоты, но эта простота должна быть осознанной и взвешенной. Поиск оптимального решения — это бесконечный процесс, требующий критического анализа и готовности к пересмотру устоявшихся принципов.

Оригинал статьи: https://arxiv.org/pdf/2603.10540.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-12 16:53

🚀 Квантовые новости