Сжатие признаков нейросетей: новый подход к экономии ресурсов

Автор: Денис Аветисян

Исследователи предлагают инновационный метод сжатия входных данных для нейронных сетей, позволяющий значительно снизить энергопотребление и вычислительные затраты.

Мягкая квантизация (<span class="katex-eq" data-katex-display="false">Q^s</span>) и побитовая мягкая квантизация (<span class="katex-eq" data-katex-display="false">Q^{bw,s}[latex]) формируются посредством суммирования или конкатенации нескольких мягких ступенчатых функций, что обеспечивает их дифференцируемость по отношению к порогам и, следовательно, возможность оптимизации в процессе обучения, после чего, на этапе инференса, происходит преобразование в жёсткую квантизацию ([latex]Q</span>) и побитовую квантизацию (<span class="katex-eq" data-katex-display="false">Q^{bw}</span>) посредством округления. — Мягкая квантизация ( $Q^s$ ) и побитовая мягкая квантизация ( $Q^{bw,s}[latex]) формируются посредством суммирования или конкатенации нескольких мягких ступенчатых функций, что обеспечивает их дифференцируемость по отношению к порогам и, следовательно, возможность оптимизации в процессе обучения, после чего, на этапе инференса, происходит преобразование в жёсткую квантизацию ([latex]Q$ ) и побитовую квантизацию ( $Q^{bw}$ ) посредством округления.

В статье представлена схема обучаемой битовой мягкой квантизации для эффективного сжатия признаков в задачах машинного обучения, особенно актуальных для устройств IoT и систем с ограниченными ресурсами.

Растущие потребности в машинном обучении на периферийных устройствах, особенно в контексте Интернета вещей, часто сталкиваются с ограничениями вычислительных ресурсов и объёма памяти. В данной работе, посвященной 'Trainable Bitwise Soft Quantization for Input Feature Compression', предложен новый подход к сжатию входных признаков нейронных сетей посредством обучаемого побитового мягкого квантования. Этот метод позволяет значительно уменьшить объем передаваемых данных без существенной потери точности, достигая сжатия в $5\times$ - $16\times$ раз по сравнению с $32$ -битными данными. Может ли предложенный подход стать ключевым элементом в создании энергоэффективных и высокопроизводительных систем машинного обучения для широкого спектра периферийных приложений?

Предел Эффективности: Ограничения Глубокого Обучения

Глубокие нейронные сети демонстрируют впечатляющую производительность в решении сложных задач, однако их вычислительная стоимость часто становится препятствием для практического применения. Для эффективной работы этим моделям требуются значительные ресурсы - мощные процессоры, большой объем оперативной памяти и существенное энергопотребление. Это особенно критично в условиях ограниченных ресурсов, таких как мобильные устройства, встраиваемые системы или периферийные вычисления, где развертывание полноразмерных глубоких сетей становится невозможным или нерентабельным. Таким образом, несмотря на свою мощь, вычислительная сложность глубоких нейронных сетей ограничивает их доступность и широкое распространение, стимулируя поиск более эффективных и компактных архитектур.

Традиционные методы сжатия моделей глубокого обучения, такие как прунинг, квантование и дистилляция знаний, часто сталкиваются с неизбежной потерей точности. Хотя эти техники позволяют значительно уменьшить размер модели и снизить вычислительные затраты, они не всегда способны сохранить первоначальную производительность. Уменьшение количества параметров или снижение разрядности представления весов неизбежно приводит к упрощению модели и, следовательно, к снижению её способности обобщать данные. Этот компромисс между эффективностью и точностью представляет собой критическую проблему, особенно в задачах, требующих высокой надежности и точности прогнозов, таких как медицинская диагностика или автономное вождение. Поэтому, поиск методов сжатия, минимизирующих потерю точности, является ключевой задачей в области машинного обучения.

Растущая потребность в «Микро-обучении» (Tiny Machine Learning) стимулирует разработку принципиально новых подходов к оптимизации моделей. Традиционные методы сжатия, как правило, приводят к потере точности, что недопустимо для критически важных приложений. Поэтому исследователи активно изучают такие направления, как квантизация, прунинг и знания дистилляции, стремясь создать компактные модели, способные эффективно работать на устройствах с ограниченными ресурсами - от мобильных телефонов и носимых гаджетов до микроконтроллеров и встроенных систем. Эти инновации позволяют приблизить возможности глубокого обучения к периферии, открывая перспективы для реализации интеллектуальных систем, работающих автономно и в реальном времени, без необходимости подключения к облачным серверам.

В настоящее время масштабирование глубоких нейронных сетей сталкивается с возрастающими трудностями, обусловленными ограничениями доступных ресурсов. Увеличение размеров моделей и объемов данных, необходимых для их обучения, требует экспоненциального роста вычислительных мощностей и энергопотребления. Это создает серьезные препятствия для развертывания сложных алгоритмов на мобильных устройствах, встроенных системах и других платформах с ограниченными возможностями. В результате, несмотря на впечатляющие успехи в области искусственного интеллекта, дальнейшее развитие глубокого обучения сдерживается не только алгоритмическими, но и инфраструктурными факторами, что стимулирует поиск новых, более эффективных подходов к проектированию и оптимизации нейронных сетей.

Обучаемый слой квантования признаков интегрируется в нейронную сеть для создания специфичных для задачи сжатий каждого входного признака, используя композицию энкодер-декодер <span class="katex-eq" data-katex-display="false">Q_i = D_i \circ E_i</span> для <span class="katex-eq" data-katex-display="false">i</span>-го признака, при которой энкодер <span class="katex-eq" data-katex-display="false">E_i</span> сжимает данные на устройстве с ограниченными ресурсами, а декодер <span class="katex-eq" data-katex-display="false">D_i</span> восстанавливает их на удаленном сервере для дальнейшей обработки нейронной сетью. — Обучаемый слой квантования признаков интегрируется в нейронную сеть для создания специфичных для задачи сжатий каждого входного признака, используя композицию энкодер-декодер $Q_i = D_i \circ E_i$ для $i$ -го признака, при которой энкодер $E_i$ сжимает данные на устройстве с ограниченными ресурсами, а декодер $D_i$ восстанавливает их на удаленном сервере для дальнейшей обработки нейронной сетью.

Квантование: Путь к Эффективному Сжатию

Квантование - это метод снижения точности представления весов и активаций нейронной сети, что приводит к уменьшению размера модели и ускорению процесса инференса. Вместо использования стандартных 32-битных чисел с плавающей точкой (float32), веса и активации представляются с использованием меньшего числа битов, например, 8-битных целых чисел (int8). Это существенно уменьшает объем памяти, необходимый для хранения модели, и снижает вычислительную нагрузку, поскольку операции с целыми числами выполняются быстрее, чем с числами с плавающей точкой. Соответственно, уменьшается и время, необходимое для выполнения предсказаний, что критически важно для развертывания моделей на устройствах с ограниченными ресурсами, таких как мобильные телефоны или встраиваемые системы.

Существуют различные методы квантизации, различающиеся компромиссом между точностью и эффективностью. Метод Minmax Quantization определяет диапазон значений для квантизации на основе минимального и максимального значений весов или активаций, обеспечивая стабильность, но потенциально снижая точность при широком динамическом диапазоне. Quantile Quantization, напротив, использует квантили распределения значений для определения уровней квантизации, что может привести к более высокой точности при сохранении сжатия, но требует предварительного анализа распределения данных. Выбор конкретного метода зависит от требований к точности, доступных вычислительных ресурсах и характеристик модели.

Пост-обучающая квантизация представляет собой метод сжатия модели, применяемый после завершения её обучения, что позволяет быстро уменьшить размер модели и ускорить процесс инференса. Однако, в отличие от квантизации с учётом обучения, этот подход может приводить к снижению точности модели, поскольку веса и активации преобразуются к более низкому разряду без дополнительной оптимизации. Величина потери точности зависит от степени квантизации и архитектуры модели, но в некоторых случаях может быть значительной, требуя дополнительной калибровки или тонкой настройки для восстановления приемлемого уровня производительности.

Обучение с учетом квантования (Quantization-Aware Training) представляет собой метод, при котором процесс квантования модели искусственной нейронной сети интегрируется непосредственно в цикл обучения. Это позволяет модели адаптироваться к пониженной точности весов и активаций во время оптимизации, минимизируя потерю точности, которая часто возникает при постобработочном квантовании. В отличие от простого снижения точности после обучения, Quantization-Aware Training моделирует эффект квантования в прямом и обратном проходах, что позволяет градиентам учитывать ограничения, накладываемые пониженной точностью. Это достигается путем симуляции операции квантования во время обучения, что позволяет алгоритму оптимизации настроить веса таким образом, чтобы они были более устойчивы к эффектам квантования после развертывания. Таким образом, Quantization-Aware Training обеспечивает более высокую точность при значительном снижении размера модели и ускорении вычислений.

Квантование с шириной в 2 бита (и использованием 3 пороговых значений) с применением методов minmax и квантилей к искусственно смещенным данным демонстрирует различия в распределении квантованных значений, визуализированные на гистограммах исходных данных и соответствующих функций квантования.

Дифференцируемое Квантование: Управляя Процессом Оптимизации

Проблема недифференцируемости возникает при использовании функций жесткой квантизации в процессе обучения нейронных сетей, поскольку градиенты обнуляются в точках квантования, препятствуя обновлению весов. Мягкая квантизация решает эту проблему путем замены дискретных операций квантования на гладкие аппроксимации. Вместо присвоения конкретного значения, выходные данные мягкой квантизации представляют собой непрерывную функцию, зависящую от входных данных. Это позволяет градиентам проходить через слой квантизации, обеспечивая возможность обучения сети с использованием стандартных алгоритмов оптимизации, таких как градиентный спуск. Такие аппроксимации позволяют избежать резких переходов и обеспечивают более стабильное обучение.

Параметр температуры в методе смягченной квантизации играет ключевую роль в управлении степенью сглаживания аппроксимации жесткой функции квантизации. Уменьшение значения температуры приближает функцию к исходной, дискретной квантизации, но снижает дифференцируемость и затрудняет прохождение градиента во время обучения. Увеличение температуры, напротив, создает более гладкую функцию, обеспечивая лучший поток градиента и облегчая оптимизацию, но при этом увеличивает отклонение от исходной квантизации. Таким образом, параметр температуры позволяет регулировать компромисс между точностью аппроксимации и обучаемостью модели, обеспечивая возможность эффективной оптимизации даже при использовании квантованных весов.

Побитовая квантизация является методом экстремального сжатия, позволяющим значительно уменьшить размер модели за счет представления весов и активаций с использованием небольшого числа бит. Однако, в отличие от более плавных методов квантизации, побитовая квантизация часто приводит к существенной потере точности и затрудняет процесс обучения нейронной сети. Это связано с тем, что дискретизация значений до ближайшего бита вносит нелинейности и прерывистость в функцию потерь, что препятствует эффективному распространению градиентов во время обратного распространения ошибки и может привести к нестабильности обучения или даже к его полному прекращению.

Битовая мягкая квантизация объединяет преимущества как битовой, так и мягкой квантизации, предлагая дифференцируемый и эффективный подход к сжатию моделей. Реализация осуществляется посредством использования слоев квантизации (Quantization Layers), позволяющих аппроксимировать дискретные значения с сохранением возможности вычисления градиентов. Данный метод позволяет достигать коэффициентов сжатия до 16 раз с минимальной потерей производительности, что делает его привлекательным решением для развертывания моделей на устройствах с ограниченными ресурсами и для снижения требований к пропускной способности передачи данных.

Распределение значений k-fold кросс-валидации для оптимальных гиперпараметров при 3-битной квантизации демонстрирует стабильность выбранной конфигурации.

За Пределами Сжатия: Коллективный Интеллект и Распределённые Вычисления

Появляющиеся парадигмы коллективного интеллекта и Neurosurgeon представляют собой инновационные подходы к разделению глубоких нейронных сетей между несколькими устройствами. Вместо традиционного развертывания сложных моделей на одном мощном сервере, эти методы позволяют распределить вычислительную нагрузку, используя ресурсы множества менее мощных устройств. Такой подход открывает возможности для реализации искусственного интеллекта на периферийных устройствах, таких как смартфоны и датчики, расширяя сферу применения и повышая отказоустойчивость систем. Разделение сети позволяет не только снизить требования к отдельным устройствам, но и повысить общую скорость обработки данных за счет параллельных вычислений, что особенно важно для приложений реального времени.

Современные глубокие нейронные сети, демонстрирующие впечатляющую производительность, зачастую требуют значительных вычислительных ресурсов, что ограничивает их применение на устройствах с ограниченной мощностью, таких как мобильные телефоны или встроенные системы. Распределённые вычисления позволяют преодолеть это ограничение, разделяя нагрузку по обработке между несколькими устройствами. Вместо того чтобы возлагать всю задачу на одно устройство, сложная модель разбивается на части, каждая из которых выполняется на отдельном вычислительном узле. Такой подход не только снижает потребность в ресурсах каждого отдельного устройства, но и позволяет масштабировать систему, увеличивая общую вычислительную мощность за счёт добавления новых узлов. Это открывает возможности для применения передовых алгоритмов искусственного интеллекта в самых разнообразных областях, где ранее это было невозможно из-за ограничений аппаратного обеспечения.

Квантование играет ключевую роль в снижении объема передаваемых данных и обеспечении эффективного распределенного вывода. Суть этого подхода заключается в уменьшении точности представления чисел, используемых в нейронных сетях, что позволяет значительно сократить размер модели и, следовательно, объем данных, необходимых для передачи между устройствами. Это особенно важно в сценариях, где ресурсы ограничены или пропускная способность сети невелика. Уменьшение точности, хотя и может привести к незначительной потере точности модели, компенсируется существенным снижением требований к пропускной способности и энергопотреблению, делая распределенный вывод практичным решением для широкого спектра приложений, включая мобильные устройства и Интернет вещей. Эффективное квантование, таким образом, становится неотъемлемой частью стратегий развертывания сложных моделей искусственного интеллекта на периферийных устройствах.

Ключевым элементом, обеспечивающим обучение квантованных моделей в условиях совместной работы, является метод прямого оценивания (Straight-Through Estimator). Данная техника позволяет эффективно распространять градиенты через операции квантования, что критически важно для оптимизации распределенных нейронных сетей. Практическая реализация процесса кодирования, основанного на этом методе, демонстрирует исключительно низкое энергопотребление - в диапазоне микроджоулей - и минимальную задержку, измеряемую микросекундами. Такие характеристики делают его применимым в сценариях, требующих обработки данных в режиме реального времени, например, в мобильных устройствах или системах машинного зрения, где ограничены вычислительные ресурсы и энергоснабжение.

Распределение значений k-fold кросс-валидации для оптимальных гиперпараметров при 4-битной квантизации демонстрирует стабильность и надежность выбранной конфигурации.

Исследование демонстрирует стремление к оптимизации и сжатию данных, что перекликается с идеей глубокого понимания системы для её улучшения. Авторы предлагают не просто уменьшить объём информации, но и сделать это интеллектуально, используя гибкую, «мягкую» квантизацию. Как заметила Барбара Лисков: «Программы должны быть спроектированы так, чтобы изменения в одной части не влияли на другие». Это особенно важно в контексте сжатия признаков, где необходимо сохранить информативность данных, несмотря на их уменьшение. Предложенный подход к битовой квантизации позволяет достичь баланса между эффективностью сжатия и сохранением точности, что критически важно для развертывания нейронных сетей на устройствах с ограниченными ресурсами.

Что дальше?

Предложенная схема битовой мягкой квантизации, безусловно, открывает новые возможности для сжатия признаков в нейронных сетях, особенно в контексте устройств с ограниченными ресурсами. Однако, как часто бывает, решение одной задачи неизбежно порождает новые вопросы. Очевидно, что эффективность метода тесно связана с архитектурой сети и спецификой решаемой задачи. Необходимо исследовать, как различные схемы обучения, включая самообучение и обучение с подкреплением, могут оптимизировать процесс квантизации и минимизировать потери точности. Или, возможно, сама концепция "точности" нуждается в пересмотре, если рассматривать задачу не как поиск единственно верного ответа, а как приближение к оптимальному решению в условиях ограниченных ресурсов?

Особый интерес представляет исследование адаптивных схем квантизации, способных динамически изменять степень сжатия в зависимости от сложности входных данных или этапа обучения. А что, если отказаться от жесткой битовой квантизации в пользу более гибких, аналоговых методов представления информации? Это потребует разработки новых аппаратных средств, но может привести к значительному снижению энергопотребления и повышению производительности. В конечном счете, задача состоит не в том, чтобы просто уменьшить размер данных, а в том, чтобы найти оптимальное соотношение между точностью, скоростью и энергоэффективностью.

И, конечно, не стоит забывать о фундаментальном вопросе: действительно ли мы понимаем, что происходит внутри нейронных сетей? Квантизация - это лишь инструмент, а истинное понимание принципов работы этих сложных систем позволит создавать более эффективные и надежные алгоритмы. В конце концов, правила существуют, чтобы их проверять, а границы знаний - чтобы их расширять.

Оригинал статьи: https://arxiv.org/pdf/2603.05172.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-08 10:01

🚀 Квантовые новости