Тёмная сторона точности: как смещение среднего влияет на обучение больших языковых моделей

Автор: Денис Аветисян

Новое исследование выявило, что систематическое смещение средних значений активаций может приводить к нестабильности при обучении больших языковых моделей с использованием низкобитной квантизации.

В ходе обучения модели Qwen3-0.6B наблюдается сопоставимая динамика потерь при использовании как формата BF16, так и комбинации FP4 с Averis, что указывает на эффективность предложенного подхода к снижению вычислительных затрат без существенной потери в производительности.

Работа демонстрирует, что когерентное смещение среднего в активациях приводит к экстремальным значениям, вызывая проблемы при квантизации до 4 бит, и предлагает метод разделения среднего и остатка для смягчения этой проблемы.

Обучение больших языковых моделей с пониженной точностью сопряжено с проблемой числовой нестабильности, возникающей из-за анизотропии их представлений. В работе ‘The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training’ показано, что когерентное смещение среднего значения в активациях является основным источником экстремальных значений, приводящих к инфляции динамического диапазона при квантовании до 4 бит. Выявлено, что устранение этого смещения посредством простого вычитания среднего значения позволяет существенно стабилизировать процесс обучения и восстановить производительность модели. Возможно ли, таким образом, создать эффективный и аппаратный путь к стабильному обучению больших языковых моделей с низкой точностью, не прибегая к сложным методам, таким как SVD-разложение?

Анизотропия Активаций: Скрытое Узкое Место в Больших Языковых Моделях

Современные большие языковые модели, несмотря на впечатляющую производительность, демонстрируют явление, известное как анизотропия активаций. Суть его заключается в неравномерном распределении энергии активаций внутри нейронных сетей — большая часть энергии концентрируется в относительно небольшом числе направлений, в то время как остальные остаются практически неактивными. Это приводит к ограничению потенциальной емкости модели, поскольку лишь часть параметров эффективно участвует в обработке информации. Подобная концентрация энергии, по сути, создает «узкие места», препятствующие полноценному использованию вычислительных ресурсов и снижающие способность модели к обобщению и решению сложных задач. Исследование анизотропии активаций открывает новые перспективы для оптимизации архитектур нейронных сетей и повышения их эффективности.

Анизотропия активаций в больших языковых моделях (LLM) обусловлена присущими им внутренними смещениями, которые проявляются в виде доминирующей компоненты, названной «средним смещением». Это смещение возникает из-за несимметричного распределения весов и активаций в нейронных сетях, что приводит к тому, что определенные направления в пространстве активаций становятся предпочтительными. По сути, информация, кодируемая моделью, концентрируется в узком подмножестве возможных представлений, снижая ее способность к обобщению и адаптации к новым данным. В результате, даже небольшие изменения во входных данных могут приводить к непропорционально большим изменениям в активациях, создавая уязвимость для численной нестабильности и ухудшая производительность при сжатии моделей с использованием методов квантования.

Стандартные методы квантования с пониженной точностью, предназначенные для сжатия больших языковых моделей, сталкиваются с проблемой нестабильности из-за феномена усиления выбросов. Вследствие активационной анизотропии, когда большая часть энергии активаций сосредоточена в узком диапазоне направлений, даже незначительные изменения в значениях весов при квантовании могут приводить к непропорционально большим ошибкам. Этот эффект особенно заметен при использовании низкобитовых представлений, где ограничение диапазона значений усугубляет проблему. В результате, стандартные методы квантования могут приводить к значительной деградации производительности модели или даже к ее полному отказу, поскольку выбросы искажают представления и нарушают процесс обучения или инференса. Таким образом, для эффективного сжатия больших языковых моделей необходимы новые подходы к квантованию, учитывающие и компенсирующие влияние активационной анизотропии.

Развертывание больших языковых моделей (LLM) на устройствах с ограниченными ресурсами, таких как мобильные телефоны или встроенные системы, требует значительной оптимизации. Однако, явление активационной анизотропии, когда энергия активации концентрируется в нескольких направлениях, создает серьезные препятствия для успешного сжатия моделей с помощью стандартных методов квантования. Устранение этой анизотропии, то есть выравнивание распределения активаций, становится ключевым фактором для повышения стабильности и эффективности квантованных LLM. Исследования показывают, что снижение анизотропии позволяет значительно уменьшить размер модели без существенной потери точности, открывая возможности для более широкого применения мощных языковых моделей в различных сферах, где вычислительные ресурсы ограничены.

Анализ среднего смещения энергии по слоям и этапам обучения показывает, что в ранних (10 тыс.) и поздних (170 тыс.) контрольных точках наблюдается различная структура распределения энергии.

Квантование и Выбросы: Угроза Стабильности Модели

Квантование с низкой битовой точностью, являющееся ключевым методом снижения размера больших языковых моделей (LLM) и ускорения процесса инференса, особенно подвержено влиянию экстремальных значений активаций. Эти выбросы, возникающие в процессе вычислений, могут значительно искажать представление данных при переходе к более низким битовым форматам. Поскольку квантование преобразует непрерывные значения в дискретные, даже небольшие отклонения в значениях активаций могут привести к существенным ошибкам и деградации производительности модели. Высокая чувствительность к выбросам ограничивает возможности эффективного применения низкобитного квантования в сложных LLM.

Смещение среднего (mean bias) в процессе квантования больших языковых моделей (LLM) приводит к концентрации энергии активаций, что, в свою очередь, усиливает влияние выбросов. Этот эффект проявляется в том, что небольшое число активаций приобретает доминирующую роль в представлении данных, что приводит к нестабильности процесса квантования и, как следствие, к ухудшению производительности модели. Усиление выбросов, вызванное смещением среднего, затрудняет эффективное представление данных в условиях низкобитной квантизации, поскольку стандартные методы подавления выбросов не устраняют первопричину данного явления.

Традиционные методы подавления выбросов, такие как обрезка (clipping) и нормализация, часто оказываются неэффективными при квантовании моделей с низким битовым разрешением. Они направлены на снижение амплитуды экстремальных значений активаций, но не устраняют первопричину — концентрацию энергии активаций, вызванную средним смещением (mean bias). В результате, после применения этих методов, значительные выбросы всё ещё могут возникать, вызывая ошибки квантования и деградацию производительности модели. Экспериментальные данные показывают, что улучшение, достигаемое за счет этих методов, как правило, незначительно и не позволяет достичь стабильной работы моделей с 8-битным или меньшим квантованием без дополнительных оптимизаций.

Эффективное низкобитное квантование больших языковых моделей (LLM) остается сложной задачей из-за анизотропии распределения активаций. Анизотропия, или неравномерность распределения, приводит к тому, что некоторые направления в пространстве активаций имеют значительно большую энергию, чем другие. Это усугубляется при низкобитном квантовании, когда ограниченное количество бит недостаточно для точного представления всего диапазона активаций. В результате, квантованные значения становятся менее точными, что приводит к ухудшению производительности модели. Преодоление этой анизотропии, то есть выравнивание энергетического распределения активаций, является критически важным условием для достижения эффективного и стабильного низкобитного квантования LLM.

Анализ вклада аномальных активаций показывает, что вклад наиболее значимых элементов меняется с течением обучения, смещаясь между слоями сети.

Averis: Метод для Устойчивого Квантования с Учетом Смещения Среднего

Метод Averis представляет собой новую технику обучения моделей с низкой точностью, разработанную специально для смягчения эффектов смещения среднего значения (mean bias) в активациях больших языковых моделей (LLM). Смещение среднего возникает из-за того, что среднее значение активаций может быть значительно отличным от нуля, что приводит к усилению выбросов и нестабильности при квантовании. Averis направлен на решение этой проблемы путем явного разделения и квантования компоненты среднего значения активаций отдельно от остатка, что позволяет снизить влияние выбросов и повысить устойчивость процесса обучения и последующего развертывания моделей на различных устройствах.

Метод Averis функционирует путем явного разделения и квантования среднего компонента активаций нейронной сети. Этот подход позволяет отделить среднее значение от остаточных значений активаций, что снижает влияние выбросов на процесс квантования. Вместо квантования всего значения активации, метод квантует только отклонение от среднего, что приводит к уменьшению амплификации выбросов и повышению стабильности обучения при низкобитной квантизации. Разделение среднего компонента позволяет более эффективно использовать динамический диапазон квантованных значений, что особенно важно для больших языковых моделей.

Метод Averis демонстрирует существенное улучшение производительности при низкобитной квантизации, достигая результатов, сопоставимых с обучением в полной точности, используя только операции восстановления и поэлементные вычисления. В отличие от традиционных методов, требующих сложных операций, Averis оптимизирует процесс квантизации, минимизируя потери точности и сохраняя высокую эффективность вычислений. Это достигается за счет эффективной обработки и квантования средних значений активаций, что позволяет значительно снизить влияние выбросов и стабилизировать процесс обучения даже при экстремально низких разрядностях. Фактически, Averis позволяет приблизить производительность квантованных моделей к производительности моделей, обученных с использованием чисел с плавающей точкой, без значительного увеличения вычислительной сложности.

В ходе экспериментов было установлено, что применение Averis позволило повысить производительность модели на downstream задачах до 0.4661, в то время как без использования данной методики показатель составлял 0.4564. Данное увеличение демонстрирует эффективность подхода Averis, направленного на устранение смещения среднего значения в активациях, как ключевого фактора, влияющего на стабильность и точность квантованных больших языковых моделей. Полученные результаты подтверждают, что целенаправленное снижение влияния смещения среднего значения позволяет добиться значительных улучшений в производительности без существенного увеличения вычислительной сложности.

Несмотря на то, что функция потерь при обучении Averis незначительно превышает показатели, достигаемые при использовании BF16, данная методика представляет собой существенный шаг вперед в области эффективной квантизации. Небольшое увеличение потерь компенсируется значительным снижением вычислительных затрат и требований к памяти, что делает возможным развертывание больших языковых моделей на устройствах с ограниченными ресурсами. Сохранение сопоставимой производительности при значительном уменьшении битовой глубины является ключевым преимуществом Averis, указывающим на перспективность подхода к оптимизации LLM без существенной потери точности.

Метод Averis, направленный на устранение первопричины нестабильности при квантовании — смещения среднего значения активаций — открывает возможности для развертывания больших языковых моделей (LLM) на более широком спектре устройств. Традиционные методы квантования часто сталкиваются с проблемами, возникающими из-за неравномерного распределения активаций и усиления выбросов. Устраняя данную проблему на этапе обучения, Averis позволяет эффективно снизить вычислительные требования и объем памяти, необходимые для работы LLM, что делает их пригодными для использования на устройствах с ограниченными ресурсами, таких как мобильные телефоны и встроенные системы. Это достигается за счет разделения и квантования среднего компонента активаций, что позволяет сохранить точность модели при значительном снижении битовой глубины.

И оператор внимания с функцией softmax, и оператор FFN SwiGLU демонстрируют увеличение среднего смещения энергии при переходе от входных данных к выходным.

Влияющие Факторы и Их Усиление: За пределами Простого Квантования

Появление систематической ошибки в больших языковых моделях (LLM) во многом обусловлено методами инициализации векторных представлений (embeddings). В частности, использование частотно-взвешенных подходов, при которых более частым словам присваиваются более высокие начальные значения, создает предвзятость в самом начале обучения. Это приводит к тому, что модель склонна переоценивать важность часто встречающихся терминов, что впоследствии усиливается в процессе оптимизации. По сути, такая инициализация формирует анизотропию в пространстве представлений, то есть неравномерное распределение векторов, что затрудняет эффективную работу модели с менее распространенными, но потенциально значимыми понятиями. В результате, даже незначительные отклонения в данных или архитектуре модели могут привести к существенным смещениям в выходных данных.

Архитектурные решения, применяемые при создании больших языковых моделей, такие как механизмы самовнимания и остаточных связей, могут значительно усиливать предвзятость, возникающую в процессе обучения. Механизм самовнимания, позволяющий модели фокусироваться на различных частях входных данных, способен непропорционально выделять определенные признаки, тем самым укрепляя существующие смещения в данных. Аналогично, остаточные связи, предназначенные для облегчения обучения глубоких сетей, могут непреднамеренно сохранять и распространять изначально небольшие предвзятости, приводя к их экспоненциальному увеличению по мере углубления модели. Таким образом, выбор архитектуры играет критическую роль в формировании и усилении предвзятости, что необходимо учитывать при разработке более надежных и справедливых языковых моделей.

Неоднородность распределения весов в больших языковых моделях (LLM) оказывает влияние даже на базовую операцию — обобщенное матричное умножение (GeMM). Исследования показывают, что анизотропия, возникающая из-за неравномерной активации нейронов и различной важности параметров, приводит к искажению результатов GeMM. Это выражается в том, что некоторые направления в пространстве весов оказываются более выраженными, чем другие, что снижает точность представления информации и, как следствие, ухудшает производительность модели при квантизации. Таким образом, кажущаяся простотой базовая операция GeMM, на самом деле, является чувствительной к внутренним особенностям распределения весов, что необходимо учитывать при разработке более устойчивых и эффективных LLM.

Понимание этих способствующих факторов имеет решающее значение для разработки будущих больших языковых моделей (LLM), которые будут изначально более устойчивы к квантованию. Исследования показывают, что склонность LLM к предвзятости и анизотропии усугубляется как архитектурными решениями, так и методами инициализации весов. Соответственно, сосредоточение внимания на устранении этих первопричин позволит создавать модели, которые сохраняют высокую производительность даже при использовании низкоточных форматов данных. Это особенно важно для развертывания LLM на устройствах с ограниченными ресурсами, где квантование является ключевой стратегией оптимизации. Разработка алгоритмов, учитывающих и смягчающих влияние этих факторов, открывает путь к более эффективным и доступным языковым моделям.

Анализ показывает, что согласованность знаков проекций по токенам и преобладающее выравнивание среднего вектора с главным сингулярным вектором подтверждают когерентность со средним смещением и спектральное доминирование.

Будущие Направления: К Эффективным и Надежным Языковым Моделям

Успех Averis демонстрирует критическую важность целенаправленных вмешательств, направленных на устранение первопричин нестабильности, возникающей при квантовании больших языковых моделей. Вместо универсальных решений, Averis применяет точные корректировки к параметрам модели во время обучения, что позволяет значительно снизить чувствительность к снижению точности представления чисел. Такой подход, в отличие от традиционных методов, позволяет сохранить высокую производительность даже при агрессивном квантовании, открывая путь к созданию более эффективных и компактных моделей. Вместо простого смягчения симптомов, данная методика фокусируется на устранении глубинных причин возникновения проблем, обеспечивая надежность и стабильность работы модели в различных условиях и на разнообразных аппаратных платформах.

Дальнейшие исследования должны быть сосредоточены на разработке более устойчивых методологий обучения и архитектурных решений, направленных на минимизацию возникновения смещения среднего значения (mean bias). Существующие подходы часто сталкиваются с проблемой, когда квантование приводит к систематическим ошибкам, искажающим результаты работы больших языковых моделей. Разработка новых алгоритмов, учитывающих и корректирующих это смещение в процессе обучения, представляется критически важной. Кроме того, перспективным направлением является проектирование архитектур, изначально менее подверженных влиянию квантования, например, за счет использования более сбалансированных весов или специализированных слоев, устойчивых к потерям точности. Такой подход позволит создавать модели, сохраняющие высокую производительность даже при значительном снижении точности представления данных, что открывает возможности для их эффективного развертывания на устройствах с ограниченными ресурсами.

Исследования направлены на изучение альтернативных схем квантования, позволяющих снизить вычислительные затраты и энергопотребление больших языковых моделей (LLM). Помимо традиционных методов, рассматриваются более сложные подходы, такие как смешанное квантование и адаптивное квантование, которые динамически подстраивают разрядность представления данных в зависимости от конкретных слоев или параметров модели. Параллельно, важную роль играет использование аппаратного ускорения, в частности специализированных процессоров и графических ускорителей, оптимизированных для операций с пониженной точностью. Сочетание инновационных схем квантования и аппаратной поддержки открывает возможности для развертывания LLM на ресурсоограниченных устройствах, расширяя сферу их применения и делая искусственный интеллект более доступным.

Сочетание усовершенствованных методов обучения, направленных на минимизацию систематических ошибок, с инновационными схемами квантования и аппаратным ускорением открывает путь к раскрытию полного потенциала больших языковых моделей. Это позволит не только повысить их эффективность и надежность, но и значительно расширить спектр устройств, на которых они могут быть развернуты — от мощных серверов до мобильных телефонов и встраиваемых систем. В результате, новые интеллектуальные приложения станут доступнее и эффективнее, что приведет к трансформации многих областей — от обработки естественного языка и машинного перевода до создания персонализированных помощников и автоматизации сложных задач, формируя новую эру интеллектуальных технологий.

Исследование показывает, что кажущаяся стабильность системы машинного обучения, особенно при низкобитной квантизации, может быть обманчива. Накопление среднего смещения в активациях, как демонстрирует работа, приводит к экстремальным значениям, подрывая устойчивость модели. Это напоминает о том, что время неизбежно вносит свои коррективы, и иногда стабильность — это лишь временная задержка катастрофы. Как однажды заметил Линус Торвальдс: «Плохой код похож на рак: он не просто плох, он распространяется и убивает». Аналогично, игнорирование среднего смещения в активациях может привести к быстрому распространению ошибок и деградации производительности модели, особенно в долгосрочной перспективе.

Что Дальше?

Настоящая работа, выявив когерентное смещение в активациях больших языковых моделей как источник нестабильности при низкобитной квантизации, лишь добавляет новую главу в вечную историю борьбы с энтропией. Предложенное разделение на среднее и остаточное — это, безусловно, элегантное временное решение, но не стоит обольщаться. Каждая «закладка» технического долга, каждая нерешенная асимметрия в спектральной геометрии активаций рано или поздно потребует своих процентов. Вопрос не в том, чтобы избавиться от них, а в том, чтобы понимать их природу и предвидеть последствия.

Очевидно, что исследование анизотропии в пространстве активаций требует дальнейшего развития. Недостаточно просто констатировать наличие смещения; необходимо понять его динамику во времени, его связь с архитектурой модели и данными, на которых она обучается. Каждый «баг» — это момент истины на временной кривой, сигнал о приближающемся старении системы. Более того, следует рассмотреть возможность применения принципов спектральной геометрии не только к активациям, но и к градиентам, весам и другим ключевым компонентам модели.

В конечном итоге, задача состоит не в том, чтобы создать идеально стабильную систему, а в том, чтобы построить систему, способную достойно стареть. Время — не метрика, а среда, в которой существуют эти сложные организмы, и их способность адаптироваться к неизбежному энтропийному распаду — вот истинный критерий успеха.

Оригинал статьи: https://arxiv.org/pdf/2603.10444.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-15 15:25

🚀 Квантовые новости