Рекурсивные Трансформеры: Новый Подход к Эффективности и Экспрессивности

Автор: Денис Аветисян

Исследователи предлагают инновационную архитектуру, сочетающую рекурсивные трансформеры и смесь адаптеров LoRA для достижения передовых результатов с повышенной эффективностью.

Слой Mixture of LoRAs (MoL) объединяет общую нейронную сеть прямого распространения (FFN) с несколькими LoRA-экспертами, что позволяет реализовать условные вычисления без существенного увеличения числа параметров системы.

В статье представлена модель ModernALBERT, использующая Mixture of LoRA (MoL) в рекурсивной архитектуре для восстановления выразительности и повышения производительности.

Параметрическое разделение в рекурсивных трансформаторах снижает размер модели, но приводит к потере выразительности слоев. В работе ‘Improving Recursive Transformers with Mixture of LoRAs’ предложен метод Mixture of LoRAs (MoL) — механизм условных вычислений, внедряющий LoRA-эксперты в общую feed-forward сеть. MoL позволяет осуществлять токено-зависимую модуляцию весов общей FFN без «размораживания» базовых параметров, что обеспечивает восстановление выразительности и достижение передовых результатов, превосходящих более крупные модели. Возможно ли дальнейшее масштабирование и оптимизацию MoL для еще более эффективного использования ресурсов и повышения производительности в задачах обработки естественного языка?

Масштабируемость и Ограничения Современных Моделей NLP

Несмотря на значительные успехи, стандартные архитектуры трансформеров сталкиваются с ограничениями при масштабировании для эффективного представления сложных знаний. Проблема заключается в том, что увеличение числа параметров не всегда приводит к пропорциональному улучшению способности к рассуждениям и пониманию контекста. Трансформеры, хоть и демонстрируют впечатляющие результаты в задачах, требующих запоминания, часто испытывают трудности с обобщением и применением знаний в новых, незнакомых ситуациях. Это связано с тем, что их способность к представлению знаний ограничена структурой внимания и сложностью моделирования долгосрочных зависимостей в тексте. Таким образом, простое увеличение масштаба модели не является панацеей и требует разработки новых подходов к архитектуре и обучению, направленных на повышение эффективности представления и использования знаний.

Несмотря на впечатляющие успехи современных языковых моделей, простое увеличение их размера не всегда приводит к улучшению способности к рассуждениям и решению сложных задач. Исследования показывают, что после определенного порога, добавление новых параметров приносит всё меньше пользы, а потребление вычислительных ресурсов возрастает экспоненциально. Это связано с тем, что модели начинают запоминать данные вместо того, чтобы обобщать знания и извлекать закономерности. Таким образом, для дальнейшего прогресса в области обработки естественного языка необходимы инновационные подходы, направленные на повышение эффективности использования параметров и развитие способности к логическому мышлению, а не только на увеличение $n$ — количества параметров модели.

По мере развития современных моделей обработки естественного языка всё более очевидной становится необходимость в повышении эффективности использования параметров и улучшении выразительности. Простое увеличение числа параметров, хотя и демонстрировало определённый прогресс, сталкивается с ограничениями в плане вычислительных затрат и не всегда приводит к пропорциональному улучшению способности к рассуждениям и обобщению знаний. Вместо этого, исследователи сосредотачиваются на разработке архитектур, способных кодировать более сложную информацию при меньшем количестве параметров, используя такие подходы, как разреженные сети, квантизация и новые методы внимания. Такой подход позволит создавать более компактные и энергоэффективные модели, способные к более глубокому пониманию языка и решению более сложных задач, что является ключевым фактором для дальнейшего прогресса в области NLP и расширения возможностей применения искусственного интеллекта.

Современные модели обработки естественного языка, несмотря на впечатляющие достижения, демонстрируют ограниченную способность к поддержанию высокой производительности при оценке на разнообразных тестовых наборах данных без значительных затрат вычислительных ресурсов. Исследования показывают, что увеличение масштаба модели не всегда приводит к пропорциональному улучшению рассуждений и обобщения знаний, а лишь усугубляет проблему экспоненциального роста потребления памяти и энергии. В результате, даже незначительное расширение области применения или усложнение задачи может потребовать недоступных для многих исследователей и организаций объемов вычислений, что препятствует дальнейшему прогрессу в области и ограничивает доступность передовых NLP-технологий. Это подчеркивает необходимость разработки более эффективных архитектур и методов обучения, способных обеспечить высокую производительность при разумных вычислительных затратах.

В отличие от архитектур, использующих общие параметры или адаптеры после FFN, предложенная нами MoL динамически выбирает LoRA-экспертов для непосредственного изменения весов общего FFN, обеспечивая точечную модуляцию при сохранении эффективности обмена параметрами. — В отличие от архитектур, использующих обные параметры или адаптеры после FFN, предложенная нами MoL динамически выбирает LoRA-экспертов для непосредственного изменения весов общего FFN, обеспечивая точечную модуляцию при сохранении эффективности обмена параметрами.

ModernALBERT: Эффективная Архитектура с Оптимизированным Количеством Параметров

ModernALBERT использует рекурсивное разделение параметров для значительного уменьшения количества обучаемых параметров в архитектуре Transformer. Вместо того, чтобы каждый слой имел свой собственный набор параметров, ModernALBERT повторно использует параметры между слоями, что позволяет уменьшить общее количество параметров без существенной потери производительности. Этот подход основан на идее, что последовательные слои Transformer выполняют схожие преобразования данных, и, следовательно, могут совместно использовать параметры. В результате, достигается более компактная модель, требующая меньше вычислительных ресурсов и памяти для обучения и развертывания, сохраняя при этом высокую точность.

Архитектура ModernALBERT использует слой Mixture of LoRAs (Low-Rank Adaptation) для повышения выразительности и эффективности вычислений. LoRA предполагает добавление небольших, обучаемых матриц низкого ранга к весовым матрицам исходной модели. В Mixture of LoRA, несколько LoRA-адаптеров применяются условно, активируясь в зависимости от входных данных. Это позволяет модели динамически адаптировать свои параметры к конкретному входу, избегая необходимости обучать все параметры сети. Использование нескольких LoRA-адаптеров, а не одного, значительно увеличивает емкость модели при сохранении относительно небольшого количества обучаемых параметров, что способствует повышению производительности и снижению вычислительных затрат.

Для оптимизации вычислительной эффективности и моделирования последовательностей в ModernALBERT используются механизмы FlashAttention и вращающихся позиционных вложений (Rotary Position Embeddings). FlashAttention снижает сложность вычислений внимания с $O(n^2)$ до $O(n\log n)$ за счет эффективного использования памяти и параллелизации, что особенно важно при обработке длинных последовательностей. В свою очередь, вращающиеся позиционные вложения кодируют информацию о позиции токена в последовательности, используя вращения в пространстве вложений, что позволяет модели эффективно улавливать зависимости между элементами последовательности и улучшает обобщающую способность.

В ходе оценки на бенчмарке GLUE, модель ModernALBERT показала средний результат 88.72 при количестве обучаемых параметров 120 миллионов. Это превосходит результат ModernBERT-base, который достиг 88.45 при 149 миллионах параметров. Таким образом, ModernALBERT демонстрирует более высокую эффективность и производительность при меньшем количестве параметров, что делает её более компактной и ресурсоэффективной моделью для задач обработки естественного языка.

Предварительное Обучение и Дистилляция Знаний для Улучшенной Производительности

Модель ModernALBERT прошла предварительное обучение на масштабных наборах данных, включающих RedPajamas-1T и RefinedWeb, что позволило ей приобрести широкое понимание языка. RedPajamas-1T представляет собой открытый набор данных, состоящий из 1 триллиона токенов, собранных из различных источников, в то время как RefinedWeb является тщательно отобранным и очищенным подмножеством данных из веб-сайтов. Использование этих крупных и разнообразных корпусов позволило ModernALBERT изучить сложные лингвистические закономерности, семантические отношения и контекстуальные нюансы, необходимые для эффективного решения широкого спектра задач обработки естественного языка.

Метод дистилляции знаний, в котором ModernBERT выступает в роли «учителя», используется для передачи накопленных знаний в более компактную модель ModernALBERT. Этот процесс предполагает обучение ModernALBERT предсказывать не только истинные метки, но и «мягкие» вероятности, выдаваемые ModernBERT. Использование «мягких» меток позволяет ModernALBERT усваивать более тонкие нюансы и обобщения, содержащиеся в знаниях учителя, что приводит к повышению точности и улучшению обобщающей способности модели, несмотря на значительно меньшее количество параметров.

Использование функций активации GeGLU и предобусловленной нормализации слоя (Pre-Layer Normalization) в ModernALBERT способствует ускоренной сходимости процесса обучения и улучшению обобщающей способности модели. GeGLU, представляющая собой gated linear unit, обеспечивает более эффективное распространение градиентов по сравнению с традиционными функциями активации, такими как ReLU. Предобусловленная нормализация слоя, применяемая перед каждым слоем внимания и прямой связи, стабилизирует процесс обучения, особенно при использовании больших скоростей обучения, что позволяет модели быстрее достигать оптимальных параметров и демонстрировать повышенную устойчивость к переобучению. Комбинация этих двух техник позволяет ModernALBERT эффективно обучаться на больших объемах данных и достигать высокой производительности на различных задачах обработки естественного языка.

В ходе эмпирических испытаний ModernALBERT продемонстрировал передовые результаты на ряде стандартных NLP-бенчмарков, при этом количество параметров модели значительно меньше, чем у аналогов. В частности, на задаче SQuAD v2 ModernALBERT достиг показателя F1-меры в 92.8, превзойдя результаты ModernBERT-base (92.6) и ALBERT-xxlarge (92.5). Данные результаты подтверждают эффективность предложенной архитектуры и методов обучения для достижения высокой производительности при ограниченных вычислительных ресурсах.

Сжатие Выразительности: Объединение Экспертов для Эффективного Вывода

Архитектура ModernALBERT, в частности, её слой Mixture of LoRAs, предоставляет уникальные возможности для сжатия модели посредством объединения экспертов. Вместо использования нескольких небольших адаптеров LoRA, этот подход позволяет объединить их в единый статический адаптер, значительно снижая вычислительные затраты во время инференса. Такое объединение не только уменьшает размер модели, но и упрощает её развертывание, сохраняя при этом большую часть исходной производительности. По сути, это позволяет создать более эффективную и экономичную версию ModernALBERT, пригодную для работы на устройствах с ограниченными ресурсами или в средах, требующих высокой пропускной способности.

Техника объединения отдельных экспертов LoRA в единый статический адаптер позволяет значительно снизить вычислительные затраты при выводе данных, не жертвуя при этом существенной производительностью. Вместо использования нескольких небольших адаптеров, каждый из которых требует отдельных вычислений, предлагаемый подход интегрирует их знания в один компактный модуль. Это существенно уменьшает количество операций, необходимых для обработки запроса, что приводит к ускорению инференса и снижению потребления памяти. В результате, модель становится более эффективной и пригодной для использования в условиях ограниченных ресурсов, сохраняя при этом высокую точность и качество генерируемых результатов. Такой подход открывает возможности для развертывания мощных языковых моделей на устройствах с ограниченной вычислительной мощностью, таких как мобильные телефоны или встроенные системы.

Стратегия EMA Merging, применяемая в процессе слияния экспертов, обеспечивает стабильное и точное сжатие модели. Вместо простого усреднения весов отдельных LoRA экспертов, EMA Merging использует экспоненциальное скользящее среднее, аналогичное принципам, применяемым в оптимизаторах, таких как Adam. Такой подход позволяет постепенно обновлять веса объединенного адаптера, избегая резких изменений и обеспечивая сохранение критически важных знаний, накопленных каждым экспертом. Благодаря этому, сжатая модель не только демонстрирует высокую эффективность при выводе, но и сохраняет высокую производительность в задачах понимания естественного языка, таких как RTE и BEIR, превосходя показатели ModernBERT по этим метрикам.

В результате применения метода сжатия, полученная модель демонстрирует впечатляющую производительность: задержка составляет всего 9.46 миллисекунд, а пропускная способность достигает 106 527 токенов в секунду. При этом, сохраняется высокая точность обработки естественного языка, подтвержденная результатами тестов: оценка RTE составляет 86.28, а средний балл BEIR на наборе данных ArguAna — 48.82. Данные показатели значительно превосходят аналогичные результаты для ModernBERT (35.7), что свидетельствует об эффективности предложенного подхода к сжатию моделей без существенной потери качества.

Представленная работа демонстрирует стремление к созданию элегантных и эффективных систем, что находит отражение в архитектуре ModernALBERT. Модель, использующая рекурсивное разделение и смесь LoRA, стремится к оптимальному балансу между выразительностью и компактностью. Это напоминает о словах Марвина Мински: «Наиболее эффективные решения часто оказываются самыми простыми». Авторы, подобно умелым архитекторам, избегают излишней сложности, стремясь к ясности структуры. Использование Mixture of LoRAs, как и грамотное разделение задач, позволяет избежать «костылей» в виде избыточных параметров и добиться более устойчивой и понятной системы, где структура действительно определяет поведение.

Куда двигаться дальше?

Представленная работа, демонстрируя эффективность подхода ModernALBERT, не решает, а лишь отодвигает фундаментальную проблему: потребность в постоянно растущих параметрах для достижения прогресса. Может показаться парадоксальным, но усложнение системы, даже с изящными механизмами, такими как Mixture of LoRAs, неизбежно ведет к хрупкости и снижению обобщающей способности. Поиск истинной элегантности лежит не в увеличении масштаба, а в более глубоком понимании принципов, лежащих в основе интеллекта.

В дальнейшем, внимание, вероятно, должно быть сосредоточено на исследовании принципов условного вычисления, выходящих за рамки простой параметрической адаптации. Вопрос не в том, как уместить больше параметров, а в том, как эффективно использовать те, что есть. Вполне возможно, что подходы, вдохновленные нейробиологией и когнитивными науками, позволят создать системы, способные к обучению с меньшим количеством данных и более высокой степенью абстракции.

Следует также признать, что оптимизация производительности — это лишь одна сторона медали. Важно помнить, что сложная система — это всегда компромисс. Изящное решение должно быть не только эффективным, но и понятным, предсказуемым и устойчивым к непредсказуемым воздействиям. В конечном счете, истинный прогресс заключается не в достижении новых рекордов, а в создании систем, которые действительно служат человечеству.

Оригинал статьи: https://arxiv.org/pdf/2512.12880.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-21 12:54

🚀 Квантовые новости