Глубина имеет значение: новая архитектура для сверхглубоких языковых моделей

Автор: Денис Аветисян


Исследователи представили архитектуру Keel, позволяющую стабильно обучать трансформаторные сети экстремальной глубины и значительно повысить их выразительность.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Архитектурные улучшения, реализованные в Keel, обеспечивают стабильную оптимизацию ультраглубоких нейронных сетей, демонстрируя превосходство над Pre-LN по всем параметрам - от поддержания сглаженной сходимости при агрессивных скоростях обучения до повышения выразительности модели, особенно в задачах, требующих навыков в математике и программировании (на 16.5%), и последовательного превосходства в сетях различной глубины (от 64 до 1024 слоёв).
Архитектурные улучшения, реализованные в Keel, обеспечивают стабильную оптимизацию ультраглубоких нейронных сетей, демонстрируя превосходство над Pre-LN по всем параметрам — от поддержания сглаженной сходимости при агрессивных скоростях обучения до повышения выразительности модели, особенно в задачах, требующих навыков в математике и программировании (на 16.5%), и последовательного превосходства в сетях различной глубины (от 64 до 1024 слоёв).

Keel использует Post-LayerNorm и соединения типа Highway для решения проблемы затухания градиентов и обеспечения стабильности обучения в сверхглубоких языковых моделях.

Масштабирование больших языковых моделей сталкивается с ограничениями: увеличение ширины и длины контекста дает все меньше преимуществ. В работе ‘Post-LayerNorm Is Back: Stable, ExpressivE, and Deep’ авторы вновь обращаются к архитектуре Post-LayerNorm, ранее отброшенной из-за проблем со стабильностью, и представляют Keel — трансформатор с Highway-подключением, который решает проблему затухания градиента и обеспечивает стабильное обучение на глубинах, превышающих 1000 слоев. Keel демонстрирует улучшение метрик перплексии и масштабируемости по сравнению с Pre-LN, открывая путь к созданию принципиально новых, бесконечно глубоких языковых моделей. Не станет ли эта архитектура основой для следующего поколения LLM, способных к более глубокому пониманию и генерации текста?


Пределы Глубины: Нестабильность в Масштабировании

Современные большие языковые модели (LLM) демонстрируют улучшение производительности по мере увеличения их глубины — количества слоев, обрабатывающих информацию. Однако, такое стремление к большей глубине сталкивается с фундаментальной проблемой нестабильности. По мере добавления новых слоев, процесс обучения становится все более сложным и подверженным ошибкам, поскольку градиенты — сигналы, используемые для корректировки параметров модели — могут экспоненциально уменьшаться или, наоборот, резко возрастать. Это явление, известное как затухание или взрыв градиентов, препятствует эффективной оптимизации и ограничивает возможность создания действительно глубоких и мощных моделей. Несмотря на попытки смягчить эту проблему с помощью различных методов, таких как остаточные соединения, сохранение стабильности при дальнейшем масштабировании остается серьезной научной задачей.

В процессе обучения глубоких языковых моделей традиционные методы нормализации, такие как Post-LayerNorm, часто приводят к проблеме затухания градиентов. Данное явление заключается в том, что сигналы градиентов, необходимые для корректировки весов нейронной сети, экспоненциально уменьшаются по мере распространения через большое количество слоев. Это затрудняет эффективное обучение, особенно при масштабировании моделей до огромных размеров, поскольку начальные слои сети получают недостаточно информации для обновления своих параметров. В результате, глубокие модели становятся сложнее в обучении и могут демонстрировать значительно худшую производительность, чем ожидалось, несмотря на увеличение их сложности и размера. Таким образом, проблема затухания градиентов, усугубляемая использованием Post-LayerNorm, представляет собой серьезное препятствие для дальнейшего увеличения глубины и эффективности языковых моделей.

Несмотря на то, что остаточные соединения (Residual Connections) значительно улучшили процесс обучения глубоких нейронных сетей, их возможностей недостаточно для полноценного решения проблем, возникающих при дальнейшем увеличении глубины. Исследования показывают, что, хотя они и облегчают распространение градиентов, они не устраняют полностью проблему исчезающего градиента или взрывающегося градиента, особенно в сетях, насчитывающих сотни или даже тысячи слоев. По мере увеличения глубины сети, даже с применением остаточных соединений, возникают сложности с поддержанием стабильности обучения, что требует разработки новых методов регуляризации и инициализации весов для обеспечения эффективного распространения сигнала и предотвращения деградации производительности. Таким образом, остаточные соединения являются важным шагом вперед, но не окончательным решением в борьбе с нестабильностью, присущей очень глубоким нейронным сетям.

Сравнение кривых обучения моделей Pre-LN и Keel демонстрирует расхождение между значением функции потерь в процессе обучения и итоговыми показателями производительности.
Сравнение кривых обучения моделей Pre-LN и Keel демонстрирует расхождение между значением функции потерь в процессе обучения и итоговыми показателями производительности.

Стабилизация Основы: Нормализация Слоев и Оптимизация

Нормализация слоев (Layer Normalization) играет ключевую роль в стабилизации процесса обучения глубоких нейронных сетей за счет снижения эффекта внутреннего смещения ковариации (internal covariate shift). Внутреннее смещение ковариации возникает из-за изменения распределения активаций каждого слоя в процессе обучения, что затрудняет оптимизацию. Нормализация слоев нормализует активации внутри каждого слоя, приводя их к нулевому среднему и единичной дисперсии. Это позволяет поддерживать более стабильное распределение активаций на протяжении всего обучения, упрощая задачу оптимизации и ускоряя сходимость. В отличие от пакетной нормализации (Batch Normalization), нормализация слоев не зависит от размера пакета, что делает ее применимой в различных сценариях, включая рекуррентные нейронные сети и обучение с небольшими размерами пакетов.

Успех обучения глубоких нейронных сетей напрямую зависит от характеристик оптимизационного ландшафта функции потерь. Более «гладкий» ландшафт, характеризующийся меньшим количеством локальных минимумов и более пологими градиентами, способствует более быстрой сходимости алгоритма оптимизации к оптимальному решению. Это связано с тем, что алгоритм с меньшей вероятностью застрянет в неоптимальных точках и сможет эффективно исследовать пространство параметров. Кроме того, обучение на более гладком ландшафте часто приводит к лучшей обобщающей способности модели, поскольку решение менее чувствительно к небольшим изменениям входных данных и шуму. Поверхности потерь с большим количеством резких изгибов и локальных минимумов, напротив, могут приводить к нестабильному обучению и переобучению.

Предварительная нормализация (Pre-LayerNorm), широко используемая для стабилизации обучения глубоких нейронных сетей, представляет собой компромисс между стабильностью и выразительностью модели. Применение нормализации перед каждым слоем, хотя и снижает внутреннее смещение ковариаты и ускоряет сходимость, может ограничивать способность сети к моделированию сложных функций. Это связано с тем, что нормализация изменяет входные данные каждого слоя, потенциально маскируя или удаляя важные признаки, необходимые для обучения сложным зависимостям в данных. В результате, модель, обученная с использованием Pre-LayerNorm, может достичь более высокой стабильности, но при этом страдать от снижения способности к обобщению и точности на невидимых данных, особенно в задачах, требующих высокой выразительности модели.

В ходе обучения с более высоким коэффициентом обучения, предобусловленная нормализация слоя (Pre-LN) демонстрирует заметный скачок потерь, что указывает на нестабильность процесса обучения.
В ходе обучения с более высоким коэффициентом обучения, предобусловленная нормализация слоя (Pre-LN) демонстрирует заметный скачок потерь, что указывает на нестабильность процесса обучения.

За Гранью Стабилизации: Архитектуры для Эффективной Глубины

Архитектура Keel представляет собой новый подход к масштабированию больших языковых моделей (LLM), сочетающий в себе Post-LayerNorm и Highway Connections. Post-LayerNorm, применяемый после каждого слоя, обеспечивает стабильность обучения, в то время как Highway Connections позволяют информации обходить отдельные слои, смягчая проблему затухания градиента. Данная комбинация позволяет создавать более глубокие модели без потери стабильности процесса обучения и повышения эффективности использования вычислительных ресурсов, что особенно важно при масштабировании LLM до сотен или тысяч слоев.

Соединения Highway (шоссейные соединения) предназначены для смягчения проблемы затухания градиента при обучении глубоких нейронных сетей. Они позволяют информации обходить некоторые слои сети напрямую, создавая «шоссейные» пути для распространения сигнала. Это достигается путем добавления «вентилей», контролирующих пропорцию входного сигнала, передаваемого напрямую к следующему слою, и пропорцию, проходящую через стандартную трансформацию слоя. Такой механизм позволяет градиентам более эффективно распространяться по сети, даже через большое количество слоев, что способствует более стабильному и эффективному обучению, особенно для очень глубоких моделей. В результате, информация, важная для обучения, не теряется при прохождении через сеть, и градиенты сохраняют достаточную силу для обновления весов всех слоев.

Архитектура Keel направлена на увеличение эффективной глубины модели — доли слоев, активно участвующих в выполнении задач — без снижения стабильности обучения. Это достигается за счет сочетания Post-LayerNorm и Highway Connections, позволяющих сигналу распространяться через слои без затухания градиента. В результате тестирования на наборе бенчмарков зафиксировано улучшение глобальной средней производительности на 3.8 пункта, что подтверждает эффективность данной конструкции в масштабировании больших языковых моделей.

Удаление каждого отдельного слоя в архитектурах Pre-LN и Keel приводит к заметному снижению производительности.
Удаление каждого отдельного слоя в архитектурах Pre-LN и Keel приводит к заметному снижению производительности.

Влияние и Перспективы

Архитектура Keel оказывает непосредственную поддержку повышению стабильности обучения, что является критически важным фактором для успешного масштабирования больших языковых моделей. Традиционные глубокие нейронные сети часто сталкиваются с проблемами нестабильности градиентов и расхождением при обучении, особенно при увеличении глубины и сложности. Keel, благодаря своему уникальному подходу к организации слоев и управлению потоком информации, эффективно смягчает эти проблемы. Исследования показывают, что архитектура обеспечивает более устойчивый процесс обучения, позволяя моделям достигать оптимальной производительности даже при значительном увеличении количества параметров и слоев. Это, в свою очередь, открывает возможности для создания более мощных и точных языковых моделей, способных решать сложные задачи и демонстрировать передовые результаты в различных областях применения.

Архитектура Keel позволяет создавать значительно более глубокие нейронные сети, что открывает новые возможности для выражения сложных зависимостей в данных. Такая глубина позволяет модели более тонко улавливать нюансы и строить более сложные представления, что напрямую влияет на ее способность к обобщению и решению сложных задач. В ходе тестирования было установлено, что применение данной архитектуры приводит к заметному улучшению результатов на бенчмарке MMLU-Pro — прирост точности составил 9.0 пункта, что свидетельствует о значительном повышении экспрессивности модели и ее способности к эффективному решению задач, требующих глубокого понимания и анализа информации.

Архитектура Keel демонстрирует значительное снижение избыточности в слоях нейронных сетей, что приводит к созданию более эффективных моделей с меньшим количеством параметров. Этот подход позволяет оптимизировать использование вычислительных ресурсов и повысить скорость работы моделей без ущерба для их производительности. В ходе исследований было установлено, что сокращение избыточности напрямую влияет на точность решения сложных задач: в частности, зафиксировано увеличение точности на 10 пунктов в тесте GSM-8K, предназначенном для оценки математических способностей моделей. Данный результат свидетельствует о потенциале архитектуры Keel для создания более компактных и эффективных систем искусственного интеллекта, способных решать широкий спектр задач с повышенной точностью и скоростью.

Обучение на датасете Keelon FineWeb-EDU [fineweb] демонстрирует, что увеличение масштаба обучающих токенов с 10B до 40B приводит к значительному снижению потерь по сравнению с базовой моделью Pre-LN.
Обучение на датасете Keelon FineWeb-EDU [fineweb] демонстрирует, что увеличение масштаба обучающих токенов с 10B до 40B приводит к значительному снижению потерь по сравнению с базовой моделью Pre-LN.

Наблюдаемые улучшения в стабильности обучения, достигаемые благодаря архитектуре Keel, не кажутся чем-то принципиально новым. Вновь и вновь сталкиваемся с тем, что кажущиеся революционными решения оказываются лишь элегантным обходом старых проблем — в данном случае, исчезающего градиента. Как заметил Дональд Кнут: «Прежде чем оптимизировать код, убедитесь, что он не должен быть вообще удален». Здесь, похоже, удалять нечего — лишь очередная тонкая настройка, позволяющая строить всё более глубокие и, следовательно, всё более хрупкие модели. И неважно, что это назвали Keel — завтра это будет очередным слоем нормализации с модным названием и новой волной инвестиций.

Что дальше?

Представленная архитектура Keel, безусловно, демонстрирует, что «post-layer normalization» ещё не похоронена. Однако, стабильность обучения — это лишь одна сторона медали. Если система стабильно падает, значит, она хотя бы последовательна, но не обязательно полезна. Вопрос в том, насколько полученный прирост глубины действительно конвертируется в качественное улучшение понимания языка, а не просто в увеличение числа параметров, которые необходимо обучать. В конечном счёте, мы не пишем код — мы просто оставляем комментарии будущим археологам.

Неизбежно, последующие исследования столкнутся с теми же проблемами, что и всегда: стоимость обучения, потребление энергии и, конечно, вечный поиск «волшебной» архитектуры, которая решит все проблемы. «Cloud-native» — это просто то же самое, только дороже. Стоит ожидать попыток гибридизации Keel с другими подходами, такими как sparse attention или mixture-of-experts, в надежде получить более эффективные и масштабируемые модели.

В конечном итоге, вероятно, окажется, что фундаментальные ограничения аппаратного обеспечения и алгоритмов заставят нас искать новые парадигмы, а не просто наращивать глубину существующих. Каждая «революционная» технология завтра станет техдолгом. Поэтому, возможно, самым важным направлением исследований станет разработка методов автоматической оптимизации архитектуры, которые позволят адаптироваться к постоянно меняющимся требованиям и ресурсам.


Оригинал статьи: https://arxiv.org/pdf/2601.19895.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-28 16:54