Вторая жизнь экспертов: как повысить эффективность моделей, не обучая с нуля

Автор: Денис Аветисян


Новый подход позволяет масштабировать Mixture-of-Experts модели, повторно используя существующие компоненты и существенно сокращая вычислительные затраты.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Процедура экспертного перепрофилирования включает предварительное обучение разреженной модели экспертов в течение τ шагов, последующее реплицирование экспертов с учетом их полезности (<span class="katex-eq" data-katex-display="false">r\_E > r\_i \geq \cdot s \geq r\_1</span>, при суммарном количестве реплик, равном <span class="katex-eq" data-katex-display="false">m \cdot E</span>), расширение маршрутизатора и завершение переобучения расширенной модели в течение <span class="katex-eq" data-katex-display="false">T - \tau</span> шагов, что позволяет добиться специализации экспертов благодаря стохастическому градиентному разнообразию при фиксированном маршрутизаторе Top-K.
Процедура экспертного перепрофилирования включает предварительное обучение разреженной модели экспертов в течение τ шагов, последующее реплицирование экспертов с учетом их полезности (r\_E > r\_i \geq \cdot s \geq r\_1, при суммарном количестве реплик, равном m \cdot E), расширение маршрутизатора и завершение переобучения расширенной модели в течение T - \tau шагов, что позволяет добиться специализации экспертов благодаря стохастическому градиентному разнообразию при фиксированном маршрутизаторе Top-K.

В статье представлена методика «expert upcycling», позволяющая эффективно расширить емкость Mixture-of-Experts моделей за счет дублирования существующих экспертов и продолжения предобучения, достигая сопоставимого качества с обучением с нуля при значительной экономии вычислительных ресурсов.

Масштабирование больших языковых моделей с использованием архитектуры Mixture-of-Experts (MoE) требует значительных вычислительных ресурсов, несмотря на разреженную маршрутизацию. В работе ‘Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts’ предложен метод «экспертного перепрофилирования» (expert upcycling), позволяющий расширять ёмкость MoE-моделей путём дублирования существующих экспертов и последующего продолжения предварительного обучения. Данный подход демонстрирует сравнимые результаты с обучением моделей с нуля, при этом существенно снижая потребность в вычислительных ресурсах и времени обучения. Возможно ли, используя экспертное перепрофилирование, создать принципиально новый подход к эффективному обучению и развертыванию масштабных MoE-моделей?


За пределами плотных моделей: обещание смеси экспертов

Традиционные плотные модели машинного обучения, несмотря на свою эффективность, сталкиваются с существенными ограничениями при масштабировании. По мере увеличения числа параметров и сложности задач, вычислительные затраты растут экспоненциально, что требует все больше ресурсов и времени для обучения и развертывания. Эта проблема особенно актуальна в современных задачах обработки естественного языка и компьютерного зрения, где модели стремятся к миллиардам и даже триллионам параметров. Увеличение вычислительной мощности не всегда является решением, поскольку оно ограничено физическими и экономическими факторами. Таким образом, необходимость в более эффективных архитектурах, способных обрабатывать большие объемы данных без пропорционального увеличения вычислительных затрат, становится все более очевидной и стимулирует поиск альтернативных подходов.

Архитектура «Смесь экспертов» (MoE) представляет собой новаторский подход к масштабированию моделей машинного обучения, позволяющий отделить размер модели от вычислительных затрат. Вдохновленная принципами работы биологических систем, где различные нейронные сети специализируются на обработке определенных типов информации, MoE использует концепцию маршрутизации вычислений. Вместо того, чтобы активировать все параметры модели для каждого входного сигнала, MoE динамически направляет обработку к небольшому подмножеству «экспертов» — специализированных подмоделей. Такой подход позволяет значительно увеличить общую емкость модели, не приводя к пропорциональному увеличению вычислительной сложности, что открывает новые возможности для создания более мощных и эффективных систем искусственного интеллекта.

Архитектуры Mixture-of-Experts (MoE) представляют собой инновационный подход к масштабированию моделей машинного обучения. Вместо использования одной большой, плотной нейронной сети, MoE распределяет вычислительную нагрузку между множеством специализированных “экспертов”. Каждый эксперт обучен обрабатывать определенное подмножество входных данных, что позволяет модели значительно увеличивать свою емкость — количество параметров и, следовательно, способность к обучению — без пропорционального увеличения вычислительных затрат. В процессе работы, механизм маршрутизации направляет каждый конкретный входной сигнал к наиболее подходящему эксперту или комбинации экспертов, тем самым повышая эффективность и позволяя обрабатывать более сложные задачи, чем это было бы возможно с традиционными плотными моделями. Такой подход имитирует принцип работы биологических систем, где различные специализированные модули совместно обеспечивают высокую производительность и адаптивность.

Метод экспертного переобучения (upcycling) на 50% CPT для разреженной модели MoE (7B→13B) позволяет сократить вычислительные затраты на 32% по сравнению с фиксированной моделью на 64 экспертах, достигая сравнимой или более высокой точности на ключевых бенчмарках, включая HellaSwag, PIQA, OpenBookQA и Social IQA, и незначительно уступая в точности на MMLU и ARC-Challenge.
Метод экспертного переобучения (upcycling) на 50% CPT для разреженной модели MoE (7B→13B) позволяет сократить вычислительные затраты на 32% по сравнению с фиксированной моделью на 64 экспертах, достигая сравнимой или более высокой точности на ключевых бенчмарках, включая HellaSwag, PIQA, OpenBookQA и Social IQA, и незначительно уступая в точности на MMLU и ARC-Challenge.

Экспертный апсайклинг: прогрессивная стратегия расширения

Метод экспертного апсайклинга (Expert Upcycling) предполагает последовательное увеличение емкости модели за счет дублирования существующих экспертов. Вместо обучения модели с нуля, этот подход позволяет повторно использовать предварительно обученные веса, что существенно снижает вычислительные затраты и время обучения. Процесс заключается в создании дополнительных копий уже существующих экспертов и их интеграции в архитектуру модели. Количество дублируемых экспертов может варьироваться в зависимости от требуемого увеличения емкости и доступных ресурсов. Данный подход обеспечивает более эффективный способ масштабирования модели по сравнению с полным переобучением.

В отличие от обучения моделей Mixture-of-Experts (MoE) с нуля, метод Expert Upcycling позволяет использовать существующие, предварительно обученные веса экспертов. Это существенно сокращает вычислительные затраты и время, необходимые для развертывания модели большей емкости. Вместо инициализации и обучения новых экспертов, происходит дублирование и адаптация уже существующих, что позволяет не только ускорить процесс, но и сохранить накопленные знания и навыки, заложенные в предварительно обученных весах. Такой подход особенно эффективен при масштабировании существующих моделей, поскольку позволяет избежать значительных затрат на повторное обучение с нуля.

Успешная реализация стратегии Expert Upcycling требует внимательного управления ‘пробелом вместимости’ (Capacity Gap) — разницей между исходной и расширенной моделями — и стратегическим расширением маршрутизатора (Router Extension). Пробел вместимости возникает из-за добавления новых экспертов, и его необходимо минимизировать для сохранения стабильности обучения и предотвращения деградации производительности. Расширение маршрутизатора подразумевает адаптацию механизма маршрутизации для эффективного распределения запросов между исходными и новыми экспертами, что включает в себя обновление весов и, возможно, добавление новых слоев для обработки возросшего количества экспертов. Недостаточное управление пробелом вместимости может привести к неравномерной загрузке экспертов и снижению общей эффективности модели, в то время как неоптимальное расширение маршрутизатора может привести к неэффективному использованию добавленных экспертов.

Отбор и инициализация экспертов для оптимальной производительности

Для определения экспертов, наиболее восприимчивых к дальнейшему обучению и, следовательно, подходящих для дублирования, используется метрика — «Оценка значимости на основе градиента». Эта оценка вычисляется на основе анализа градиентов потерь во время обучения. Эксперты с более высокими значениями оценки демонстрируют большую чувствительность к изменениям параметров и, таким образом, потенциально быстрее адаптируются к новым данным. Приоритезация дублирования экспертов с высокой оценкой позволяет оптимизировать процесс расширения модели, фокусируясь на тех компонентах, которые принесут наибольшую пользу в плане улучшения производительности и скорости сходимости.

Оценка важности экспертов основана на комбинированном показателе, учитывающем как норму квадрата градиента (||g||^2), так и значимость градиента весов. Норма квадрата градиента отражает величину изменений весов в процессе обучения, указывая на потенциальную восприимчивость эксперта к дальнейшей оптимизации. Значимость градиента весов, рассчитываемая как произведение градиента на соответствующие веса, позволяет оценить, насколько сильно каждое изменение веса влияет на общую функцию потерь. Комбинирование этих двух метрик обеспечивает более полную оценку, выявляя экспертов, которые не только активно обучаются, но и вносят существенный вклад в улучшение модели.

Инициализация новых экспертов предварительно обученными весами, так называемая “теплая инициализация”, является критически важной процедурой для сохранения накопленных знаний и ускорения сходимости процесса обучения после расширения модели. Вместо случайной инициализации весов, новые эксперты получают веса, скопированные из существующих, наиболее эффективных экспертов. Это позволяет избежать значительной потери производительности, которая могла бы возникнуть при обучении с нуля, и обеспечивает более быструю адаптацию к новым данным и задачам. Такой подход существенно сокращает время, необходимое для достижения оптимальной производительности расширенной модели, и минимизирует риск расхождения в процессе обучения.

Для обеспечения эффективного распределения токенов между расширенным набором экспертов применяется метод «Loss-Free Load Balancing». Данная техника направлена на минимизацию потерь информации при перенаправлении токенов, что достигается путем анализа и учета загруженности каждого эксперта. В отличие от традиционных методов, которые могут привести к неравномерной загрузке и снижению производительности, Loss-Free Load Balancing динамически распределяет токены, гарантируя, что каждый эксперт получает оптимальный объем работы. Это позволяет избежать «узких мест» и поддерживать высокую пропускную способность системы даже после увеличения количества экспертов, сохраняя при этом точность и эффективность обработки данных. Ключевым аспектом является отсутствие дополнительных потерь при перенаправлении токенов, что позволяет избежать необходимости повторной обработки или пересчета.

Оценка преимуществ: выгоды и архитектурные соображения

В рамках исследований было продемонстрировано значительное преимущество так называемого “начального прироста” (Initialization Gain), заключающегося в использовании “теплой” инициализации параметров модели. Данный подход, предполагающий использование предварительно обученных весов в качестве отправной точки для дальнейшей оптимизации, позволяет существенно ускорить процесс обучения и добиться более высокой итоговой производительности. Вместо обучения модели с нуля, «теплая» инициализация обеспечивает более эффективное исследование пространства параметров, что приводит к сокращению времени обучения и, как следствие, к снижению вычислительных затрат. Эксперименты показали, что использование предварительно обученных весов позволяет модели быстрее сходиться к оптимальным значениям, избегая локальных минимумов и достигая лучших результатов на различных задачах.

После расширения модели за счет использования экспертов, критически важным этапом является продолженное предварительное обучение (CPT). Этот процесс позволяет модели адаптироваться к возросшей емкости и эффективно использовать новые параметры. CPT не просто «заполняет» добавленные эксперты, но и перенастраивает существующие веса, обеспечивая согласованность и синергию между старыми и новыми компонентами. В результате, модель не только сохраняет, но и улучшает свои способности к обобщению, демонстрируя повышенную производительность на различных задачах. Процесс CPT является ключевым для реализации потенциала расширенной архитектуры и достижения оптимального баланса между емкостью и эффективностью.

Выбор архитектуры, в частности, между ‘Full MoE’ (полностью разрешенным экспертом) и ‘Interleaved MoE’ (чередующимся экспертом), оказывает значительное влияние на баланс между объемом модели и вычислительными затратами. Архитектура ‘Full MoE’ позволяет увеличить емкость модели, распределяя параметры между большим числом экспертов, однако это требует больше памяти и вычислений для маршрутизации запросов к соответствующим экспертам. В свою очередь, ‘Interleaved MoE’ представляет собой компромисс, чередуя слои с разреженными экспертами и плотные слои, что позволяет снизить вычислительные затраты, но при этом может ограничить потенциальную емкость модели. Оптимальный выбор между этими подходами зависит от конкретных требований к производительности, доступным ресурсам и желаемому уровню масштабируемости.

В процессе обучения больших языковых моделей была разработана методика, известная как “экспертный апсайклинг”, позволяющая значительно сократить вычислительные затраты. Исследования показали, что применение данного подхода позволило снизить время, необходимое для обучения на графических процессорах (GPU), на 32% по сравнению с обучением модели фиксированного размера в 13 миллиардов параметров. Это достигнуто за счет более эффективного использования существующих параметров и повторного использования уже обученных “экспертов”, что оптимизирует процесс обучения и снижает потребность в дополнительных вычислительных ресурсах, делая обучение больших моделей более доступным и экономичным.

Исследование демонстрирует, что модель, полученная посредством повторного использования и расширения существующей, достигает 98% от показателя валидационной ошибки, характерного для модели фиксированного размера. Этот результат свидетельствует о сопоставимой производительности, несмотря на увеличение масштаба и использование принципов переработки архитектуры. Фактически, модель, полученная путем «увеличения» существующей, демонстрирует эффективность, приближающуюся к модели, обученной с нуля, при этом значительно снижая вычислительные затраты.

Исследования показали, что предложенный метод демонстрирует сопоставимую или превосходящую точность на одиннадцати различных задачах, что подтверждает его эффективность и универсальность. Данный результат свидетельствует о способности модели успешно адаптироваться к широкому спектру проблем и достигать конкурентоспособных показателей, сравнимых с традиционными подходами. Особенно важно, что улучшение производительности наблюдается без увеличения вычислительных затрат, что делает метод привлекательным для практического применения в различных областях, требующих высокой точности и эффективности машинного обучения.

К эффективному масштабированию: будущее смеси экспертов

Концепция “разрешенного апсайклинга” представляет собой инновационный подход к построению моделей типа “смесь экспертов” (MoE), предлагая альтернативу традиционным методам. Вместо обучения MoE-модели с нуля, этот метод позволяет преобразовать существующую плотную модель в разрешенную архитектуру, используя уже накопленные знания. Вместо добавления новых параметров, процесс фокусируется на выявлении и усилении наиболее важных связей внутри существующей модели, эффективно перераспределяя вычислительные ресурсы. Такой подход не только ускоряет процесс обучения, но и позволяет достичь сравнимой, а в некоторых случаях и лучшей производительности, используя значительно меньше вычислительных ресурсов по сравнению с полным обучением MoE-архитектуры. Данный метод открывает возможности для масштабирования больших языковых моделей на менее мощном оборудовании и снижения затрат на обучение.

Дальнейшие исследования в области адаптивных стратегий маршрутизации, в частности, метода «Top-K Routing», направлены на оптимизацию использования экспертов в моделях Mixture-of-Experts. Этот подход позволяет динамически выбирать наиболее подходящих экспертов для обработки каждого конкретного входного сигнала, избегая перегрузки одних экспертов и недоиспользования других. Метод «Top-K Routing» предполагает выбор K наиболее релевантных экспертов на основе их оценок, что обеспечивает более эффективное распределение вычислительных ресурсов и улучшает общую производительность модели. Оптимизация этих стратегий маршрутизации играет ключевую роль в повышении масштабируемости и эффективности моделей, позволяя обрабатывать более сложные задачи обработки естественного языка с меньшими затратами.

Исследования показали, что применение метода экспертного апсайклинга к существующим предварительно обученным моделям позволяет значительно сократить вычислительные затраты. В частности, переход от плотной архитектуры к разрешенной модели с использованием экспертов приводит к уменьшению времени, необходимого для обучения на графических процессорах (GPU), на целых 67%. Этот впечатляющий результат достигается за счет перераспределения вычислительной нагрузки и фокусировки на наиболее важных параметрах модели, что делает процесс обучения более эффективным и экономичным. Таким образом, экспертный апсайклинг представляет собой перспективный подход к масштабированию языковых моделей, позволяя добиться существенной экономии ресурсов.

Исследования показали, что метод «expert upcycling» демонстрирует значительное преимущество перед традиционным «sparse upcycling» в плане производительности. При сопоставимом уровне активации, составляющем всего 3.13%, «expert upcycling» позволяет добиться снижения потерь на валидационном наборе данных на 0.241. Это указывает на то, что более эффективное использование существующих параметров модели, достигаемое за счет «expert upcycling», приводит к лучшей обобщающей способности и повышению точности предсказаний, даже при ограниченном количестве задействованных экспертов. Данный результат подчеркивает перспективность данного подхода для создания высокопроизводительных и экономичных больших языковых моделей.

Перспективные разработки в области моделей-экспертов (MoE) указывают на будущее, где масштабируемость и производительность не являются взаимоисключающими понятиями. Сочетание подхода “экспертной переработки” (expert upcycling), позволяющего эффективно использовать существующие предварительно обученные модели, с грамотной инициализацией и оптимизированными стратегиями маршрутизации, открывает путь к созданию языковых моделей нового поколения. Такой симбиоз технологий позволяет существенно снизить вычислительные затраты и повысить эффективность использования ресурсов, что критически важно для решения всё более сложных задач в области обработки естественного языка. Предлагаемые решения не только расширяют возможности существующих моделей, но и закладывают основу для разработки принципиально новых архитектур, способных эффективно обрабатывать огромные объемы данных и достигать беспрецедентного уровня понимания языка.

По мере усложнения задач обработки естественного языка, традиционные подходы к масштабированию языковых моделей сталкиваются с ограничениями. Развитие таких техник, как экспертный апсайклинг и адаптивные стратегии маршрутизации, представляется критически важным для преодоления этих препятствий. Эти инновации позволяют не только эффективно использовать вычислительные ресурсы, но и раскрыть весь потенциал крупномасштабного языкового моделирования, открывая возможности для решения задач, ранее считавшихся невыполнимыми. Оптимизация распределения нагрузки между экспертами и эффективное преобразование существующих моделей в разреженные архитектуры закладывают основу для создания более мощных и универсальных систем, способных к глубокому пониманию и генерации текста.

Исследование, представленное в данной работе, демонстрирует элегантный подход к расширению возможностей моделей Mixture-of-Experts посредством повторного использования существующих экспертов. Этот метод, названный «expert upcycling», позволяет значительно снизить вычислительные затраты при увеличении емкости модели, не жертвуя качеством. В этом процессе, каждый сбой — это сигнал времени, заставляющий переосмыслить существующие решения. Как однажды заметил Давид Гильберт: «Мы должны знать. Мы должны знать, что мы можем знать». Эта фраза отражает суть исследования — стремление к оптимизации и эффективному использованию ресурсов, подобно тому, как повторное использование экспертов позволяет достичь новых высот в обучении моделей, избегая необходимости начинать с нуля.

Куда Ведет Эта Дорога?

Предложенная методика «переработки» экспертов в моделях Mixture-of-Experts, безусловно, представляет собой любопытный компромисс между амбициями и реальностью. Каждый коммит в летописи таких моделей — это запись о расширении границ возможного, но и о неизбежной дани за эту дерзость. В конечном счете, вопрос не в том, чтобы создать максимально ёмкую модель, а в том, чтобы сделать это с достоинством, минимизируя налог на амбиции в виде вычислительных затрат.

Однако, и здесь возникают вопросы, которые требуют осмысления. Насколько универсален подход «переработки» для различных архитектур и задач? Не кроется ли в повторном использовании экспертов риск застревания в локальных оптимумах, лишая модель возможности исследовать более перспективные области пространства решений? Очевидно, что дальнейшие исследования должны быть направлены на разработку более интеллектуальных стратегий отбора и модификации экспертов, учитывающих специфику решаемой задачи.

Время — не метрика, а среда, в которой эволюционируют эти системы. Поэтому, наиболее перспективным направлением представляется разработка методов динамической «переработки» экспертов, позволяющих адаптировать модель к изменяющимся условиям и новым данным. Возможно, в будущем, мы увидим системы, способные самостоятельно «перерабатывать» свои компоненты, подобно живым организмам, стремящимся к оптимальной адаптации к окружающей среде.


Оригинал статьи: https://arxiv.org/pdf/2604.19835.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-23 21:57