Слияние языковых моделей: что работает лучше?

Автор: Денис Аветисян


Новое исследование систематически оценивает различные методы объединения больших языковых моделей, выявляя неожиданные закономерности в их эффективности.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Для оценки эффективности слияния больших языковых моделей, базовые модели подвергались многократному объединению с 12 общедоступными контрольными точками, используя три метода арифметики задач и три метода слияния подпространств, после чего полученные объединенные модели анализировались на 16 стандартных бенчмарках из lm-eval-harness для выявления устойчивых тенденций в эффективности различных методов слияния.
Для оценки эффективности слияния больших языковых моделей, базовые модели подвергались многократному объединению с 12 общедоступными контрольными точками, используя три метода арифметики задач и три метода слияния подпространств, после чего полученные объединенные модели анализировались на 16 стандартных бенчмарках из lm-eval-harness для выявления устойчивых тенденций в эффективности различных методов слияния.

Простое усреднение параметров, известное как Task Arithmetic, демонстрирует превосходство над более сложными подходами, такими как слияние подпространств, подчеркивая важность стабильности при объединении весов модели.

Несмотря на перспективность объединения нескольких обученных моделей для повышения эффективности больших языковых моделей, вопрос о применимости современных методов к LLM оставался открытым. В работе ‘A Systematic Study of Model Merging Techniques in Large Language Models’ представлено масштабное систематическое исследование шести передовых методов объединения моделей на четырех LLM с использованием двенадцати настроенных контрольных точек и шестнадцати стандартных бенчмарков. Результаты показали, что наиболее простой метод — Task Arithmetic — является единственным, стабильно демонстрирующим прирост производительности, в то время как более сложные подходы, такие как subspace merging, как правило, приводят к снижению показателей. Не приведет ли это к необходимости разработки новых, специализированных алгоритмов объединения, учитывающих особенности современных больших языковых моделей?


В погоне за универсальным интеллектом: проблема слияния моделей

Процесс специализированного дообучения больших языковых моделей (LLM) для решения различных задач неизбежно приводит к формированию изолированных друг от друга экспертов. Каждая модель, оптимизированная для конкретной области, накапливает узкоспециализированные знания, но теряет способность к обобщению и адаптации к другим задачам. В результате, вместо универсального помощника, возникает коллекция отдельных инструментов, каждый из которых эффективен лишь в своей нише. Данное явление представляет собой значительную проблему в контексте создания действительно гибких и многофункциональных систем искусственного интеллекта, поскольку требует разработки методов, позволяющих эффективно объединять и использовать знания, накопленные разными моделями.

Непосредственное объединение предварительно обученных больших языковых моделей представляет собой сложную задачу из-за явления, известного как катастрофическая интерференция. Когда веса двух или более моделей, обученных для различных задач, просто суммируются или усредняются, это может привести к внезапной и значительной потере производительности в одной или обеих задачах. Происходит это из-за того, что знания, приобретенные для одной задачи, перекрываются и искажают знания, приобретенные для другой, вызывая «забывание» ранее изученного. Попытки объединить модели таким образом часто приводят к снижению общей эффективности и требуют разработки более сложных методов, способных смягчить этот эффект и сохранить специализированные знания каждой модели.

Простое усреднение или интерполяция весов при объединении больших языковых моделей часто оказывается неэффективным подходом, поскольку не позволяет сохранить тонкости знаний, приобретенных для каждой конкретной задачи. Вместо гармоничного синтеза, такой метод приводит к размыванию специализации моделей, снижая их производительность в каждой из областей. Каждая задача требует уникального распределения весов, отражающего специфические закономерности в данных. Усреднение же, по сути, игнорирует эти различия, создавая модель, которая является компромиссом, но не превосходит исходные специализированные модели ни в одной из задач. В результате, вместо создания универсальной модели, способной эффективно решать несколько задач, наблюдается ухудшение результатов по сравнению с отдельными, настроенными для каждой задачи моделями.

Методы объединения моделей, основанные на задачной арифметике, такие как Task Arithmetic, TIES-Merging и Model Stock, используют взвешенное суммирование или интерполяцию изменений параметров между базовой моделью и точками, полученными после дообучения, при этом TIES-Merging дополнительно оптимизирует процесс за счет отсечения незначительных обновлений и обеспечения согласованности знаков, а Model Stock - за счет использования геометрического центра и углов между моделями.
Методы объединения моделей, основанные на задачной арифметике, такие как Task Arithmetic, TIES-Merging и Model Stock, используют взвешенное суммирование или интерполяцию изменений параметров между базовой моделью и точками, полученными после дообучения, при этом TIES-Merging дополнительно оптимизирует процесс за счет отсечения незначительных обновлений и обеспечения согласованности знаков, а Model Stock — за счет использования геометрического центра и углов между моделями.

Деконструкция знаний о задачах: метод сингулярного разложения

Методы, такие как TSV-Merge и Iso-C, используют сингулярное разложение (SVD) для выявления доминирующих направлений в обновлениях модели при обучении на конкретной задаче. SVD позволяет разложить матрицу изменений весов модели на компоненты, упорядоченные по величине их вклада. Анализируя эти компоненты, можно определить направления, в которых изменения весов наиболее значительны, что указывает на ключевые аспекты приобретенных знаний для данной задачи. Игнорирование направлений с малым вкладом позволяет снизить размерность представления знаний и сосредоточиться на наиболее важных характеристиках, что способствует улучшению обобщающей способности и снижению риска переобучения. Математически, SVD представляет собой разложение матрицы $A$ в виде $A = UΣV^T$, где $U$ и $V$ — унитарные матрицы, а $Σ$ — диагональная матрица с сингулярными числами, отражающими важность каждого направления.

Методы, такие как TSV-Merge и Iso-C, используют проекцию на подпространства меньшей размерности для сжатия знаний, приобретенных в процессе дообучения моделей. Этот процесс включает в себя применение сингулярного разложения (SVD) к обновлениям параметров модели, выделяя наиболее значимые направления изменений, обусловленные конкретной задачей. В результате, информация о задаче представляется в виде меньшего количества параметров, что позволяет уменьшить объем хранимых данных и вычислительные затраты. По сути, происходит выделение и сохранение лишь наиболее релевантных признаков, характеризующих специфику задачи, в то время как менее значимые компоненты отбрасываются или игнорируются, что и обеспечивает сжатие знаний.

Сжатие, достигаемое за счет проецирования моделей в подпространства меньшей размерности, существенно снижает интерференцию при объединении моделей, обученных на различных задачах. Вместо хранения полных весов, которые могут содержать избыточную или конфликтующую информацию, сохраняются только наиболее значимые направления изменений, выявленные с помощью, например, сингулярного разложения (SVD). Это позволяет избежать переобучения и ухудшения производительности при объединении, поскольку модель фокусируется на общих, доминирующих компонентах знаний, специфичных для каждой задачи. В результате, объединенная модель демонстрирует улучшенную обобщающую способность и более эффективное использование параметров по сравнению с простой суммой или усреднением весов.

Метод Subspace Boosting расширяет пространство признаков, используемое для представления знаний о задачах, за счет включения направлений с меньшей дисперсией, которые традиционно отбрасываются при использовании стандартного разложения по сингулярным числам (SVD). В отличие от методов, фокусирующихся исключительно на доминирующих направлениях, Subspace Boosting учитывает и более слабые, но потенциально ценные сигналы, содержащиеся в обновлениях модели. Это достигается путем добавления этих направлений к исходному подпространству, что позволяет более полно захватить всю информацию, релевантную для решения задачи, и повысить эффективность переноса знаний между различными моделями и задачами. Включение этих направлений может способствовать улучшению обобщающей способности и повышению производительности в сценариях, где полная информация о задаче не представлена в доминирующих направлениях.

Методы объединения моделей на основе подпространств (TSV-Merge, Iso-C и Subspace Boosting) работают в низкоранговых подпространствах обновления задач, что позволяет эффективно объединять обновления моделей, используя различные стратегии, такие как выделение доминирующих направлений, сглаживание спектра сингулярных значений или предотвращение коллапса ранга.
Методы объединения моделей на основе подпространств (TSV-Merge, Iso-C и Subspace Boosting) работают в низкоранговых подпространствах обновления задач, что позволяет эффективно объединять обновления моделей, используя различные стратегии, такие как выделение доминирующих направлений, сглаживание спектра сингулярных значений или предотвращение коллапса ранга.

Продвинутое слияние: TIES-Merging и задачная арифметика

Метод TIES-Merging использует консенсус по знаку (sign consensus) и прунинг для снижения интерференции между задачами и эффективной адаптации параметров. Консенсус по знаку предполагает, что для каждого параметра, участвующего в нескольких задачах, выбирается знак, с которым он наиболее часто встречается в градиентах этих задач. Прунинг, в свою очередь, удаляет параметры с незначительным вкладом, снижая сложность модели и предотвращая переобучение. Такой подход позволяет выровнять параметры, специфичные для каждой задачи, минимизируя конфликты и улучшая обобщающую способность модели при одновременной обработке нескольких задач.

Метод Task Arithmetic основан на непосредственном объединении векторов задач — числовых представлений, кодирующих знания, приобретенные при решении конкретных задач. В отличие от подходов, основанных на усреднении параметров, Task Arithmetic оперирует с векторами, представляющими собой компактные выражения специфических знаний. Это позволяет осуществлять более целенаправленный процесс слияния, поскольку каждое измерение вектора задачи соответствует определенному аспекту ее знаний, что дает возможность более точно контролировать вклад каждой задачи в результирующую модель. Объединение векторов происходит посредством поэлементного суммирования или других математических операций, формируя вектор, представляющий объединенное знание всех задач. Такой подход позволяет избежать нежелательных интерференций и добиться конструктивного слияния знаний, превосходящего производительность базовой модели и отдельных, индивидуально обученных контрольных точек.

Методы TIES-Merging и Task Arithmetic продемонстрировали свою применимость к широкому спектру больших языковых моделей (LLM). Экспериментальные данные подтверждают успешное применение данных техник к моделям Qwen3 различных размеров (8B и 4B), а также к моделям семейства Llama 3.1 (8B) и Llama 3.2 (3B). Это указывает на универсальность подходов и возможность их интеграции в существующие пайплайны обучения и развертывания LLM без существенной переработки архитектуры или процедур.

В ходе экспериментов было установлено, что метод Task Arithmetic последовательно демонстрирует эффект конструктивной интерференции, превосходя по результатам как базовую модель, так и отдельные, тонко настроенные контрольные точки. В отличие от него, методы TIES-Merging, Iso-C и TSV-M не показали прироста производительности в аналогичных условиях. Данное наблюдение указывает на превосходство Task Arithmetic в эффективном объединении знаний из различных задач и улучшении обобщающей способности модели.

Изменяя коэффициент смешения λ в алгоритме Task Arithmetic показывает его влияние на комбинирование обновлений задач.
Изменяя коэффициент смешения λ в алгоритме Task Arithmetic показывает его влияние на комбинирование обновлений задач.

Реализация конструктивной интерференции: взгляд в будущее

Альтернативный подход, известный как Model Stock, заключается в перемещении весов модели в направлении геометрического центра, что позволяет эффективно усреднять знания, полученные при решении различных задач. Вместо простого сложения или взвешивания весов, данный метод стремится к нахождению равновесия между ними, представляя собой своего рода “центр тяжести” приобретенных навыков. Такой способ объединения информации позволяет модели не только сохранять уже имеющиеся знания, но и обобщать их, создавая более устойчивую и универсальную систему. Идея заключается в том, что геометрическое среднее весов обеспечивает более плавный переход между задачами и предотвращает потерю информации, которая могла бы произойти при использовании других методов усреднения.

Экспериментальные результаты однозначно демонстрируют превосходство подхода Task Arithmetic: во всех четырех исследованных архитектурах больших языковых моделей, объединение знаний из двенадцати контрольных точек неизменно приводило к созданию модели, превосходящей исходную. Данное достижение — 100% успешность в улучшении производительности — выделяет Task Arithmetic среди альтернативных методов, таких как TIES-Merging, Iso-C и TSV-M, которые не смогли добиться аналогичных результатов. Такая стабильная эффективность указывает на то, что Task Arithmetic представляет собой надежный способ улучшения существующих моделей за счет эффективного усреднения знаний из различных источников, что открывает новые возможности для повышения их общей производительности и адаптивности.

Результаты исследований демонстрируют, что применение метода Task Arithmetic позволяет достичь средней точности в 92% при оценке на различных общедоступных бенчмарках для больших языковых моделей. Особенно заметно улучшение производительности на модели Qwen3 8B, где зафиксировано относительное увеличение точности на 1.07%. Данный показатель свидетельствует о значительном приросте эффективности и подтверждает потенциал метода Task Arithmetic для повышения качества работы языковых моделей в различных задачах, что делает его перспективным направлением для дальнейших исследований в области искусственного интеллекта.

Исследования показали, что альтернативные методы объединения моделей, такие как TIES-Merging, Iso-C и TSV-M, не смогли продемонстрировать улучшение результатов по сравнению с базовой моделью — их показатель успешного превосходства составил 0%. Это особенно подчеркивает уникальную эффективность предложенного подхода Task Arithmetic, который, в отличие от вышеперечисленных, успешно превзошел базовую модель во всех рассмотренных случаях. Полученные данные указывают на то, что стратегия Task Arithmetic, основанная на арифметическом усреднении знаний, представляет собой принципиально иной и более результативный способ объединения весов моделей для достижения более высокой производительности.

Изменяя плотность сохраняемых весов в TIES-Merging, можно регулировать степень разреженности модели: более высокая плотность обеспечивает сохранение большего числа параметров, а более низкая - более сильную разреженность.
Изменяя плотность сохраняемых весов в TIES-Merging, можно регулировать степень разреженности модели: более высокая плотность обеспечивает сохранение большего числа параметров, а более низкая — более сильную разреженность.

Исследование методов объединения моделей неизбежно напоминает о тщетности попыток создать идеальную систему. Авторы демонстрируют, что даже простейшая арифметика задач оказывается эффективнее сложных преобразований вроде subspace merging. В этом нет ничего удивительного: стабильное усреднение всегда предпочтительнее изящных, но хрупких конструкций. Как заметила Барбара Лисков: «Программы должны быть разработаны так, чтобы изменения в одной части не приводили к неожиданным последствиям в других». Иначе говоря, сложность — враг надёжности. Ведь всё, что можно задеплоить — однажды упадёт, и часто из-за самой этой сложности.

Что Дальше?

Представленное исследование, демонстрирующее превосходство простого усреднения весов моделей над более изящными методами подпространственного слияния, не является откровением, а лишь подтверждением старой истины: элегантность алгоритма обратно пропорциональна его устойчивости к реальным условиям эксплуатации. Каждая новая техника слияния, обещающая повышение эффективности, неминуемо породит новый уровень абстракции, требующий всё более сложного инструментария для отладки и мониторинга. В конечном счёте, CI/CD станет храмом, в котором разработчики будут молиться, чтобы ничего не сломалось после очередного обновления.

Очевидно, что фокус сместится на разработку метрик, способных предсказывать стабильность слияния — параметров, позволяющих заранее оценить, насколько успешно можно объединить знания из разных моделей без катастрофических последствий. Но документация, как известно, — миф, созданный менеджерами, поэтому эти метрики, вероятно, будут существовать лишь в головах немногих энтузиастов. Будущие исследования, несомненно, попытаются автоматизировать процесс поиска оптимальных весов при слиянии, но стоит помнить: каждая оптимизация — это компромисс, а каждый компромисс — потенциальный источник ошибок.

В конечном итоге, каждая «революционная» технология слияния моделей станет техническим долгом, требующим постоянного обслуживания и рефакторинга. Продакшен всегда найдёт способ сломать даже самую изящную теорию. Поэтому, прежде чем бросаться в омут новых алгоритмов, стоит задуматься о том, действительно ли это упростит жизнь, или же просто добавит ещё один слой сложности.


Оригинал статьи: https://arxiv.org/pdf/2511.21437.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-29 10:48