Теневая адаптация: новый подход к эффективной настройке больших моделей
![Архитектура ShadowPEFT использует инъекцию расхождений [latex]\boldsymbol{\delta}^{(\ell)}[/latex], проецируемых через узкое место пониженной размерности с нулевым весом для [latex]W\_{\!\mathrm{up}}[/latex] и случайной инициализацией [latex]W\_{\!\mathrm{down}}[/latex], для модификации базового скрытого состояния, после чего замерзший базовый энкодер обрабатывает уточненное представление, а обновление теневого состояния осуществляется посредством управляемого остатка, где выход базового слоя нормализуется LayerNorm и разделяется на трансформацию [latex]W\_{t}[/latex] и сигмоидный вентиль [latex]\sigma(W\_{g})[/latex].](https://arxiv.org/html/2604.19254v1/x3.png)
Исследователи представили ShadowPEFT — инновационный метод, позволяющий эффективно настраивать большие языковые модели, используя компактную теневую сеть для централизованной адаптации.






