Управление Экспертами: Новый Подход к Точной Настройке Больших Языковых Моделей

Исследователи предлагают метод динамического распределения весов между различными адаптерами, что позволяет добиться большей выразительности и стабильности при обучении больших языковых моделей.
![В рамках предложенной схемы CLIPO, для каждого входного запроса [latex]{\bm{x}}[/latex] методы оптимизации политики генерируют набор траекторий [latex]{\{{\bm{y}}\_{1},{\bm{y}}\_{2},\dots,{\bm{y}}\_{G}\}}[/latex], для которых рассчитываются соответствующие награды обучения с подкреплением [latex]{\{r\_{1},r\_{2},\dots,r\_{G}\}}[/latex], после чего, на основе последних скрытых состояний [latex]{\{{\bm{h}}\_{1},{\bm{h}}\_{2},\dots,{\bm{h}}\_{G}\}}[/latex] этих траекторий, вычисляются семантические вложения на уровне траекторий [latex]{\{{\bm{e}}\_{1},{\bm{e}}\_{2},\dots,{\bm{e}}\_{G}\}}[/latex] с помощью контрастивного механизма, позволяющего оценить сходство успешных и неудачных траекторий посредством контрастивных наград [latex]{\{r\_{1}^{\text{CL}},r\_{2}^{\text{CL}},\dots,r\_{G}^{\text{CL}}\}}[/latex] и, в конечном итоге, сформировать итоговую награду [latex]{r^{\prime}\_{i}=r\_{i}+r^{\text{CL}}\_{i}}[/latex] для каждой траектории.](https://arxiv.org/html/2603.10101v1/x2.png)






