Итеративное обучение: как ‘настроить’ большие языковые модели на оптимальный результат

Новое исследование показывает, что эффективность больших языковых моделей в задачах генеративной оптимизации зависит не только от самой модели, но и от грамотной организации процесса обучения с обратной связью.



![Исследование абляции показало, что применение методов [latex]top-k[/latex]-дистилляции и снижение скорости обучения не предотвращают деградацию рассуждений, а лишь замедляют неизбежный процесс сведения к неоптимальному поведению.](https://arxiv.org/html/2603.24472v1/x34.png)


