Стабильность MoE обучения с подкреплением: согласование маршрутизации.

В эпоху стремительного развития больших языковых моделей, их способность к сложному рассуждению сталкивается с серьезным препятствием: по мере увеличения длины последовательности, эффективность моделей неуклонно снижается. В исследовании ‘Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers’, авторы бросают вызов устоявшемуся мнению о неизбежности этой проблемы, указывая на расхождение между процессами обучения и вывода в моделях с архитектурой Mixture-of-Experts (MoE) как на ключевой источник нестабильности. Если даже самые передовые модели не могут стабильно применять свои знания к более сложным задачам, не станет ли это фундаментальным ограничением в их развитии, и возможно ли действительно обеспечить согласованность между тем, как модель учится и как она использует полученные знания?





