Пределы сжатой памяти: Infini-Attention в компактных нейросетях

Новое исследование показывает, как механизм Infini-Attention позволяет улучшить процесс обучения небольших языковых моделей и расширить их возможности в работе с длинными последовательностями.






