Обучение в процессе работы: новый подход к длинным текстам
![При увеличении вычислительных ресурсов для обучения, модель TTT-E2E демонстрирует тенденцию, схожую с полномасштабным вниманием, особенно при больших бюджетах, при этом результаты, представленные для DCLM с длиной контекста 8K после предварительного обучения и для Books с длиной контекста 32K после тонкой настройки, показывают, что снижение потерь [latex] \downarrow \downarrow [/latex] и метрики theyy-value коррелируют с масштабированием модели и объемом обучающих токенов.](https://arxiv.org/html/2512.23675v1/x8.png)
Исследователи предлагают метод адаптации языковых моделей непосредственно во время использования, что позволяет улучшить обработку длинных последовательностей без значительных вычислительных затрат.
![Динамические системы, особенно биологические, функционируют как иерархические сети, где на каждом уровне [latex]\mathcal{S}\_{i}[/latex] возникают уникальные ограничения [latex]\Omega(\mathcal{S}\_{i})[/latex], взаимодействующие с ограничениями нижних уровней [latex]\Gamma(\mathcal{S}\_{i})[/latex] и описываемые набором неавтономных (и потенциально стохастических) дифференциальных уравнений, что позволяет моделировать сложную динамику многоуровневых систем посредством анализа взаимозависимостей между уровнями организации.](https://arxiv.org/html/2512.22651v1/x5.png)



