Накапливая опыт: мультимодальные агенты, которые учатся на ходу

Новая архитектура XSkill позволяет агентам непрерывно совершенствовать свои навыки использования инструментов и решения задач, опираясь на накопленный опыт, без необходимости переобучения модели.


![Телеодинамическая система, состоящая из структуры (гипотез [latex]\mathcal{H}[/latex]), параметров ([latex]\theta \in \mathcal{M}[/latex]), энергии [latex]E[/latex] и истории τ, эволюционирует посредством коальгебраической функции γ, где наблюдения ([latex]x, y[/latex]) порождают новое состояние [latex]s^{\prime}[/latex] и наблюдение [latex]o \in \mathcal{O}[/latex], при этом структурные действия (генезис, клин) и параметрические обновления (на основе естественного градиента на многообразии) конкурируют, а локальная телеодинамическая цель [latex]J[/latex] определяет выбор действия, связывая затраты энергии на структурные изменения с пополнением энергии при успешном предсказании.](https://arxiv.org/html/2603.11355v1/x1.png)


