Облегчённые модели для робототехники: дистилляция знаний для VLA

Новый подход позволяет значительно снизить вычислительную нагрузку моделей, понимающих язык, зрение и действия, открывая путь к их использованию на мобильных и встраиваемых устройствах.




![Модель демонстрирует способность к генерации разнообразных будущих траекторий развития событий, направляемых текстовыми подсказками, охватывая как глобальные изменения окружающей среды ([latex]например, «зима», «пиксель-арт»[/latex]), так и точечные локальные вмешательства ([latex]например, «фейерверки», «рыбы[/latex]), при этом сохраняя физическую и временную согласованность.](https://arxiv.org/html/2601.20540v1/x13.png)

