Зрячий Искусственный Интеллект: Обучение моделей с подкреплением для работы с визуальной информацией
Новый подход позволяет создавать открытые мультимодальные модели, способные к гибкому взаимодействию с окружающим миром и динамическому использованию инструментов.



![Анимация трёхмерных гуманоидов достигается посредством многослойного подхода, в котором последовательность мешей, управляемая жёстким скелетом, дополняется остаточным полем для моделирования нежёсткой динамики, а восстановление высококачественного видео [latex]𝒙^*[/latex] из грубого рендеринга [latex]𝒚[/latex] осуществляется с использованием самонаправляемой стохастической выборки, обеспечивающей прогрессивную оптимизацию остаточного поля движения на основе трёхмерных гауссовых [latex]\mathcal{G}[/latex], реконструированных с помощью LHM.](https://arxiv.org/html/2602.19089v1/x2.png)
