Рассуждения машин: как «взгляд» Vision Language Models формирует понимание

Новое исследование раскрывает, как отдельные «блоки внимания» в мультимодальных моделях отвечают за различные когнитивные функции, приближая машины к человеческому способу рассуждения.






