Uni-MMMU: Предел масштабируемости мультимодального рассуждения.
Автор: Денис Аветисян Все давно устали от того, что искусственный интеллект, умеющий видеть и понимать язык, часто оказывается просто красивой оберткой без реального взаимопонимания между этими двумя модальностями. Кажется, мы научили машины различать картинки и читать тексты, но они по-прежнему не умеют думать вместе с ними. И вот, когда мы уже почти смирились с тем, … Читать далее