Когда «детектив» из LLM видит слишком много кадров, чтобы связать два конца.
Автор: Денис Аветисян Все давно привыкли к тому, что крупные мультимодальные модели неплохо справляются с базовыми задачами по видео, но когда дело доходит до настоящего, многошагового рассуждения – натыкаются на стену. Ведь недостаточно просто «видеть» – нужно еще и «думать», а это требует архитектур, выходящих за рамки простого масштабирования. Но вот, когда мы уже отчаялись … Читать далее