Автор: Денис Аветисян
Исследование показывает, что современные мультимодальные модели искусственного интеллекта испытывают трудности с простыми визуальными задачами, которые легко даются даже младенцам.

Представлен BabyVision — новый бенчмарк, выявляющий пробелы в базовых визуальных способностях современных генеративных моделей.
Несмотря на впечатляющие успехи современных мультимодальных больших языковых моделей, их визуальное понимание зачастую оказывается уязвимым и зависимым от лингвистических подсказок. В статье ‘BabyVision: Visual Reasoning Beyond Language’ представлен новый бенчмарк, позволяющий оценить базовые визуальные способности этих моделей, независимо от языковых знаний. Результаты показывают, что даже самые передовые системы демонстрируют значительно более низкие результаты в простых визуальных задачах, чем дети дошкольного возраста. Не означает ли это, что текущие модели упускают фундаментальные принципы визуального восприятия, необходимые для достижения подлинного искусственного интеллекта?
Раскрытие Ранних Зрительных Способностей: Новый Эталон для Развития ИИ
Современные мультимодальные большие языковые модели (MLLM) зачастую подвергаются оценке по сложным задачам, что приводит к упущению из виду фундаментальных зрительных способностей, развивающихся у младенцев. Такой подход не позволяет в полной мере оценить истинный потенциал и ограничения искусственного интеллекта в области визуального мышления. Внимание сосредоточено на решении сложных проблем, в то время как базовые навыки, такие как распознавание форм, текстур и пространственная ориентация, остаются недостаточно изученными в контексте развития ИИ. Это создает искаженную картину возможностей моделей, поскольку способность к решению сложных задач напрямую зависит от прочности этих базовых зрительных функций.
Оценка так называемых «ранних зрительных способностей» имеет решающее значение для понимания истинного потенциала и ограничений визуального мышления искусственного интеллекта. Исследования показывают, что современные мультимодальные большие языковые модели (MLLM), несмотря на впечатляющие успехи в решении сложных задач, демонстрируют удивительно низкий уровень в освоении базовых зрительных навыков, аналогичных тем, что развиваются у младенцев. Понимание этих фундаментальных способностей, таких как различение форм, текстур и пространственная ориентация, позволяет выявить слабые места в архитектуре ИИ и наметить пути для создания более надежных и эффективных систем визуального восприятия. Именно поэтому анализ этих базовых навыков становится ключевым индикатором истинного прогресса в области искусственного интеллекта и его способности к полноценному визуальному мышлению.
Разработанный комплекс тестов, BabyVision, направлен на оценку базовых зрительных способностей искусственного интеллекта, имитируя навыки, развивающиеся у младенцев. В отличие от существующих оценок, которые фокусируются на сложных задачах, BabyVision концентрируется на фундаментальных аспектах восприятия, таких как различение форм и текстур, а также понимание пространственных отношений. Этот подход позволяет выявить пробелы в визуальном мышлении ИИ на самых ранних этапах обработки информации, предоставляя возможность для целенаправленного улучшения алгоритмов и создания более эффективных систем компьютерного зрения, способных к адекватному восприятию окружающего мира.
Результаты тестирования современных мультимодальных больших языковых моделей (MLLM) на новом бенчмарке BabyVision демонстрируют существенный разрыв в базовых зрительных способностях по сравнению с человеческим восприятием. Модели достигают всего 49,7% точности, в то время как средний показатель человеческой точности составляет 94,1%. Этот значительный отрыв подчеркивает, что, несмотря на впечатляющие успехи в решении сложных задач, искусственный интеллект все еще испытывает трудности с освоением фундаментальных зрительных навыков, таких как распознавание форм, текстур и понимание пространственных отношений — тех самых, которые формируются у человека в первые месяцы жизни. Данный результат указывает на необходимость разработки новых подходов к обучению ИИ, направленных на укрепление этих базовых зрительных компетенций.

Преодоление «Словесного Узкого Места»: Оценка Визуального Мышления напрямую
Ограничение, известное как “словесная бутылка” (verbalization bottleneck), существенно снижает способность мультимодальных больших языковых моделей (MLLM) точно отражать понимание визуальной информации при необходимости преобразования изображений в текстовое описание. Это связано с тем, что процесс перевода визуальных данных в язык неизбежно приводит к потере информации и упрощению сложных визуальных представлений. Модели вынуждены кодировать визуальную информацию в лингвистическую форму, которая может быть недостаточной для передачи всех нюансов и деталей исходного изображения, что приводит к неточностям и искажениям в конечном текстовом выводе. Таким образом, точность оценки визуального понимания модели ограничена её способностью эффективно и полно передать визуальную информацию посредством языка.
BabyVision-Gen представляет собой расширение оригинального эталона оценки, которое использует генерацию изображений для оценки визуального мышления — более прямой метод оценки визуальных возможностей модели. Вместо того, чтобы требовать от модели словесное описание изображения, BabyVision-Gen оценивает способность модели создавать новые изображения, соответствующие заданным условиям и инструкциям. Такой подход позволяет оценить понимание визуальных взаимосвязей и способность к логическому мышлению, не ограничиваясь лингвистическими возможностями модели и избегая проблем, связанных с переводом визуальной информации в текстовую форму. Оценка осуществляется на основе анализа сгенерированных изображений, что позволяет выявить недостатки в визуальном понимании и способности к визуальным рассуждениям.
Использование генерации изображений в качестве метода оценки обходит ограничения, связанные с необходимостью лингвистического описания визуальной информации. Традиционные мультимодальные модели (MLLM) часто демонстрируют снижение точности при переводе визуальных данных в текстовый формат, что создает “узкое место вербализации”. Генерация изображений позволяет оценить понимание модели визуальных сцен и взаимосвязей между объектами непосредственно, без посредничества языка. Это дает возможность получить более детальное представление о том, как модель “видит” и интерпретирует окружающий мир, поскольку оценка строится на визуальном соответствии с заданными условиями, а не на качестве лингвистического ответа.
Оценивая визуальное рассуждение посредством анализа генерируемых изображений, мы получаем возможность обойти ограничения, связанные с лингвистической обработкой. Традиционные методы оценки мультимодальных моделей часто полагаются на словесное описание визуальной информации, что вносит погрешности, обусловленные сложностью перевода визуальных концепций в текст. Анализ напрямую сгенерированных изображений позволяет оценить способность модели к визуальному мышлению и интерпретации, не зависящую от качества её лингвистических навыков и потенциальных ошибок при вербализации визуальных данных. Такой подход позволяет более точно измерить истинный уровень понимания визуальной информации моделью.

Автоматизированная Оценка и Валидация Визуального Мышления
Автоматическая оценка с использованием моделей, таких как Gemini3-Pro-Preview, обеспечивает масштабируемый и эффективный способ оценки сгенерированных изображений. В отличие от ручной оценки, требующей значительных временных затрат и ресурсов, автоматизированные системы способны обрабатывать большие объемы данных с высокой скоростью и постоянством. Gemini3-Pro-Preview, будучи многомодальной моделью, анализирует изображения и предоставляет количественную оценку их качества, релевантности и соответствия заданным критериям. Это позволяет оперативно выявлять и устранять недостатки в процессе генерации изображений, оптимизировать производительность моделей и снижать общие затраты на валидацию.
Для подтверждения достоверности автоматической оценки, полученной с использованием моделей, таких как Gemini3-Pro-Preview, проводится дополнительная оценка экспертами-людьми. Эта процедура необходима для обеспечения соответствия между автоматизированными метриками и субъективным восприятием качества изображения человеком. Сравнение результатов автоматической и экспертной оценки позволяет выявить и устранить потенциальные расхождения, гарантируя, что автоматизированная система адекватно отражает человеческое понимание визуального рассуждения и точность генерируемых изображений. Высокий уровень согласованности между автоматической и экспертной оценкой, достигающий 96.1% на наборе данных NanoBanana-Pro, подтверждает надежность и валидность используемого подхода к автоматизированной оценке.
Автоматическая и экспертная (человеческая) оценки демонстрируют высокую степень согласованности, достигающую 96.1% при анализе результатов, полученных моделью NanoBanana-Pro. Данный показатель согласия указывает на надежность автоматизированной системы оценки в воспроизведении суждений, близких к человеческому восприятию, и подтверждает ее применимость для масштабируемой и эффективной проверки качества генерируемых изображений. Высокий уровень согласованности позволяет использовать автоматическую оценку в качестве объективной метрики производительности моделей визуального рассуждения.
Модель Qwen3VL используется как для генерации изображений, так и для их оценки в рамках автоматизированной системы. Применение метода RLVR (Reinforcement Learning from Visual Rewards) позволило повысить общую точность модели на 4,8% при тестировании на бенчмарке BabyVision. RLVR позволяет модели обучаться на основе визуальных оценок, что улучшает ее способность к решению задач визуального рассуждения и, как следствие, повышает точность как генерации, так и оценки изображений.
В составе оценочного набора автоматизированной валидации визуального мышления ключевое место занимают задачи, проверяющие визуальное отслеживание (Visual Tracking), пространственное восприятие (Spatial Perception) и мелкозернистую дискриминацию (Fine-Grained Discrimination). Визуальное отслеживание оценивает способность модели идентифицировать и следить за конкретными объектами на изображении. Пространственное восприятие проверяет понимание моделью относительного положения объектов и их взаимосвязей в пространстве. Мелкозернистая дискриминация фокусируется на способности модели различать незначительные, но важные детали, отличающие объекты одного класса друг от друга. Использование этих задач в совокупности позволяет комплексно оценить способность модели к решению задач, требующих детального анализа и понимания визуальной информации.

Влияние на Развитие ИИ и Перспективы Будущих Исследований
Новый эталон BabyVision-Gen представляет собой значительный шаг вперёд в оценке способностей искусственного интеллекта к ранней обработке зрительной информации. В отличие от традиционных методов, часто опирающихся на текстовые описания и, следовательно, косвенно оценивающих понимание визуальных данных, BabyVision-Gen напрямую проверяет способность моделей к распознаванию объектов, сцен и их взаимосвязей на основе визуальных стимулов, аналогичных тем, что используются в исследованиях развития младенцев. Такой подход позволяет более точно и всесторонне оценить, насколько хорошо ИИ действительно «видит» и интерпретирует мир, выявляя слабые места в существующих алгоритмах и стимулируя разработку более совершенных моделей, способных к более надежному и контекстуально-осмысленному визуальному восприятию.
Отказ от оценки визуальных способностей искусственного интеллекта исключительно через лингвистические модели открывает принципиально новые возможности для понимания того, как машины обрабатывают зрительную информацию. Традиционно, оценка сводилась к тому, насколько точно ИИ может описать увиденное, что не позволяет оценить его способность к непосредственному восприятию и интерпретации визуальных данных. Переход к оценке, основанной непосредственно на зрительном восприятии, позволяет выявить тонкости в обработке визуальной информации, которые ранее оставались незамеченными. Это, в свою очередь, способствует разработке более совершенных алгоритмов компьютерного зрения, способных к более надежному и эффективному анализу изображений и видео, что особенно важно для таких областей, как робототехника и автономные транспортные средства.
Новый подход к оценке возможностей компьютерного зрения, представленный BabyVision-Gen, способен значительно ускорить прогресс в таких областях, как робототехника, беспилотный транспорт и общее развитие компьютерного зрения. Более точная и всесторонняя оценка визуальных способностей искусственного интеллекта позволит создавать роботов, способных более эффективно ориентироваться и взаимодействовать с окружающим миром, а также усовершенствовать системы автономного вождения, повышая их безопасность и надежность. Разработка алгоритмов, основанных на понимании визуальной информации, а не только на обработке языка, откроет новые возможности для анализа изображений и видео, что найдет применение в медицине, промышленности и других сферах, где требуется точное и быстрое распознавание объектов и ситуаций.
Перспективные исследования в области компьютерного зрения должны быть направлены на создание более надежных автоматических метрик оценки, способных точно измерять прогресс в развитии визуального мышления у искусственного интеллекта. Существующие методы часто оказываются недостаточно чувствительными к нюансам восприятия и рассуждений, что затрудняет объективное сравнение различных архитектур. Поэтому, параллельно с разработкой новых метрик, необходимо исследовать инновационные архитектуры, способные к более сложному визуальному анализу и принятию решений. Особое внимание следует уделить моделям, имитирующим когнитивные процессы, такие как причинно-следственное мышление и абстрагирование, что позволит создать системы, способные не только распознавать объекты, но и понимать взаимосвязи между ними и предсказывать последствия своих действий в визуальном мире.

Исследование, представленное в данной работе, демонстрирует любопытный парадокс в развитии современных мультимодальных больших языковых моделей. В то время как эти модели демонстрируют впечатляющие способности в обработке естественного языка, их перцептивные навыки, особенно в базовых визуальных задачах, значительно отстают от способностей даже младенцев. Этот разрыв, выявленный посредством BabyVision Benchmark, подчеркивает, что простое масштабирование моделей не гарантирует развитие истинного визуального понимания. Как однажды заметила Фэй-Фэй Ли: «Искусственный интеллект должен быть не только умным, но и понимать мир вокруг нас, как это делают дети». Данное наблюдение особенно актуально, поскольку BabyVision указывает на необходимость сосредоточиться на фундаментальных аспектах визуального рассуждения, а не только на генерации убедительных, но потенциально поверхностных, ответов.
Что дальше?
Представленный анализ выявляет парадоксальную ситуацию: модели, претендующие на «общее» понимание, демонстрируют уязвимость в решении задач, доступных даже младенцам. Это не просто недостаток данных, а скорее фундаментальный пробел в понимании визуальной логики. Необходимо сместить акцент с простого увеличения масштаба моделей на разработку архитектур, способных к построению причинно-следственных связей в визуальном мире, подобно тому, как это делает развивающийся мозг.
Перспективным направлением представляется исследование методов «визуальной экстернализации» — способности модели не только распознавать объекты, но и активно формировать гипотезы о скрытых свойствах и взаимодействиях. Важно отойти от парадигмы «черного ящика» и стремиться к созданию моделей, способных объяснять свои визуальные рассуждения, что позволит выявить и исправить недостатки в логике восприятия.
Подобный подход требует междисциплинарного взаимодействия нейробиологии, психологии развития и компьютерного зрения. Возможно, истинный прогресс в области искусственного интеллекта заключается не в создании всё более сложных алгоритмов, а в более глубоком понимании принципов, лежащих в основе нашего собственного восприятия и разума.
Оригинал статьи: https://arxiv.org/pdf/2601.06521.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Оптимизация партийных запросов: Метод имитации отжига против градиентных подходов
- Насколько важна полнота при оценке поиска?
- Сжатый код: как оптимизация влияет на «мышление» языковых моделей
- Белки под присмотром ИИ: новый подход к пониманию их функций
- Искусственный интеллект на службе науки: новый инструмент для анализа данных
- Переключение намагниченности в квантовых антиферромагнетиках: новые горизонты для терагерцовой спинтроники
- Виртуальная примерка без границ: EVTAR учится у образов
2026-01-13 18:08