Зрительное развитие машин: новый подход к обучению искусственного интеллекта

Автор: Денис Аветисян


Исследователи представили модель BabyVLM-V2, вдохновлённую тем, как дети учатся видеть мир, и набор инструментов для оценки её возможностей.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
BabyVLM-V2 представляет собой всестороннюю и гибкую платформу для исследований в области фундаментальных моделей зрения, использующую разнообразный набор данных для предварительного обучения, включающий видео, изображения с текстовыми описаниями и многооборотные диалоги, и сопоставляющую этапы развития модели с возрастным диапазоном, охватываемым новым набором инструментов NIH Baby Toolbox®.
BabyVLM-V2 представляет собой всестороннюю и гибкую платформу для исследований в области фундаментальных моделей зрения, использующую разнообразный набор данных для предварительного обучения, включающий видео, изображения с текстовыми описаниями и многооборотные диалоги, и сопоставляющую этапы развития модели с возрастным диапазоном, охватываемым новым набором инструментов NIH Baby Toolbox®.

BabyVLM-V2 и DevCV Toolbox: новая платформа для разработки и оценки моделей компьютерного зрения, имитирующая этапы зрительного развития человека.

Несмотря на успехи современных моделей компьютерного зрения, их обучение часто лишено принципов развития когнитивных способностей у детей. В данной работе представлена платформа BabyVLM-V2: Toward Developmentally Grounded Pretraining and Benchmarking of Vision Foundation Models, имитирующая траекторию визуального обучения младенцев и включающая комплексный набор данных, а также бенчмарк DevCV Toolbox для оценки пространственного мышления, памяти и понимания словарного запаса. Полученные результаты демонстрируют, что компактная модель, обученная с нуля на предложенных данных, достигает конкурентоспособных результатов, превосходя GPT-4o в некоторых задачах, что указывает на перспективность подхода, основанного на принципах развития. Не откроет ли это путь к созданию более интеллектуальных и адаптивных систем компьютерного зрения, вдохновленных развитием человеческого познания?


Моделирование младенческого зрения: Необходимость эталонных показателей развития

Современные модели компьютерного зрения и обработки естественного языка, несмотря на впечатляющие достижения, не отражают ключевые этапы развития зрительного восприятия у младенцев. В отличие от человека, который постепенно осваивает визуальный мир, начиная с простых форм и цветов и переходя к сложным объектам и сценам, эти модели обучаются напрямую на огромных объемах данных, что обходит важный процесс формирования визуальной компетенции. Отсутствие подобной “развивающейся” траектории ограничивает их способность к истинному пониманию изображений и языковых описаний, поскольку модель не способна учитывать контекст, основанный на предварительном визуальном опыте, который является основой для человеческого восприятия. Это приводит к тому, что модели могут успешно выполнять задачи распознавания объектов на готовых изображениях, но испытывают трудности в ситуациях, требующих понимания причинно-следственных связей или прогнозирования изменений в визуальной среде, что является неотъемлемой частью когнитивного развития младенцев.

Существующие стандартные тесты для оценки систем компьютерного зрения зачастую ориентированы на задачи, решаемые взрослыми людьми, что приводит к упущению важных аспектов развития визуального интеллекта. Эти тесты, как правило, требуют от моделей способности распознавать сложные объекты и сцены, игнорируя при этом более фундаментальные навыки, такие как обнаружение простых форм, отделение объектов от фона или понимание пространственных отношений. В результате, системы, демонстрирующие высокие результаты на этих тестах, могут не обладать истинным визуальным интеллектом, поскольку не способны к обучению и развитию, подобно младенцам, осваивающим мир шаг за шагом. Необходимо разработать новые метрики, которые бы оценивали способность моделей к формированию базовых визуальных представлений и адаптации к меняющимся условиям, что позволит более точно определить уровень их развития и потенциал.

Существующий пробел в оценке современных моделей искусственного интеллекта обусловлен отсутствием задач, имитирующих раннее когнитивное развитие младенцев. В то время как большинство тестов ориентированы на достижение взрослого уровня восприятия и понимания, игнорируется критически важный этап формирования базовых зрительных способностей. Исследования показывают, что первые месяцы жизни характеризуются постепенным развитием навыков различения объектов, восприятия глубины и отслеживания движений. Отсутствие адекватных эталонных тестов, отражающих эти этапы, препятствует созданию действительно интеллектуальных систем, способных к обучению и адаптации подобно человеческому мозгу. Разработка специализированных бенчмарков, основанных на принципах младенческого зрения, представляется необходимым шагом для оценки и улучшения способностей моделей к фундаментальному визуальному мышлению и пониманию окружающего мира.

Задание на визуальный отсроченный ответ, представленное на изображении, является частью стандартного набора инструментов NIH Baby Toolbox.
Задание на визуальный отсроченный ответ, представленное на изображении, является частью стандартного набора инструментов NIH Baby Toolbox.

BabyVLM-V2: Архитектура искусственного развития интеллекта

BabyVLM-V2 представляет собой комплексный конвейер для разработки искусственного интеллекта, имитирующего развитие младенцев. Этот конвейер включает в себя этап предварительного обучения (pretraining) модели на масштабных аудиовизуальных данных, ориентированных на младенцев, таких как SAYCam. После этапа предварительного обучения следует оценка производительности модели с использованием инструментария DevCV Toolbox, позволяющего комплексно оценить развитие визуальных способностей и адаптацию к различным задачам. Полный конвейер обеспечивает возможность последовательной разработки, обучения и оценки моделей, имитирующих раннее развитие зрительно-моторных навыков.

В основе BabyVLM-V2 лежит использование крупномасштабных аудиовизуальных данных, ориентированных на восприятие младенцами, таких как SAYCam. Этот набор данных содержит записи взаимодействия младенцев с окружающей средой, включая визуальные стимулы и соответствующие звуковые реакции. Использование этих данных позволяет модели обучаться распознаванию объектов, сцен и действий, которые наиболее важны для развития визуальных способностей в раннем возрасте. Данный подход имитирует процесс обучения человека, где зрительное восприятие формируется на основе опыта взаимодействия с миром, и позволяет модели приобретать навыки распознавания и понимания визуальной информации, аналогичные тем, что развиваются у младенцев.

Предварительное обучение модели BabyVLM-V2 демонстрирует существенное повышение производительности по сравнению с моделями, инициализированными случайным образом. Эксперименты показали, что предварительно обученная модель стабильно превосходит случайно инициализированные аналоги при использовании различных долей обучающих данных. Увеличение объема данных предварительного обучения последовательно приводит к улучшению результатов, подтверждая эффективность подхода к развитию искусственного интеллекта на основе обучения с использованием больших объемов данных, имитирующих процесс развития зрительных способностей у младенцев.

Методы трансферного обучения играют ключевую роль в адаптации знаний, полученных в процессе предварительного обучения модели BabyVLM-V2, к решению конкретных задач. Предварительное обучение на масштабных наборах данных, таких как SAYCam, позволяет модели усвоить общие визуальные представления. Далее, трансферное обучение позволяет эффективно применять эти представления к новым, целевым задачам, даже при ограниченном количестве данных для обучения этих задач. Этот подход позволяет значительно повысить производительность модели на downstream-задачах по сравнению с обучением с нуля или случайной инициализацией весов, поскольку модель уже обладает базовыми визуальными знаниями и способностью к обобщению.

Этот процесс позволяет адаптировать метрику словарного запаса NIH Baby Toolbox® для использования в DevCV Toolbox.
Этот процесс позволяет адаптировать метрику словарного запаса NIH Baby Toolbox® для использования в DevCV Toolbox.

Оценка визуального интеллекта с помощью DevCV Toolbox

Инструментарий DevCV предназначен для оценки базовых навыков развития, таких как подсчет объектов, субитизация (быстрое определение количества небольшого числа объектов без счета) и визуальный отложенный ответ. Субитизация позволяет мгновенно определять количество объектов до трех-четырех, в то время как подсчет требует последовательного перечисления. Визуальный отложенный ответ оценивает способность удерживать в памяти информацию о визуальном стимуле в течение определенного периода времени и использовать ее для принятия решений. Оценка этих навыков позволяет анализировать и сравнивать развитие визуального интеллекта, как у людей, так и у искусственных систем.

Модель BabyLLaVA-V2 демонстрирует высокую точность в 93.0% при оценке с использованием набора инструментов DevCV, применяя варианты SAYCam. Этот показатель сопоставим с результатами, демонстрируемыми взрослыми людьми — 93.5%. Достигнутая точность указывает на способность модели эффективно оценивать базовые навыки развития, такие как подсчет объектов и визуальный отложенный ответ, что подтверждает её потенциал в задачах анализа и понимания визуальной информации.

Модель BabyLLaVA-V2 демонстрирует высокую производительность при оценке на вариантах набора данных Ego4D, достигая точности 93.5%. Этот результат сопоставим с показателями, демонстрируемыми взрослыми людьми при решении аналогичных задач визуального анализа. Достижение подобной точности на наборе Ego4D подтверждает способность модели эффективно обрабатывать и понимать сложные визуальные сцены, характерные для данных, собранных от первого лица.

Функциональность обнаружения и отслеживания объектов является ключевым компонентом способности модели обрабатывать и интерпретировать визуальные сцены. Обнаружение объектов позволяет идентифицировать присутствие различных элементов на изображении, в то время как отслеживание обеспечивает поддержание идентификации этих объектов при изменении их положения или внешнего вида в последовательности кадров. Эта комбинация возможностей позволяет модели не только определять, что находится на изображении, но и где это находится и как это меняется во времени, что необходимо для понимания динамических визуальных ситуаций и выполнения задач, требующих анализа поведения объектов.

DevCV Toolbox сопоставляет задачи с соответствующими измерениями NIH Baby Toolbox®, обеспечивая комплексную оценку развития.
DevCV Toolbox сопоставляет задачи с соответствующими измерениями NIH Baby Toolbox®, обеспечивая комплексную оценку развития.

Повышение надежности и обобщения посредством тонкой настройки

Исследования, проведенные на наборе данных Ego4D, продемонстрировали впечатляющую способность модели к обобщению и адаптации к данным из реальной жизни, полученным с помощью носимых камер. Этот набор данных, состоящий из видео, снятых от первого лица, представляет собой значительную проблему для большинства моделей, поскольку отличается высокой степенью вариативности и сложности сцен. Способность модели успешно обрабатывать и понимать эти данные указывает на её устойчивость к изменениям в освещении, перспективе и стилях съемки, что является ключевым шагом к созданию действительно универсальных и надежных систем искусственного интеллекта, способных функционировать в непредсказуемой среде.

Для повышения точности следования инструкциям модель подверглась тонкой настройке с использованием больших языковых моделей, в частности GPT-4o. Этот процесс позволил значительно улучшить способность системы интерпретировать и выполнять заданные команды, даже в сложных и неоднозначных ситуациях. В ходе настройки GPT-4o генерировал разнообразные инструкции и сценарии, что позволило модели научиться обобщать полученные знания и адаптироваться к новым, ранее не встречавшимся задачам. Результатом стало существенное повышение надежности и гибкости системы, способной эффективно взаимодействовать с пользователем на естественном языке и выполнять поставленные задачи с высокой точностью и последовательностью.

Для повышения устойчивости и обобщающей способности модели применялись методы расширения обучающей выборки с использованием возможностей большой языковой модели GPT-4o. Этот подход позволил значительно увеличить разнообразие данных, предоставляя модели примеры, которые она вряд ли встретила бы в исходном наборе. GPT-4o генерировал вариации существующих данных, включая небольшие изменения в сценариях, объектах и действиях, а также создавал совершенно новые, но реалистичные примеры. В результате модель стала менее чувствительна к незначительным отклонениям в входных данных и лучше адаптировалась к новым, ранее не встречавшимся ситуациям, что подтверждается улучшенными показателями обобщающей способности на сложных эгоцентричных видеоданных.

Исследования показали, что применение одношаговой подсказки (one-shot prompting) значительно повышает эффективность модели при решении задач, связанных с определением направления «лево/право». Этот метод, предполагающий предоставление модели единственного примера перед заданием нового вопроса, позволяет ей быстро адаптироваться и демонстрировать более точные результаты. В частности, одношаговая подсказка активизирует способность модели к обучению на небольшом количестве данных, что особенно ценно при работе с задачами, где получение большого объема размеченных данных затруднено или невозможно. Такой подход позволяет модели экстраполировать знания из единственного примера и успешно применять их к новым, ранее не встречавшимся ситуациям, существенно улучшая производительность в задачах пространственной ориентации и понимания инструкций.

Эксперименты показали, что наша модель и GPT-4o демонстрируют сопоставимую точность подсчета объектов при различном их количестве.
Эксперименты показали, что наша модель и GPT-4o демонстрируют сопоставимую точность подсчета объектов при различном их количестве.

Исследование, представленное в статье, демонстрирует стремление к созданию искусственного интеллекта, имитирующего ранние стадии визуального развития человека. Этот подход, фокусирующийся на принципах, заложенных в детском восприятии, напоминает о важности фундаментальных основ в любой сложной системе. Как однажды заметил Эндрю Ын: «Самое сложное — это не построить что-то новое, а понять, как работает то, что уже есть». BabyVLM-V2, стремясь к «развивающемуся» интеллекту, подчёркивает, что глубокое понимание основных механизмов, аналогичных тем, что формируют детское зрение, является ключом к созданию действительно интеллектуальных систем. В конечном итоге, элегантность модели проявляется не в сложности архитектуры, а в гармоничном сочетании формы и функции, подобно тому, как ребёнок учится воспринимать мир.

Что Дальше?

Представленная работа, бесспорно, делает шаг к созданию искусственного интеллекта, вдохновленного ранним детским развитием. Однако, элегантность этой аналогии не должна заслонять сложность задачи. Подражание младенческому зрению — это лишь отправная точка, а не конечная цель. Истинное понимание развития требует не только имитации, но и глубокого проникновения в механизмы, лежащие в основе формирования когнитивных карт мира.

Следующим этапом представляется необходимость выйти за рамки чисто визуального обучения. Реальный мланец взаимодействует с миром комплексно — через слух, осязание, движение. Создание моделей, способных интегрировать эти различные сенсорные потоки, станет настоящим испытанием. И не стоит забывать о роли социального взаимодействия, о том, как ребенок учится, наблюдая за другими.

Очевидным ограничением текущего подхода является сложность объективной оценки прогресса. Разработанные бенчмарки — полезный инструмент, но они неизбежно упрощают реальность. Поиск более тонких и адекватных метрик, способных отразить истинную глубину понимания, остается открытой проблемой. И, возможно, ключ к успеху лежит не в создании все более мощных моделей, а в разработке более эффективных алгоритмов обучения, имитирующих естественную любознательность и исследовательскую активность ребенка.


Оригинал статьи: https://arxiv.org/pdf/2512.10932.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-14 07:43