Искусственный интеллект рисует прозрачность: новый подход к генерации RGBA-изображений

Исследователи представили OmniAlpha — систему, способную создавать и редактировать изображения с альфа-каналом, объединяя различные задачи в единой архитектуре.

Наука на Видео: Система для Автоматического Обучения и Самосовершенствования

SciEducator, система, предназначенная для видео-понимания и обучения наукам, способна генерировать многомодальные образовательные электронные книги, предоставляющие всестороннее, детальное и увлекательное руководство.

Новая система SciEducator использует мультиагентный подход и цикл Деминга для глубокого понимания научных видео и создания образовательных материалов.

Самообучающийся агент для решения задач, объединяющих зрение и язык

Агент0-VL демонстрирует превосходство над существующими методами логических рассуждений с использованием инструментов благодаря итеративному процессу самосовершенствования, в котором решатель последовательно уточняет стратегии рассуждений на основе обратной связи от верификатора, что подтверждается результатами на различных эталонных задачах.

Новая разработка демонстрирует способность к непрерывному улучшению навыков рассуждения за счет самоэволюции и использования внешних инструментов.

Скрытое взаимодействие: новые горизонты для многоагентных систем

Система LatentMAS обеспечивает всестороннее взаимодействие между языковыми моделями, за счёт генерации скрытых представлений на основе состояний скрытых слоёв и обмена информацией через общую, совместно используемую память в KV-кэшах, что позволяет агентам координировать действия на системном уровне.

Исследователи предлагают принципиально новый подход к организации взаимодействия между агентами, основанный на использовании скрытого пространства больших языковых моделей.

Виртуальные миры для обучения роботов: новый подход к созданию данных

Визуализация результатов проекта GigaWorld-0-Video-MimicTransfer демонстрирует возможность преобразования видеозаписей манипуляций, выполненных человеком от первого лица, в траектории, пригодные для исполнения роботом, что обеспечивает масштабируемый синтез данных для обучения моделей VLA в условиях кросс-воплощения.

Исследователи представили GigaWorld-0 — платформу, генерирующую реалистичные виртуальные среды для эффективного обучения агентов, взаимодействующих с физическим миром.