Видение и язык: новый взгляд на мультимодальное обучение

В отличие от прежних моделей, где зрение служило лишь вводом для текстовых инструкций, новая парадигма Youtu-VL рассматривает зрение как цель, используя унифицированный авторегрессионный надзор над языком и изображением для достижения согласованного обучения обеих модальностей.

Исследователи представляют Youtu-VL, модель, которая демонстрирует впечатляющие результаты благодаря переходу от текстового до визуального контроля в процессе обучения.

Мемы как лакмусовая бумажка для искусственного интеллекта

Исследование AVMeme Exam, охватывающее семь типов вопросов, демонстрирует, что мультимодальные большие языковые модели преуспевают в поверхностном лингвистическом анализе, но испытывают трудности с контекстуальными выводами, использованием общемировых знаний и интерпретацией невербальной аудиоинформации.

Новый тест AVMeme Exam демонстрирует, что современные модели искусственного интеллекта испытывают трудности с пониманием юмора и культурного контекста в многоязычных аудиовизуальных мемах.

Визуальное восприятие ИИ: от слов к пикселям

Новое исследование показывает, что современные мультимодальные модели способны к точному определению границ объектов на изображениях, используя простой подход к предсказанию ключевых точек.

Глубокое исследование: Архитектура Yunque для сложных задач

Обзор системы Yunque DeepResearch демонстрирует комплексный подход к глубоким исследованиям, объединяющий различные компоненты в единую, взаимосвязанную структуру для всестороннего анализа и понимания сложных данных.

В статье представлена новая иерархическая платформа для организации и проведения глубоких исследований, способная эффективно решать долгосрочные и многогранные задачи.

Робот, который понимает: новая модель для обучения роботов взаимодействию с миром

Модель LingBot-VLA, обученная на масштабированных данных, полученных от двухрукого робота в реальных условиях, демонстрирует превосходство и эффективность при переносе на различные роботизированные платформы, что подтверждено систематической оценкой на трех воплощениях роботов.

Представлена LingBot-VLA — модель, объединяющая зрение, язык и действия, обученная на огромном массиве реальных данных и демонстрирующая впечатляющую обобщающую способность.

Беспроводные сети будущего: Искусственный интеллект берет управление на себя

Предлагается архитектура ComAgent - многоагентной системы искусственного интеллекта, основанной на взаимодействии нескольких больших языковых моделей [latex]LLM[/latex], что позволяет достичь большей гибкости и эффективности в решении сложных задач.

Новая разработка позволяет автоматизировать оптимизацию беспроводных сетей, используя возможности нескольких интеллектуальных агентов.

Глубинное зрение роботов: новый подход к обучению восприятию

Модель DeFM успешно развернута для захвата объектов с использованием манипулятора Kuka-Allegro, при этом обучение проводилось на основе зашумленных данных о глубине, что демонстрирует устойчивость системы к реальным условиям эксплуатации.

Исследователи представили модель DeFM, позволяющую роботам эффективно обучаться на данных о глубине и адаптироваться к различным условиям без дополнительной настройки.

Визуальный интеллект: адаптация инструментов для сложных задач

AdaReasoner демонстрирует способность к адаптивному и обобщенному использованию инструментов, что позволяет системе динамически подстраиваться под различные задачи и эффективно применять доступные ресурсы.

Новая разработка позволяет мультимодальным моделям самостоятельно выбирать и комбинировать инструменты для более эффективного решения задач визуального рассуждения.