Искусство видеть и создавать: Новая эра генерации изображений по тексту

Процесс обучения включает в себя два этапа: сначала декодер обучается на представлениях, полученных от зафиксированного энкодера RAE (выделены жёлтым цветом), а затем происходит сквозное обучение авторегрессионной модели, диффузионного трансформера и обучаемых токенов запросов (серым цветом) с использованием функции потерь кросс-энтропии для предсказания текста и функции соответствия потоку для предсказания изображений.

Исследователи предлагают упрощенный подход к обучению масштабных моделей генерации изображений, основанный на автоэнкодерах представлений, что открывает возможности для более быстрого обучения и повышения качества.

Панорама без границ: новый подход к созданию 360° изображений

Модель «360Anything» преобразует произвольные перспективные изображения и видео в бесшовные, выровненные по гравитации 360-градусные панорамы, эффективно обрабатывая изображения с различным углом обзора и видео с интенсивным движением объектов и камеры, что, в свою очередь, позволяет осуществлять 3D-реконструкцию сцены посредством технологии 3D Gaussian Splatting.

Исследователи представили инновационную систему, способную преобразовывать обычные фотографии и видео в иммерсивные 360-градусные панорамы без необходимости точного определения геометрии сцены.

Материалы по требованию: Искусственный интеллект проектирует химический синтез

Новая система объединяет возможности искусственного интеллекта и машинного обучения для автоматизации всего процесса создания неорганических материалов — от идеи до реализации.

Нейросети учатся выявлять причины и следствия: проверка на медицинских данных

Новое исследование оценивает возможности современных языковых моделей в определении причинно-следственных связей, необходимых для анализа сложных биологических и медицинских задач.

Роботы учатся видеть: новая стратегия управления на основе видео

Представлена Cosmos Policy - передовая политика для роботов, полученная путем тонкой настройки видео-фундаментальной модели NVIDIA Cosmos-Predict2-2B, способная обрабатывать мультимодальные входные данные и изображения с нескольких камер, предсказывая как фрагмент действия робота, так и его будущее состояние (представленное проприоцепцией робота и визуальными наблюдениями), а также ценность этого состояния (ожидаемая награда в будущем); при этом архитектура базовой видео-модели не изменялась, а все модальности совместно моделируются посредством целевой функции диффузионного обучения.

Исследователи разработали метод тонкой настройки больших видеомоделей, позволяющий роботам эффективно планировать и выполнять сложные манипуляции в реальном мире.

Неопределенность как ресурс: Управление агентами искусственного интеллекта

Для преодоления спирали галлюцинаций в долгосрочных агентах, предложен фреймворк AUQ, преобразующий вербализованную неопределённость в активные, двунаправленные сигналы управления, включающие в себя две взаимодополняющие системы: Система 1 (Неопределённость-Осведомлённая Память, UAM), неявно распространяющая вербализованную уверенность и семантические объяснения для предотвращения слепого принятия решений, и Система 2 (Неопределённость-Осведомлённая Рефлексия, UAR), использующая эти объяснения в качестве рациональных сигналов для запуска целенаправленного разрешения неопределённости во время вывода только при необходимости, что позволяет агенту динамически балансировать между эффективным выполнением и глубоким размышлением.

Новый подход позволяет преобразовывать неопределенность в долгосрочных планах агентов искусственного интеллекта в управляемые сигналы, повышая их надежность и точность.

Искусственный интеллект в обучении: как правильно задавать вопросы

Новое исследование показывает, что качество вопросов, генерируемых языковыми моделями для образовательных целей, напрямую зависит от используемых методов разработки запросов.