Единый взгляд: Новая модель для понимания и генерации изображений

В рамках фреймворка RAE, система OpenVision 3 демонстрирует способность генерировать высококачественные изображения для 256 классов ImageNet, что подтверждает ее эффективность в задаче условной генерации изображений.

Исследователи представили OpenVision 3 — архитектуру, объединяющую возможности вариационных автоэнкодеров и трансформаторов для достижения передовых результатов в задачах визуального анализа и синтеза.

Искусственный интеллект на службе лекарства: новый подход к молекулярному дизайну

В рамках разработанной системы ELILLM, молекулярные представления кодируются и используются для обучения суррогатной модели, предсказывающей результаты докинга, после чего, посредством стратегии отбора и декодирования с использованием больших языковых моделей, ограниченных химическими знаниями, генерируются новые молекулярные кандидаты, эффективность которых оценивается с помощью программного обеспечения для докинга, а полученные данные рекурсивно интегрируются для дальнейшей оптимизации процесса.

Исследователи предлагают инновационную систему, использующую возможности больших языковых моделей для создания перспективных лекарственных соединений.

Искусство видеть и создавать: Новая эра генерации изображений по тексту

Процесс обучения включает в себя два этапа: сначала декодер обучается на представлениях, полученных от зафиксированного энкодера RAE (выделены жёлтым цветом), а затем происходит сквозное обучение авторегрессионной модели, диффузионного трансформера и обучаемых токенов запросов (серым цветом) с использованием функции потерь кросс-энтропии для предсказания текста и функции соответствия потоку для предсказания изображений.

Исследователи предлагают упрощенный подход к обучению масштабных моделей генерации изображений, основанный на автоэнкодерах представлений, что открывает возможности для более быстрого обучения и повышения качества.

От визуализации к управлению: новый взгляд на модели мира

В условиях, когда прямое взаимодействие роботов с реальным миром ограничено соображениями безопасности, стоимости и эффективности, построение внутренней «модели мира» позволяет агенту, посредством самообучения и симуляции динамики окружающей среды в скрытом пространстве, расширить свои знания за пределы наблюдаемых данных и эффективно применять полученные навыки к реальным задачам.

Обзор показывает, что будущее искусственного интеллекта зависит не от реалистичной генерации изображений, а от создания симуляторов, основанных на понимании физических законов и причинно-следственных связей.

Панорама без границ: новый подход к созданию 360° изображений

Модель «360Anything» преобразует произвольные перспективные изображения и видео в бесшовные, выровненные по гравитации 360-градусные панорамы, эффективно обрабатывая изображения с различным углом обзора и видео с интенсивным движением объектов и камеры, что, в свою очередь, позволяет осуществлять 3D-реконструкцию сцены посредством технологии 3D Gaussian Splatting.

Исследователи представили инновационную систему, способную преобразовывать обычные фотографии и видео в иммерсивные 360-градусные панорамы без необходимости точного определения геометрии сцены.

Материалы по требованию: Искусственный интеллект проектирует химический синтез

Новая система объединяет возможности искусственного интеллекта и машинного обучения для автоматизации всего процесса создания неорганических материалов — от идеи до реализации.

Нейросети учатся выявлять причины и следствия: проверка на медицинских данных

Новое исследование оценивает возможности современных языковых моделей в определении причинно-следственных связей, необходимых для анализа сложных биологических и медицинских задач.

Роботы учатся видеть: новая стратегия управления на основе видео

Представлена Cosmos Policy - передовая политика для роботов, полученная путем тонкой настройки видео-фундаментальной модели NVIDIA Cosmos-Predict2-2B, способная обрабатывать мультимодальные входные данные и изображения с нескольких камер, предсказывая как фрагмент действия робота, так и его будущее состояние (представленное проприоцепцией робота и визуальными наблюдениями), а также ценность этого состояния (ожидаемая награда в будущем); при этом архитектура базовой видео-модели не изменялась, а все модальности совместно моделируются посредством целевой функции диффузионного обучения.

Исследователи разработали метод тонкой настройки больших видеомоделей, позволяющий роботам эффективно планировать и выполнять сложные манипуляции в реальном мире.