Панорама без границ: новый подход к созданию 360° изображений

Модель «360Anything» преобразует произвольные перспективные изображения и видео в бесшовные, выровненные по гравитации 360-градусные панорамы, эффективно обрабатывая изображения с различным углом обзора и видео с интенсивным движением объектов и камеры, что, в свою очередь, позволяет осуществлять 3D-реконструкцию сцены посредством технологии 3D Gaussian Splatting.

Исследователи представили инновационную систему, способную преобразовывать обычные фотографии и видео в иммерсивные 360-градусные панорамы без необходимости точного определения геометрии сцены.

Нейросети учатся выявлять причины и следствия: проверка на медицинских данных

Новое исследование оценивает возможности современных языковых моделей в определении причинно-следственных связей, необходимых для анализа сложных биологических и медицинских задач.

Управляемое автодополнение кода: новые вызовы и решения

Инструмент контролируемого завершения кода расширяет стандартный контекст, добавляя детальные инструкции, что позволяет направлять процесс генерации кода и, таким образом, отличается от традиционных методов.

Исследование оценивает способность современных языковых моделей генерировать код, соответствующий заданным инструкциям, и представляет новый бенчмарк для более точной оценки.

Химический синтез под контролем искусственного интеллекта: новые горизонты

Исследование демонстрирует возможность представления химических реакций в виде направленного двудольного графа, где узлы соответствуют реакциям и молекулам, а схема знаний о реакциях используется для решения задач ретросинтеза, включающих поиск одно- и многоступенчатых реакций ([latex]n\in\{2,3,4\}[/latex]), посредством обработки естественного языка.

Исследователи предлагают метод использования больших языковых моделей для поиска оптимальных путей химического синтеза на основе графов знаний о реакциях.

Неопределенность как ресурс: Управление агентами искусственного интеллекта

Для преодоления спирали галлюцинаций в долгосрочных агентах, предложен фреймворк AUQ, преобразующий вербализованную неопределённость в активные, двунаправленные сигналы управления, включающие в себя две взаимодополняющие системы: Система 1 (Неопределённость-Осведомлённая Память, UAM), неявно распространяющая вербализованную уверенность и семантические объяснения для предотвращения слепого принятия решений, и Система 2 (Неопределённость-Осведомлённая Рефлексия, UAR), использующая эти объяснения в качестве рациональных сигналов для запуска целенаправленного разрешения неопределённости во время вывода только при необходимости, что позволяет агенту динамически балансировать между эффективным выполнением и глубоким размышлением.

Новый подход позволяет преобразовывать неопределенность в долгосрочных планах агентов искусственного интеллекта в управляемые сигналы, повышая их надежность и точность.

Роботы учатся видеть: новая стратегия управления на основе видео

Представлена Cosmos Policy - передовая политика для роботов, полученная путем тонкой настройки видео-фундаментальной модели NVIDIA Cosmos-Predict2-2B, способная обрабатывать мультимодальные входные данные и изображения с нескольких камер, предсказывая как фрагмент действия робота, так и его будущее состояние (представленное проприоцепцией робота и визуальными наблюдениями), а также ценность этого состояния (ожидаемая награда в будущем); при этом архитектура базовой видео-модели не изменялась, а все модальности совместно моделируются посредством целевой функции диффузионного обучения.

Исследователи разработали метод тонкой настройки больших видеомоделей, позволяющий роботам эффективно планировать и выполнять сложные манипуляции в реальном мире.

Физика в Машинах: Проверка на Понимание Мира

Разработанная структура PhysicsMind объединяет в себе базовую модель с набором данных, сформированным с учётом законов физики, экспертно проверенными аннотациями и разнообразными контролируемыми сценариями, что позволяет достичь надёжного понимания видео и оценки, учитывающей физические принципы.

Новый бенчмарк PhysicsMind позволяет оценить, насколько хорошо современные модели искусственного интеллекта понимают законы физики и предсказывают поведение объектов в реальном мире.