Умный помощник в кармане: новый взгляд на оценку мобильных агентов

Конвейер KnowU-Bench включает в себя инициализацию задач, взаимодействие агента, моделирование поведения пользователя и гибридную оценку, что позволяет комплексно исследовать и оценивать системы взаимодействия с пользователем.

Исследователи представили KnowU-Bench — комплексную платформу для проверки, насколько хорошо мобильные агенты понимают потребности пользователя и могут эффективно выполнять задачи в долгосрочной перспективе.

Стиль без границ: создание масштабного датасета для генерации изображений

Обучение модели MegaStyle-FLUX на различных наборах данных стилей демонстрирует её способность к адаптации и генерации визуальных результатов, соответствующих широкому спектру художественных направлений.

Новый подход к курации данных позволяет создавать разнообразные и согласованные стили для нейросетей, открывая возможности для реалистичной генерации изображений.

Искусственный разум в роли человека: насколько реалистичны модели поведения?

Был разработан комплексный бенчмарк OmniBehavior для оценки пользовательских симуляторов на основе больших языковых моделей, который включает в себя сбор реальных логов с платформы Kuaishou по пяти основным сценариям, включая обслуживание клиентов как часть электронной коммерции, последующую многомодальную обработку данных с двухэтапной очисткой и анонимизацией, и, наконец, создание датасета, фиксирующего долгосрочные поведенческие траектории для высокоточной оценки симуляторов в условиях реального производства.

Новое исследование показывает, что современные языковые модели испытывают трудности с достоверным воспроизведением сложного и долгосрочного поведения человека в различных ситуациях.

Ускорение генерации текста: новый подход к диффузионным языковым моделям

Процедура

Исследователи представили DMax — инновационную систему, позволяющую значительно повысить скорость декодирования в диффузионных языковых моделях без потери качества генерируемого текста.

Разум за Пределами Модели: Эволюция Агентов Искусственного Интеллекта

Архитектура управляемого большого языкового агента структурирована как экосистема, где центральное ядро - Harness - взаимодействует с тремя орбитальными измерениями - Памятью (рабочий контекст, семантические знания, эпизодический опыт, персонализированная память), Навыками (операционные процедуры, эвристики принятия решений, нормативные ограничения) и Протоколами (агент-пользователь, агент-агент, агент-инструменты) - посредством механизмов, включающих песочницы, наблюдаемость, сжатие, оценку, циклы утверждения и оркестровку суб-агентов, обеспечивая тем самым сложную динамику взаимодействия и адаптации системы.

Новый обзор показывает, как перенос когнитивных функций во внешние системы позволяет создавать более мощных и гибких интеллектуальных агентов.

Оркетровка чувств: как AI учится понимать мир вокруг

Для адаптации OmniJigsaw разработан конвейер фильтрации данных, сочетающий в себе сигнальную фильтрацию для сохранения целостности и динамики мультимодальных данных с семантической проверкой, использующей CoT-рассуждения, для оценки логичности повествования и переходов состояний.

Новая методика позволяет искусственному интеллекту эффективнее объединять информацию из разных источников, таких как зрение и слух, для более глубокого понимания окружающего мира.

Устранение искажений: Новый подход к восстановлению изображений

Несоответствие глобальных фотометрических сдвигов в обучающих данных затрудняет извлечение информации о текстуре и структуре, однако предложенный метод PAL позволяет сбалансировать градиент, обеспечивая прирост PSNR в среднем на 0.45dB применительно к шести задачам, шестнадцати методам и шестнадцати наборам данных.

Исследование предлагает эффективный метод решения проблемы несоответствия яркости в задачах обработки изображений, что значительно улучшает качество и обобщающую способность алгоритмов.