Память на кончиках пальцев: оценка мобильных GUI-агентов

Представлен MemGUI-Bench - первый всесторонний эталон для оценки памяти агентов, взаимодействующих с графическим интерфейсом пользователя, позволяющий комплексно оценить их способность к эффективному управлению ресурсами памяти в процессе работы с GUI.

Новое исследование представляет всесторонний инструмент для анализа способности мобильных приложений запоминать и использовать информацию в динамичных условиях.

Рассуждения на грани зрения: новая архитектура для мультимодальных моделей

В архитектуре HIVE, основанной на рекурсивной структуре Huginn, визуальные признаки, извлеченные из визуального энкодера, проецируются в языковое пространство и объединяются с текстовыми токенами, после чего последовательность обрабатывается итеративно посредством унифицированного набора слоев для углубления признакового представления, впервые вводя иерархическую визуальную информацию в процесс логического вывода в латентном пространстве.

Исследователи представили HIVE — систему, позволяющую языковым моделям анализировать изображения более глубоко и делать более обоснованные выводы, не полагаясь только на текстовые объяснения.

Ускорение генерации текста: новый подход к работе с длинными контекстами

В разработанной системе Focus-dLLM предсказание замаскированных позиций на текущем шаге опирается на предыдущие оценки достоверности, при этом выбранные позиции служат запросами для извлечения релевантных блоков подсказок, где внимание вычисляется над объединением этих блоков и динамически определенных

Исследователи предлагают эффективный метод повышения скорости работы больших языковых моделей при обработке длинных текстов, не жертвуя качеством генерации.

Любопытство как двигатель познания: активное обучение без сожалений

На рисунке демонстрируется дискретная среда для проверки теоремы 5.1, при этом погрешности, отображаемые в виде отрезков, составляют ±0.2±0.2 стандартных отклонений, рассчитанных на основе пяти различных начальных условий.

Новое исследование теоретически обосновывает, что достаточно высокий коэффициент ‘любопытства’ в алгоритмах активного вывода гарантирует как самосогласованное обучение, так и оптимальное принятие решений.

Видео в сжатом виде: Новый подход к кодированию и генерации

Результаты, представленные на рисунке 6, демонстрируют способность модели латентной диффузии, обученной в латентном пространстве автоэнкодера, генерировать видео по текстовому описанию, что свидетельствует о ее потенциале в задачах преобразования текста в визуальный контент.

Исследователи представили инновационную архитектуру для эффективного сжатия и восстановления видеоданных, основанную на диффузионных моделях и трансформерах.

Аудио как язык: новая модель понимает и генерирует звук

Предложенная архитектура UniAudio 2.0 представляет собой комплексное решение, объединяющее различные модальности аудио для достижения универсальной обработки звука, что позволяет эффективно решать широкий спектр задач.

Исследователи представили UniAudio 2.0 — универсальную модель для обработки звука, способную понимать и создавать аудиоконтент, подобно тому, как языковые модели работают с текстом.

Эволюция Искусственного Интеллекта: Самообучающиеся Нейросети

Иерархия файлов DARWIN демонстрирует взаимосвязь компонентов системы, предсказывая будущие точки отказа и подчеркивая, что надежность достигается не построением, а органическим развитием экосистемы.

Новая архитектура DARWIN демонстрирует способность нейронных сетей к самосовершенствованию посредством генетического алгоритма и взаимодействия агентов.