Куда смотрит рука: понимание жестов в видео от первого лица

Разработан конвейер автоматической генерации вопросов с вариантами ответов для видео, снятых от первого лица, использующий как симулированные, так и реальные данные, при этом вопросы сформулированы таким образом, чтобы модель должна была визуально интерпретировать указательные жесты для определения ответа.

Новое исследование предлагает способ улучшить понимание видеозаписей от первого лица, обучая модели интерпретировать жесты и отвечать на вопросы о происходящем.

Синергия человека и ИИ: Новый подход к материаловедению

Исследователи предлагают инновационную систему, объединяющую опыт человека и возможности искусственного интеллекта для ускорения открытия и характеризации новых материалов.

Спрашивая о справедливости: как настроить рекомендации с помощью подсказок

В ходе экспериментов с рекомендациями новостей было обнаружено, что использование нейтральных и чувствительных запросов позволяет снизить предвзятость рекомендаций, однако в некоторых случаях, запросы, учитывающие предвзятость, могут приводить к чрезмерной корректировке ответов на основе неявных признаков, таких как пол, определяемый по местоимениям.

Новое исследование показывает, что методы, основанные на текстовых подсказках, могут помочь уменьшить предвзятость в рекомендательных системах, использующих большие языковые модели.

Миниатюрный поиск по изображениям: как сжать огромную модель в 70 миллионов параметров

Архитектура NanoVDR демонстрирует значительное ускорение поиска информации - до 143 раз снижение задержки на CPU по сравнению с традиционными системами VDR, достигаемое за счет разделения процессов индексации документов (с использованием замороженной большой языковой модели) и онлайн-кодирования запросов, выполняемого дистиллированной текстовой моделью размером всего 70 миллионов параметров, при этом сохраняется сопоставимая точность, подтвержденная на бенчмарке ViDoRe.

Новый подход позволяет добиться почти такой же точности поиска по визуальным документам, используя лишь компактный текстовый энкодер, значительно снижая вычислительные затраты.

Визуальный интеллект: новый подход к объединению изображений и текста

В рамках разработанной унифицированной системы Cheers визуальные данные преобразуются в семантические токены, совместно обрабатываемые с текстовыми, что позволяет модели понимать запросы и генерировать изображения посредством адаптивной инъекции высокочастотных деталей в генераторную голову, предсказывающую векторное поле скорости в латентном пространстве для итеративной генерации изображений из гауссовского шума [latex] \mathbf{z}\_{0} [/latex] в конечное латентное представление [latex] \mathbf{z}\_{1} [/latex].

Исследователи представили модель Cheers, способную понимать и генерировать изображения и текст благодаря разделению семантических представлений и детализации отдельных фрагментов.

От разреженного к насыщенному: улучшение генерации изображений с помощью многогранного обучения

Разработанный метод MV-GRPO создает разнообразные расширенные условия, используя вариативность выборок стохастических дифференциальных уравнений и многогранные описательные запросы.

Новый подход к обучению генеративных моделей позволяет создавать более качественные и соответствующие запросам изображения за счет расширения пространства условий и использования многогранного обучения с подкреплением.

Наука в тандеме: как искусственный интеллект помогает создавать научные данные

Компоненты SciLire и процесс курирования, усиленный искусственным интеллектом, формируют интегрированную систему для эффективной обработки и анализа научных текстов.

В новой работе представлена система SciLire, объединяющая возможности человека и ИИ для более эффективного поиска, отбора и структурирования информации из научных публикаций.