Визуальный язык без границ: новый подход к машинному обучению

В архитектуре VL-JEPA предсказывается целевое эмбеддинг $SYS\_{Y}$ вместо восстановления исходного токена $YY$, что позволяет эффективно решать задачи генерации текста по визуальным подсказкам (например, создание подписей), а также обеспечивает дискриминативный VQA, классификацию с открытой лексикой и поиск видео по тексту в рамках единой унифицированной модели.

Исследователи предлагают инновационную архитектуру, предсказывающую векторные представления изображений и текста, что открывает путь к более быстрым и эффективным моделям.

Графы в словах: новый подход к представлению данных

Результаты моделирования показывают, что при параметрах $H=4$, $M=2$ и $F=256$ достигается определенный баланс, характеризующий производительность системы.

Исследователи предлагают инновационный способ кодирования структуры графов в виде последовательностей инструкций, открывая возможности для их обработки с помощью языковых моделей.

Визуальное мышление для ИИ: новый подход к пониманию изображений

Система GETok наделяет мультимодальные языковые модели (MLLM) обучаемыми дискретными токенами, привязанными к равномерно распределенным точкам на плоскости изображения, что обеспечивает унифицированное сопоставление различных входных данных, таких как текст, точки, ограничивающие рамки и сегментационные маски, а схема уточнения локализации дополнительно поддерживает корректировку от грубого к точному и итеративное восстановление после первоначальных ошибок сопоставления.

Исследователи предлагают инновационный метод, позволяющий нейросетям лучше ориентироваться в пространстве и понимать визуальную информацию, используя специальные «токены» для описания расположения объектов.

Генерация 3D-миров по запросу: Искусственный интеллект творит без обучения

Предложенная архитектура способна генерировать реалистичные трехмерные карты по текстовому описанию, используя процедурную генерацию контента в режиме, не требующем предварительного обучения.

Новая архитектура позволяет большим языковым моделям создавать сложные трехмерные пространства, используя лишь текстовые описания и встроенную документацию инструментов.

Визуальная навигация: новый подход к эффективному обучению

Модель Efficient-VLN установила новый стандарт в навигации по визуально-языковым ориентирам в непрерывных средах, используя исключительно RGB-входные данные, и достигла 64.2% и 67.0% показателей успешности в бенчмарках R2R и RxR соответственно, потребовав при этом лишь 282 часа работы на GPU H800 - значительно меньше вычислительных ресурсов, чем у конкурирующих методов.

Исследователи представили Efficient-VLN, систему, позволяющую значительно снизить затраты на обучение моделей, способных ориентироваться в пространстве, используя визуальные и языковые подсказки.

Кто пишет науку: гендерные различия в канадских научных журналах

Новое исследование показывает, что женщины по-прежнему недостаточно представлены в качестве авторов научных публикаций в Канаде, но причина кроется не в предвзятости рецензирования, а в общем представлении женщин в STEM-областях.

Искусственный интеллект на службе науки: Автоматизация оценки заявок на исследования

В рамках исследования сравниваются два подхода к отбору предложений: индивидуальная оценка (IS), агрегирующая независимые оценки рецензентов для ранжирования, и попарное сравнение (PP), определяющее ранжирование на основе результатов сравнения всех пар предложений, при этом подход PP характеризуется квадратичным ростом нагрузки, но потенциально может быть обработан с использованием больших языковых моделей.

Новое исследование показывает, как современные системы искусственного интеллекта могут эффективно оценивать научные проекты, приближаясь по точности к экспертам-людям.

Эхокардиография с искусственным интеллектом: новый взгляд на диагностику

Архитектура Echo-CoPilot использует управляемый языковой моделью контроллер, функционирующий по принципу ReAct, для обработки запросов клиницистов, взаимодействия с общей памятью и активации специализированных инструментов эхокардиографии, обеспечивающих сегментацию, классификацию изображений, предсказание измерений и заболеваний, а также генерацию отчетов и видео.

Представлена система, объединяющая передовые модели искусственного интеллекта для автоматизации анализа эхокардиограмм и повышения точности интерпретации результатов.