Визуальное мышление для ИИ: новый подход к пониманию изображений

Система GETok наделяет мультимодальные языковые модели (MLLM) обучаемыми дискретными токенами, привязанными к равномерно распределенным точкам на плоскости изображения, что обеспечивает унифицированное сопоставление различных входных данных, таких как текст, точки, ограничивающие рамки и сегментационные маски, а схема уточнения локализации дополнительно поддерживает корректировку от грубого к точному и итеративное восстановление после первоначальных ошибок сопоставления.

Исследователи предлагают инновационный метод, позволяющий нейросетям лучше ориентироваться в пространстве и понимать визуальную информацию, используя специальные «токены» для описания расположения объектов.

Генерация 3D-миров по запросу: Искусственный интеллект творит без обучения

Предложенная архитектура способна генерировать реалистичные трехмерные карты по текстовому описанию, используя процедурную генерацию контента в режиме, не требующем предварительного обучения.

Новая архитектура позволяет большим языковым моделям создавать сложные трехмерные пространства, используя лишь текстовые описания и встроенную документацию инструментов.

Визуальная навигация: новый подход к эффективному обучению

Модель Efficient-VLN установила новый стандарт в навигации по визуально-языковым ориентирам в непрерывных средах, используя исключительно RGB-входные данные, и достигла 64.2% и 67.0% показателей успешности в бенчмарках R2R и RxR соответственно, потребовав при этом лишь 282 часа работы на GPU H800 - значительно меньше вычислительных ресурсов, чем у конкурирующих методов.

Исследователи представили Efficient-VLN, систему, позволяющую значительно снизить затраты на обучение моделей, способных ориентироваться в пространстве, используя визуальные и языковые подсказки.

Кто пишет науку: гендерные различия в канадских научных журналах

Новое исследование показывает, что женщины по-прежнему недостаточно представлены в качестве авторов научных публикаций в Канаде, но причина кроется не в предвзятости рецензирования, а в общем представлении женщин в STEM-областях.

Искусственный интеллект на службе науки: Автоматизация оценки заявок на исследования

В рамках исследования сравниваются два подхода к отбору предложений: индивидуальная оценка (IS), агрегирующая независимые оценки рецензентов для ранжирования, и попарное сравнение (PP), определяющее ранжирование на основе результатов сравнения всех пар предложений, при этом подход PP характеризуется квадратичным ростом нагрузки, но потенциально может быть обработан с использованием больших языковых моделей.

Новое исследование показывает, как современные системы искусственного интеллекта могут эффективно оценивать научные проекты, приближаясь по точности к экспертам-людям.

Эхокардиография с искусственным интеллектом: новый взгляд на диагностику

Архитектура Echo-CoPilot использует управляемый языковой моделью контроллер, функционирующий по принципу ReAct, для обработки запросов клиницистов, взаимодействия с общей памятью и активации специализированных инструментов эхокардиографии, обеспечивающих сегментацию, классификацию изображений, предсказание измерений и заболеваний, а также генерацию отчетов и видео.

Представлена система, объединяющая передовые модели искусственного интеллекта для автоматизации анализа эхокардиограмм и повышения точности интерпретации результатов.

Визуальные модели и язык: как научить компьютер понимать новые комбинации понятий

Метод, вдохновлённый принципами работы человеческого глаза, позволяет извлекать разделенные латентные представления объектов из изображений, предсказывать значения отдельных измерений этих представлений для каждого слова в описании с учётом степени уверенности предсказания - чем выше уверенность (обозначена сплошной стрелкой), тем сильнее влияние измерения на финальный результат, а неопределённые измерения (пунктирной стрелкой) оказывают меньшее воздействие, обеспечивая обобщение на невидимые комбинации объектов, такие как синяя сфера.

Новый подход к обучению моделей, связывающих изображения и текст, позволяет им лучше обобщать знания и понимать ранее не встречавшиеся сочетания объектов и атрибутов.