Визуальное мышление: новый подход к решению задач

Визуальная языковая модель, функционируя по принципу самовызова, декомпозирует сложные визуальные запросы на элементарные подзадачи, делегируя их решению виртуальным репликам - “субагентам”, каждый из которых специализируется на локальной задаче, такой как определение объектов, генерация подписей или оптическое распознавание символов, а затем агрегирует текстовые результаты для формирования итогового ответа.

Исследователи предлагают инновационный метод, позволяющий моделям искусственного интеллекта эффективно рассуждать с использованием изображений, разбивая сложные задачи на последовательность простых шагов.

Медицинская диагностика: новый взгляд с помощью искусственного интеллекта и знаний экспертов

В рамках разработанной системы MedXAI извлечение знаний осуществляется посредством LLM, использующего механизм Retrieval-Augmented и самопроверки для обеспечения достоверности и обоснованности полученных результатов.

В статье представлена инновационная система, объединяющая глубокое обучение и опыт врачей для повышения точности и прозрачности анализа медицинских изображений.

Звездная химия под ударом: как космические лучи формируют молекулярные облака

В этом обзоре собраны современные знания о высокоэнергетической астрохимии и ее влиянии на химическую эволюцию молекулярного межзвездного вещества.

Стерео из ничего: новая эра синтеза стереоизображений

Исследователи представили StereoSpace — метод генерации стереопар изображений из одной фотографии без использования оценки глубины, открывающий новые возможности для 3D-визуализации.

Визуальные концепции под контролем: Новый подход к персонализации изображений

В исследовании сравниваются методы персонализации атрибутов в задачах открытой генерации изображений, где модель Omni-Attribute демонстрирует наилучший баланс между точным кодированием целевого атрибута и его согласованной интеграцией в новые контексты, минимизируя при этом нежелательные артефакты, в отличие от CLIP, DINOv2, Qwen-VL, OmniGen2, FLUX-Kontext и Qwen-Image-Edit.

Исследователи разработали метод, позволяющий точно настраивать и модифицировать изображения, используя гибкий и понятный набор атрибутов.

Искусственный интеллект под контролем: надежность и управление

В статье представлена комплексная система оценки и управления искусственным интеллектом, обеспечивающая его надежность и прозрачность на всех этапах жизненного цикла.

3D из Текста: Готовы ли мы к Обучению с Подкреплением?

Новое исследование систематически оценивает возможности обучения с подкреплением для генерации 3D-моделей по текстовому описанию, выявляя ключевые проблемы и предлагая пути их решения.

Эмоции на экране: что могут распознать современные ИИ?

Оценка интенсивности эмоций в видео, полученная с помощью больших языковых моделей (mLLM), демонстрирует корреляцию с оценками, данными людьми-кодировщиками на наборе данных RAVDESS, при этом представленные значения корреляции отличаются от ранее опубликованных из-за использования точечных оценок вместо бутстрап-усредненных.

Новое исследование оценивает возможности больших языковых моделей с мультимодальными возможностями в анализе эмоционального состояния по видеозаписям политических выступлений.

Трансформеры без тормозов: Новый подход к нормализации

Функция Dynamic erf (Derf), разработанная как точечная, демонстрирует превосходство над слоями нормализации и другими точечными функциями, обеспечивая более высокую производительность в задачах классификации и генерации изображений Imagenet-1K, а также в моделировании последовательностей ДНК за счет независимого скалярного отображения каждого элемента, в отличие от нормализации каналов, используемой в LayerNorm, и аналогичного подхода DyT, что подтверждает возможность превзойти нормализацию с помощью тщательно подобранной точечной функции.

Исследователи предлагают отказаться от традиционных слоев нормализации в архитектурах трансформеров, демонстрируя повышение обобщающей способности моделей.