Визуальный компас: ИИ находит местоположение по изображениям

Система GeoVista демонстрирует способность к логическому мышлению при определении местоположения в реальном мире, органично сочетая визуальное увеличение интересующих областей с поиском информации в сети для подтверждения или уточнения итоговых суждений.

Новая модель GeoVista использует возможности искусственного интеллекта и веб-инструменты для точного определения географического положения объектов на фотографиях.

Музыка из слов и образов: новый подход к AI-композиции

Архитектура MusicAIR представляет собой основу для создания системы, способной к адаптивному взаимодействию с музыкальным контентом.

Исследователи представили MusicAIR — систему, способную создавать музыку на основе текста и изображений, используя алгоритмы и музыкальную теорию вместо нейронных сетей.

Искусственный патолог: новый подход к анализу гистологических изображений

Предлагаемый PathAgent итеративно собирает визуальные данные и агрегирует ключевую аналитическую информацию, используя модули Navigator, Perceptor и Executor - последний из которых выступает центральным оркестратором аналитических действий, оперируя при этом с увеличением ($Mag$) и местоположением ($Loc$), для генерации интерпретируемых результатов.

Исследователи представили систему, имитирующую процесс анализа гистологических препаратов, что позволяет автоматизировать и повысить точность диагностики.

Стиль сквозь века: математика искусства

Новое исследование показывает, как инструменты топологического анализа данных позволяют количественно оценить и различить стили живописи, от авторских манеры до направлений в искусстве.

Видео-Рассуждения: Как Модели Углубляют Понимание Видео с Текстом

Визуальное размышление в Video-R4 осуществляется посредством итеративного отбора кадров, приближения к ключевым областям и перекодирования пикселей, формируя замкнутый цикл «чтение-извлечение-перефокусировка-усиление» для обоснованного анализа видео.

Новая модель Video-R4 улучшает интерпретацию видеороликов с текстовым сопровождением за счет многократного анализа ключевых кадров и областей изображения.

Экологический след искусственного интеллекта: от разработки до применения

Обзор анализирует растущее воздействие генеративных моделей ИИ на окружающую среду, уделяя особое внимание энергопотреблению и углеродному следу на всех этапах жизненного цикла.

Видео-R4: Размышляя над видео, чтобы лучше понимать текст

Видео-R4 осуществляет итеративное визуальное обдумывание, последовательно отбирая кадры, приближая интересующие области и перекодируя пиксели, формируя замкнутый цикл «чтение-извлечение-перефокусировка-усиление» для обоснованного анализа видеопотока.

Новая модель глубокого обучения итеративно анализирует видео, фокусируясь на ключевых кадрах и областях, чтобы повысить точность понимания видеоконтента с текстовыми пояснениями.

Искусственный интеллект и экология: цена прогресса

Растущая популярность генеративных моделей искусственного интеллекта требует оценки их воздействия на окружающую среду, включая выбросы углерода и потребление ресурсов.