Восстановление формы объекта по рассеянным волнам: новый подход с использованием нейросетей

Электромагнитное рассеяние исследуется на примере двусвязного магнитодиэлектрического цилиндра, демонстрируя трёхмерную структуру и поперечное сечение для анализа распределения поля.

В статье представлен инновационный метод реконструкции формы и свойств электромагнитных препятствий по данным рассеянного поля, основанный на глубоком обучении.

Визуальный интеллект без потерь: новая эра мультимодальных моделей

Модели ViT-UHD и LLaVA-UHD v3 демонстрируют превосходный баланс между эффективностью и производительностью: ViT-UHD превосходит современные визуальные энкодеры по средним показателям на шести эталонных тестах, включая MMBench и AI2D, при этом снижая задержку на 2,4 раза по сравнению с MoonViT, а LLaVA-UHD v3 достигает сопоставимой производительности с передовыми многомодальными моделями, такими как Qwen2-VL, на пятнадцати разнообразных тестах, обеспечивая при этом 1,9-кратное повышение эффективности.

Исследователи представили LLaVA-UHD v3 — модель, способную эффективно обрабатывать изображения в полном разрешении, открывая новые возможности для взаимодействия человека и машины.

Специалисты в команде: новый подход к анализу данных дистанционного зондирования

Архитектура EoS-FM адаптирует входные данные к различным форматам посредством дублирования и отбора каналов, извлекая максимальное количество карт признаков, после чего подмножество из $k$ кодировщиков, производящих по $n$ карт признаков, объединяется в $n$ объединенных карт, которые затем передаются декодеру.

Исследователи предлагают модульную архитектуру, объединяющую специализированные модели для эффективного извлечения признаков из изображений дистанционного зондирования.

Иерархии знаний под контролем ИИ: новый подход к точности представлений

Подход к реструктуризации иерархий, управляемый языковой моделью на основе запросов, позволяет динамически адаптировать структуру данных, используя возможности $LLM$ для оптимизации и повышения эффективности.

Исследователи показали, что использование больших языковых моделей для оптимизации структуры иерархий знаний значительно повышает качество гиперболических векторных представлений.

Восстановление и Разложение: Новое Применение Генеративных Моделей

В рамках исследования предложен новый подход к разложению изображения, использующий контекст «изображение-маска», отличающийся от стандартного, применяемого в диффузионных моделях восстановления, и представленный в виде набора $c^{f}\_{I-M}, c^{b}\_{I-M}$, что позволяет более эффективно декомпозировать изображение.

Исследователи предлагают эффективный метод разложения изображений на слои, основанный на переиспользовании моделей, изначально предназначенных для восстановления поврежденных участков.

Двойной взгляд: Как сравнение изображений, сгенерированных по тексту, меняет подход к оценке ИИ

В ходе исследования пользователи сравнивают результаты работы различных моделей преобразования текста в изображения, наблюдая их последовательно - сначала вывод одной модели, затем всех четырёх одновременно - и оценивают соответствие полученных изображений первоначальным ожиданиям, выявляя детали, которые могли быть упущены при первичном восприятии, что позволяет глубже понять возможности и ограничения каждой модели и сформулировать более осознанные запросы.

Новое исследование показывает, что интерфейс для одновременного сравнения результатов работы моделей, преобразующих текст в изображения, позволяет более эффективно выявлять детали и предвзятости в их работе.

Видео как инструмент мышления: новый подход к анализу длинных роликов

Подход LongVT обрабатывает длинные видеоматериалы в два этапа, подобно человеческому восприятию, используя механизм iMCoTT: сначала выполняется обзор выборочных кадров для формирования предварительной гипотезы о вероятном времени появления доказательств, затем вызывается инструмент crop\_video для повторной выборки более детализированных кадров из короткого фрагмента, ограниченного гипотетическим временным окном, и производится дальнейший анализ; модель самостоятельно определяет, достаточно ли одного шага ($T1T\_{1}$) для ответа или требуется несколько ($T5T\_{5}$) с самоанализом, при этом в процессе обучения с подкреплением одновременно оптимизируются точность ответа ($R_{acc}$), чистота форматирования ($R_{format}$) и точность временной привязки ($R_{time}$).

Исследователи разработали систему, позволяющую моделям искусственного интеллекта эффективно использовать видеоинструменты для более глубокого понимания и анализа длинных видеозаписей.

Как нейросети учатся понимать смысл: обнаружение «схем» обработки языка

Методология COMPASS выявляет и отслеживает цепи, опосредующие семантические роли в больших языковых моделях, демонстрируя, где происходит вычисление, специфичное для каждой роли, и как оно развивается в процессе обучения: для этого используются минимальные пары, выделяющие связывание предикатов и аргументов, анализ влияния на прогнозы ролей для получения разреженных, каузально функциональных подграфов и временной анализ этих подграфов для определения момента стабилизации их структуры и приобретения вычислительной незаменимости.

Новое исследование показывает, как большие языковые модели выделяют и используют специализированные «схемы» для анализа отношений между словами в предложении.