Видео как инструмент мышления: новый подход к анализу длинных роликов

Подход LongVT обрабатывает длинные видеоматериалы в два этапа, подобно человеческому восприятию, используя механизм iMCoTT: сначала выполняется обзор выборочных кадров для формирования предварительной гипотезы о вероятном времени появления доказательств, затем вызывается инструмент crop\_video для повторной выборки более детализированных кадров из короткого фрагмента, ограниченного гипотетическим временным окном, и производится дальнейший анализ; модель самостоятельно определяет, достаточно ли одного шага ($T1T\_{1}$) для ответа или требуется несколько ($T5T\_{5}$) с самоанализом, при этом в процессе обучения с подкреплением одновременно оптимизируются точность ответа ($R_{acc}$), чистота форматирования ($R_{format}$) и точность временной привязки ($R_{time}$).

Исследователи разработали систему, позволяющую моделям искусственного интеллекта эффективно использовать видеоинструменты для более глубокого понимания и анализа длинных видеозаписей.

Двойной взгляд: Как сравнение изображений, сгенерированных по тексту, меняет подход к оценке ИИ

В ходе исследования пользователи сравнивают результаты работы различных моделей преобразования текста в изображения, наблюдая их последовательно - сначала вывод одной модели, затем всех четырёх одновременно - и оценивают соответствие полученных изображений первоначальным ожиданиям, выявляя детали, которые могли быть упущены при первичном восприятии, что позволяет глубже понять возможности и ограничения каждой модели и сформулировать более осознанные запросы.

Новое исследование показывает, что интерфейс для одновременного сравнения результатов работы моделей, преобразующих текст в изображения, позволяет более эффективно выявлять детали и предвзятости в их работе.

Как нейросети учатся понимать смысл: обнаружение «схем» обработки языка

Методология COMPASS выявляет и отслеживает цепи, опосредующие семантические роли в больших языковых моделях, демонстрируя, где происходит вычисление, специфичное для каждой роли, и как оно развивается в процессе обучения: для этого используются минимальные пары, выделяющие связывание предикатов и аргументов, анализ влияния на прогнозы ролей для получения разреженных, каузально функциональных подграфов и временной анализ этих подграфов для определения момента стабилизации их структуры и приобретения вычислительной незаменимости.

Новое исследование показывает, как большие языковые модели выделяют и используют специализированные «схемы» для анализа отношений между словами в предложении.

Искусственный интеллект помогает старшему поколению принимать решения

Новое исследование показывает, что генеративные модели ИИ могут снизить сложность выбора для людей всех возрастов, особенно компенсируя возрастные изменения когнитивных функций.

Хирургический взгляд: новый стандарт понимания видеоданных

В ходе исследования продемонстрировано, что модель OMG-LLaVA, обученная на объединенном наборе данных SurgMLLMBench без дополнительной настройки для каждого отдельного набора, демонстрирует качественную сегментацию инструментов и распознавание рабочих процессов посредством визуального вопросно-ответного подхода (VQA), при этом правильные результаты отображаются зеленым цветом, а ошибочные - красным, что свидетельствует о ее способности к обобщению и эффективной работе в различных хирургических сценариях.

Представлен SurgMLLMBench — масштабный набор данных, призванный улучшить способность искусственного интеллекта анализировать хирургические видео и понимать происходящие манипуляции.

Радарное зрение: новый уровень понимания окружения

Визуализация внимания, полученная из предварительно обученного радарного энкодера, демонстрирует, что модель точно локализует транспортные средства в радиальном формате по дальности и углу, при этом кумулятивные веса внимания, рассчитанные для последних трех слоёв трансформера, концентрируются именно в областях, содержащих автомобили, что подтверждает эффективность контрастивного обучения с учетом хеширования.

Исследователи разработали модель RadarFM, способную к комплексному анализу радаром полученных данных об окружающей обстановке, что открывает новые возможности для автономного вождения.

Визуальные вопросы и знания: лёгкий путь к пониманию

Воспроизведенный образец выхода KRISP демонстрирует способность системы к генерации данных, отражающих сложность и детализацию, необходимые для анализа и интерпретации биологических последовательностей.

Новое исследование представляет собой упрощённую реализацию модели KRISP, демонстрирующую, как эффективно интегрировать знания в системы визуального вопросно-ответного анализа.