Видео будущего: новый подход к генерации длинных роликов

Предложенная рекуррентная гибридная модель внимания демонстрирует снижение вычислительной сложности и задержки по сравнению с моделью Wan2.1 с полным softmax вниманием при увеличении длительности видео, что подтверждается качественным и количественным анализом на примере запроса «Кошка пьет воду» и достигается за счет использования 20 блоков ReHyAt.

Исследователи представили ReHyAt — механизм рекуррентного гибридного внимания, позволяющий создавать продолжительные видео с сохранением высокого качества и значительным снижением вычислительных затрат.

Наука по запросу: проверка искусственного интеллекта на прочность

Система SciIF аккумулирует данные научных вопросов и ответов из различных источников, применяя четырехэтапный процесс с участием человека для создания корректно сформулированных задач, снабженных явными научными ограничениями и аудируемыми списками доказательств; в ходе оценки, создатели запросов формируют промпты для генерации ответов и оценки соблюдения каждого ограничения, а две независимые модели-судьи проверяют как корректность ответа, так и соответствие ограничениям по строгим или гибким критериям, при этом, ключевой проблемой является ситуация, когда ответ может совпадать с эталонным численно, но не соответствовать требованиям, если отсутствуют необходимые доказательства, такие как единицы измерения и простая проверка единиц.

Новый бенчмарк SciIF позволяет оценить, насколько хорошо модели искусственного интеллекта способны не просто решать научные задачи, но и демонстрировать строгое следование научным принципам и ограничениям.

Воспроизводимость исследований ИИ: где кроется главная проблема?

Исследование рассматривает воспроизведение эмпирического исследования как графовую модель, где каждое исследование состоит из одной или нескольких гипотез, проверяемых посредством экспериментов, результаты которых анализируются и интерпретируются для подтверждения или опровержения этих гипотез, при этом интерпретация выделяется как статичный элемент, в отличие от традиционно допускаемой гибкости, что позволяет упростить анализ результатов экспериментов и оценить исход исследования.

Новая работа предлагает формализовать понятие воспроизводимости в исследованиях искусственного интеллекта, чтобы сделать оценки систем автоматизации более надежными и сопоставимыми.

ИИ-художник: Как научить нейросети мыслить и создавать изображения

В отличие от BAGEL, демонстрирующего компетентность в рассуждениях, но не отражающего этот процесс в итоговом изображении при сложных переплетённых запросах, Re-Align достигает сильной согласованности между рассуждением и генерацией благодаря структурированному IC-CoT, что позволяет более точно интерпретировать и визуализировать логику ответа.

Новый подход Re-Align позволяет значительно улучшить качество и согласованность изображений, генерируемых и редактируемых нейросетями, благодаря внедрению структурированного мышления.

Искусственный интеллект и экологический след: регуляторные лакуны

Новый анализ показывает, что существующие нормативные рамки не способны эффективно контролировать растущее воздействие искусственного интеллекта на окружающую среду.

Искусственный интеллект осваивает игры: новый подход к обучению на больших данных

В разработанной среде для исследования причинно-следственных связей в обучении с учителем, увеличение глубины нейронной сети способствует более быстрому освоению причинно-правильного решения, при этом нелинейные сети, обученные методом стохастического градиентного спуска, приближаются к корректному решению, в отличие от линейных сетей, которые демонстрируют отсутствие прогресса даже при случайной инициализации параметров, несмотря на существование оптимальной линейной политики, что подчеркивает важность нелинейности для выявления истинных причинно-следственных связей.

Исследователи разработали масштабируемый метод обучения ИИ, позволяющий создавать универсальные игровые модели, способные эффективно играть в различные 3D-игры, используя только визуальные данные и действия игрока.

Искусственный судья: от языковой модели к интеллектуальному агенту

Область применения подхода «Агент как судья» демонстрирует детализированную классификацию задач в различных областях, позволяя эффективно структурировать и анализировать широкий спектр проблем.

Обзор показывает, как оценка качества контента и решений переходит от простых языковых моделей к сложным системам, способным к планированию и взаимодействию.

Голос без границ: новый масштабный мультилингальный аудио-набор данных

Набор данных LEMAS содержит более 150 тысяч часов многоязычной речи с принудительной выравниванием на уровне слов для десяти основных языков, что позволило разработать две модели: LEMAS-TTS, реализующую крупномасштабный, потоковый нейронный синтез речи из текста и короткого эталонного фрагмента, и LEMAS-Edit, предназначенную для редактирования речи на уровне слов с использованием кодека.

Представлен LEMAS — обширный ресурс для исследований в области генерации и редактирования речи, открывающий возможности для создания реалистичных голосов на разных языках.