Перевод голоса в реальном времени: Новый подход без обучения

Исследователи представили метод SimulU, позволяющий осуществлять одновременный перевод речи в речь для длинных текстов, не требующий дополнительного обучения модели.

Нейросети и уравнения: новый взгляд на глубину обучения

Исследование структурировано вокруг трех ключевых вопросов, рассматривающих глубокие нейронные сети [latex]DNN[/latex] через призму дифференциальных уравнений: как эти уравнения обеспечивают принципиальное понимание архитектур [latex]DNN[/latex], как инструменты дифференциальных уравнений могут улучшить производительность [latex]DNN[/latex] и в каких реальных приложениях полезно опираться на дифференциальные уравнения при разработке [latex]DNN[/latex]; анализ проводится на двух уровнях абстракции - уровне модели, рассматривающем всю нейронную сеть как динамическую систему, и уровне слоя, моделирующем отдельные слои как дифференциальные уравнения.

Обзор показывает, как рассмотрение глубоких нейронных сетей через призму дифференциальных уравнений открывает новые возможности для анализа и совершенствования их работы.

Визуальные цепочки инструментов: проверка на прочность современных ИИ

В основе VTC-Bench лежит иерархическая таксономия задач и управляемый большой языковой моделью (MLLM) инструментарий, обеспечивающие многоступенчатую траекторию рассуждений - от улучшения визуального восприятия до композиционного анализа - для решения сложных задач.

Новый бенчмарк VTC-Bench позволяет оценить способность мультимодальных моделей к сложному визуальному анализу и последовательному использованию инструментов.

Зелёные решения в машинном обучении: как сделать AI экологичнее

Новое исследование анализирует тысячи проектов с открытым исходным кодом, чтобы выявить эффективные методы снижения энергопотребления и повышения устойчивости систем машинного обучения.

Диалог в движении: Как заставить виртуального слушателя реагировать на речь

Генеративная модель, получив на вход речевое высказывание - транскрипт и/или аудиозапись, возможно, с эмоциональной окраской - способна синтезировать соответствующую последовательность движений тела слушателя, имитируя реакцию на услышанное.

Новое исследование предлагает способ реалистично моделировать невербальные реакции слушателя на высказывания говорящего, делая взаимодействие с искусственным интеллектом более естественным.

Личность из осколков: как языковые модели восстанавливают данные из анонимных источников

Агент, оперируя фрагментированной информацией из анонимизированных источников, таких как логи чат-ботов и поисковые запросы, в сочетании с сопоставимыми данными из открытых источников, способен реконструировать конкретную личность, выстраивая связную гипотезу на основе слабо выраженных сигналов и подтверждающих данных.

Новое исследование показывает, что современные языковые модели способны реконструировать личные данные, используя разрозненные подсказки, даже если исходные данные были анонимизированы.

Пространственное мышление нейросетей: как генеративные модели «видят» мир

Модель генерации демонстрирует устойчивую геометрическую согласованность при изменении угла обзора, что подтверждается высокой степенью соответствия и стабильными представлениями главных компонент, позволяя VEGA-3D преодолевать пространственную неоднозначность и точно определять области внимания на целевом объекте в соответствии с инструкцией.

Новое исследование демонстрирует, что модели, способные генерировать видео, обладают скрытым пониманием трехмерного пространства, которое можно использовать для улучшения работы систем искусственного интеллекта.

Спектроскопия и разумное объяснение: новый взгляд на данные

Предлагаемый спектроскопический пайплайн, демонстрируя поэтапную обработку данных, обеспечивает интерпретируемость на каждом шаге, позволяя выявить взаимосвязи между спектральными характеристиками и наблюдаемыми явлениями.

Исследователи предлагают новый подход к интерпретации моделей машинного обучения, работающих со спектроскопическими данными, обеспечивающий стабильность и понятность результатов.