Голос из глубин: Новая система синтеза речи Fish Audio S2

Исследователи представили Fish Audio S2 — систему, способную генерировать естественную и управляемую речь длинных текстов.

Исследователи представили Fish Audio S2 — систему, способную генерировать естественную и управляемую речь длинных текстов.
В статье предлагается новый методологический подход к изучению взаимодействия человека и искусственного интеллекта, фокусирующийся на субъективном опыте и восприятии.

Новое исследование объясняет, почему мультимодальные модели испытывают трудности при обработке текста, представленного в виде изображений, и предлагает способ преодолеть этот разрыв.
![В рамках предложенного подхода, Variational Flow Maps (VFM) осуществляют одношаговую условную генерацию, обучаясь адаптеру шума [latex]q_{\phi}(z|y)[/latex], аппроксимирующему апостериорное распределение шума [latex]p(z|y)[/latex] посредством амортизированного вариационного вывода, после чего, посредством обученного потокового отображения [latex]x=f_{\theta}(z)[/latex], этот шум отображается в пространство данных, формируя условные выборки, аппроксимирующие [latex]p(x|y)[/latex], при этом совместное обучение сетей [latex]q_{\phi}[/latex] и [latex]f_{\theta}[/latex] позволяет последней компенсировать упрощенное гауссово предположение, лежащее в основе первой.](https://arxiv.org/html/2603.07276v1/figures/vfm_teaser.png)
Исследователи предлагают инновационный метод, позволяющий создавать данные по условиям всего за один шаг, используя совместное обучение потоковых карт и адаптеров шума.

В статье представлена модель, объединяющая факторы, влияющие на поведение людей в области кибербезопасности, и предлагается ее применение для защиты автономных ИИ-систем от атак, имитирующих методы социальной инженерии.
![Исследование демонстрирует эволюцию архитектур генерации ответов: от базовой модели, комбинирующей кодировки ячеек и возмущений, через классический RAG с недифференцируемым поиском, к усовершенствованной PT-RAG, использующей двухэтапный поиск - сначала на основе семантического сходства для отбора кандидатов, а затем с применением дифференцируемого отбора Gumbel-Softmax, обусловленного векторами управления [latex]h^{ctrl}[/latex], [latex]h^{pert}[/latex] и контекстными векторами [latex]h^{cxt}_{k}[/latex].](https://arxiv.org/html/2603.07233v1/x1.png)
Исследователи предлагают инновационный метод предсказания ответа клеток на генетические изменения, основанный на извлечении и использовании релевантной биологической информации.
Новое исследование анализирует дискуссии в первой социальной сети, полностью населенной искусственным интеллектом, выявляя неожиданные закономерности в их общении.

Новая система LiveWorld позволяет создавать реалистичные видео-миры, где объекты продолжают существовать и взаимодействовать даже за пределами прямой видимости.
Новое исследование раскрывает специфику ошибок в системах с автономным управлением, обусловленную вероятностной природой больших языковых моделей и хрупкостью зависимостей.

Исследователи представили PresentBench — комплексную систему оценки, позволяющую более точно измерить качество автоматически сгенерированных слайдов.