Оживляя текст: Voxtral TTS и новый взгляд на синтез речи

Автор: Денис Аветисян

Новая система Voxtral TTS демонстрирует впечатляющие результаты в преобразовании текста в естественную и выразительную речь, открывая возможности для многоязычного синтеза и клонирования голоса.

В ходе сравнительных оценок, проведённых людьми, система Voxtral TTS демонстрирует превосходство над ElevenLabs Flash v2.5: в категории «фирменные голоса» Voxtral TTS был предпочтён в 58.3% случаев на основе 77 текстовых примеров, а в сценарии клонирования голоса — в 68.4% случаев при использовании короткого аудио-образца и 60 текстовых запросов, что подтверждает более высокое качество синтезируемой речи.

Voxtral TTS сочетает авторегрессивное моделирование, методы потокового сопоставления и новый аудиокодек для высококачественного синтеза речи, особенно в задачах клонирования голоса без предварительного обучения.

Синтез речи, сохраняющий естественность и экспрессию, особенно при клонировании голоса на нескольких языках, остается сложной задачей. В данной работе представлена система $Voxtral\,TTS$ , объединяющая авторегрессивное моделирование семантических токенов с методом flow-matching для акустических, что позволяет генерировать реалистичную речь, используя всего 3 секунды эталонного аудио. Ключевым элементом является новый аудиокодек $Voxtral\,Codec$ , обученный с использованием гибридной квантизации VQ-FSQ, обеспечивающей высокое качество синтеза. Сможет ли $Voxtral\,TTS$ стать новым стандартом в области многоязыкового синтеза речи и персонализированного клонирования голоса?

За гранью естественности: Новый подход к токенизации в Voxtral TTS

Традиционные системы синтеза речи (TTS) зачастую сталкиваются с трудностями в достижении естественности и выразительности, что требует использования огромных объемов данных для обучения. В процессе создания реалистичной речи, модели вынуждены одновременно учитывать как семантическое содержание текста, так и мельчайшие акустические нюансы, такие как интонация и тембр голоса. Этот подход приводит к тому, что для качественного синтеза требуется колоссальное количество размеченных данных, что делает разработку и адаптацию таких систем дорогостоящей и трудоемкой задачей. Недостаток данных напрямую влияет на способность модели генерировать разнообразную и эмоционально окрашенную речь, ограничивая ее выразительность и реалистичность.

Система Voxtral TTS преодолевает ограничения традиционных методов синтеза речи, предлагая инновационный подход к токенизации. В отличие от существующих решений, где семантическое содержание и акустические характеристики неразрывно связаны, Voxtral разделяет эти аспекты. Это достигается за счет разработки специального метода токенизации, позволяющего независимо управлять как смыслом передаваемой информации, так и её эмоциональной окраской и тембром голоса. Такое разделение открывает возможности для тонкой настройки выразительности речи и позволяет создавать более естественные и убедительные голосовые образцы, а также значительно упрощает процесс клонирования голоса без необходимости использования огромных объемов обучающих данных.

Разработанный подход обеспечивает беспрецедентный контроль над просодией и тембром речи, открывая возможности для клонирования голоса без предварительного обучения — так называемого “zero-shot” клонирования. В ходе сравнительных испытаний с участием слушателей, система продемонстрировала значительное превосходство над существующими решениями, такими как ElevenLabs Flash v2.5, набрав 68.4% в оценках предпочтений. Это свидетельствует о значительном шаге вперед в создании более естественной и выразительной синтезированной речи, способной имитировать уникальные характеристики человеческого голоса с высокой точностью и реалистичностью.

Voxtral TTS преобразует голосовую референцию длительностью от 3 до 30 секунд и текстовый запрос в аудио, используя кодек для получения семантических и акустических токенов, которые затем декодируются в сгенерированную звуковую волну.

Вскрытие Кодека: Детали Семантики и Акустики

Кодек Voxtral использует сверточный автоэнкодер для сжатия необработанных аудиосигналов в дискретное представление. Этот процесс включает в себя обучение нейронной сети кодировать входные аудиоформы в латентное пространство пониженной размерности, а затем декодировать их обратно. Сверточная архитектура позволяет эффективно обрабатывать временные зависимости в аудиоданных. Дискретизация латентного пространства является ключевым этапом, позволяющим уменьшить объем данных, необходимых для представления аудиосигнала, при сохранении достаточной информации для последующей реконструкции. В результате, необработанные аудиоволны преобразуются в компактное, дискретное представление, пригодное для эффективного хранения и передачи.

Кодек Voxtral объединяет семантические токены, полученные путем дистилляции моделей автоматического распознавания речи (ASR), с акустическими токенами, подвергнутыми точной квантизации с использованием метода Finite Scalar Quantization (FSQ). FSQ представляет собой процесс, при котором непрерывные значения акустических признаков отображаются в дискретный набор уровней, минимизируя объем данных, необходимых для представления звуковой информации. Комбинация семантических и акустических токенов позволяет эффективно кодировать аудио, сохраняя при этом как смысловое содержание, так и детали звуковой текстуры, что способствует снижению битрейта и повышению скорости обработки.

Гибридный подход кодирования Voxtral, объединяющий семантические токены, полученные с помощью автоматического распознавания речи (ASR), и точно квантованные акустические токены с использованием метода Finite Scalar Quantization (FSQ), позволяет значительно снизить объем информации, необходимой для реконструкции аудиосигнала. Такая комбинация обеспечивает сохранение качества звука при одновременном увеличении скорости обработки данных. Снижение информационного потока достигается за счет эффективного представления аудиоинформации в сжатом виде, что положительно сказывается на пропускной способности системы и возможности высокоскоростного вывода данных.

Voxtral Codec использует разделенный семантический VQ-кодбук и акустический FSQ-кодбук, объединяемые для реконструкции, при этом семантические токены дополнительно обучаются с помощью дистилляции из контролируемой модели ASR.

Архитектура и Оптимизация: Ключ к Реальному Времени

Voxtral TTS использует архитектуру, основанную на декодере-тольком трансформаторе для авторегрессивного предсказания последовательностей семантических токенов. Это означает, что модель последовательно генерирует токены, предсказывая следующий токен в последовательности на основе предыдущих токенов и входного текста. В отличие от моделей кодировщик-декодер, такая архитектура позволяет модели сосредоточиться исключительно на генерации, упрощая процесс и повышая эффективность. Авторегрессивный подход позволяет Voxtral TTS генерировать речь с высокой степенью когерентности и естественности, поскольку каждое предсказание основано на всей предыдущей сгенерированной последовательности.

Для генерации высококачественного звукового сигнала в Voxtral TTS используется Flow Matching Transformer. Этот трансформатор предсказывает последовательность акустических токенов, опираясь на состояния, полученные от декодера семантических токенов. Такой подход позволяет условно генерировать акустические признаки, что обеспечивает высокую точность и реалистичность синтезируемой речи, поскольку акустические токены напрямую формируют звуковую волну.

Для значительного повышения производительности Voxtral TTS используются CUDA Graphs и асинхронная потоковая передача данных чанками. Внедрение CUDA Graphs позволило снизить задержку на 47%. Асинхронная потоковая передача обеспечивает эффективное обслуживание, достигая скорости обработки в 1431 символ в секунду на GPU при одновременной обработке 32 запросов. При данных параметрах достигается Real-Time Factor (RTF) равный 0.302, что свидетельствует о возможности синтеза речи в реальном времени.

Увеличение числа итераций NFEs до 8 улучшает метрики схожести диктора и UTMOS, однако дальнейшее увеличение приводит к небольшому ухудшению WER, в то время как повышение CFG монотонно улучшает метрики, но может негативно сказаться на соблюдении исходного текста, согласно оценкам экспертов.

Уточнение Выразительности: Оптимизация Прямых Предпочтений

Для дальнейшего повышения естественности и качества синтезируемой речи, система Voxtral TTS подвергается постобучению с использованием метода Direct Preference Optimization (DPO). Этот подход позволяет модели учиться непосредственно на предпочтениях слушателей, определяя, какая из двух сгенерированных версий звучит более естественно и приятно для восприятия. Вместо традиционных методов обучения с подкреплением, DPO оптимизирует модель, максимизируя вероятность выбора предпочтительной версии речи, что приводит к более реалистичному и выразительному звучанию. Этот процесс тонкой настройки позволяет Voxtral TTS достигать новых высот в качестве синтеза речи, приближая его к естественной человеческой речи.

Для дальнейшего повышения естественности и качества синтезируемой речи, система Voxtral TTS использует метод Direct Preference Optimization (DPO), объединяющий целевые функции как для семантической, так и для акустической предсказательности. Данный подход позволяет модели обучаться непосредственно на основе предпочтений слушателей, что приводит к значительному улучшению воспринимаемого качества звука. По сути, DPO позволяет системе не просто генерировать грамматически верную речь, но и воспроизводить её таким образом, чтобы она звучала более естественно и приятно для человеческого уха, учитывая нюансы произношения и интонации. В результате, речь, синтезированная с использованием DPO, демонстрирует повышенную реалистичность и лучше соответствует ожиданиям пользователей.

Для обеспечения высокой производительности и доступности, разработанная система синтеза речи развернута с использованием фреймворка vLLM-Omni. Эта платформа позволяет эффективно обрабатывать запросы и обслуживать более тридцати одновременных пользователей, не снижая качества генерируемой речи. Такая архитектура обеспечивает масштабируемость и стабильную работу системы даже при пиковых нагрузках, что критически важно для широкого применения в различных сервисах и приложениях, требующих синтеза речи в реальном времени.

В очередной раз наблюдается стремление к совершенству в области синтеза речи. Voxtral TTS, судя по описанию, представляет собой очередной шаг в усложнении архитектур, объединяя авторегрессию, flow matching и новый аудиокодек. Однако, стоит помнить, что даже самая элегантная модель рано или поздно столкнется с ограничениями реальных данных и вычислительных ресурсов. Как справедливо заметила Ада Лавлейс: «То, что мы сейчас называем машиной, может быть применено для выполнения любой операции, для которой можно составить последовательность инструкций.» В данном случае, последовательность инструкций становится всё длиннее и сложнее, а практическая применимость — под вопросом. Нельзя забывать, что главное — не сложность алгоритма, а его способность стабильно работать в продакшене, а значит, неизбежно придётся идти на компромиссы.

Что дальше?

Представленная система Voxtral TTS, несомненно, демонстрирует впечатляющие результаты в области синтеза речи, особенно в сценариях клонирования голоса. Однако, каждое новое «упрощение» жизни неизбежно порождает новый уровень абстракции, и данная работа не является исключением. Авторегрессионное моделирование, flow matching, новый аудиокодек — всё это лишь инструменты, которые рано или поздно потребуют обслуживания. Производство всегда найдёт способ сломать элегантную теорию, и вопрос не в том, насколько хорошо система работает сейчас, а в том, как быстро накопится техдолг.

Очевидно, что усилия в области синтеза речи смещаются в сторону zero-shot клонирования, но истинным вызовом остаётся не столько воспроизведение тембра голоса, сколько передача интонации, эмоций и, что самое сложное, — контекста. Документация, как известно, — это миф, созданный менеджерами, и передать все нюансы произношения через формальные спецификации практически невозможно. Неизбежно возникнет потребность в ещё более сложных моделях, способных учитывать не только текст, но и ситуацию, в которой он произносится.

В конечном итоге, CI — это храм, в котором мы молимся, чтобы ничего не сломалось. И каждое улучшение, направленное на повышение качества синтеза, лишь увеличивает вероятность возникновения новых, более изощрённых ошибок. Поэтому, вместо того чтобы стремиться к идеальному синтезу речи, возможно, стоит сосредоточиться на создании систем, способных эффективно справляться с неизбежным хаосом и неопределённостью.

Оригинал статьи: https://arxiv.org/pdf/2603.25551.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-28 04:44

🚀 Квантовые новости