На конференции Interspeech 2021 Nvidia представила новую технологию, позволяющую синтезировать реалистичную человеческую речь.
Чтобы нейросеть нельзя было отличить от живого человека, компания создала несколько моделей преобразования текста в речь. Одна из них, ведущая, получила название RAD-TTS.
Технология позволяет обучать модель синтеза речи с помощью собственного голоса. Это даёт ей данные о тональности, тембре и других индивидуальных характеристиках. В итоге нейросеть сможет заговорить любым голосом, просто зачитав готовый текст.
В компании добавили, что их разработка будет полезна, например, для воссоздания голоса знаменитости. Либо стать помощником для людей с функциональными нарушениями голоса.
Демонстрация работы:
Испытать некоторые обученные модели можно через инструментарий Nvidia.
Читайте также:
▪️ Как FDA США дало добро на продажу IQOS, единственной системе нагревания табака, получившей такое разрешение