Microsoft создала реалистичного диктора на основе алгоритма ИИ

Вячеслав Ларионов – 27 мая 2019

Программа способна быстро обучаться, а её искусственный голос почти неотличим от настоящего.

Преобразование текста в голос становится всё более убедительным, но проблемы всё ещё остаются. Чтобы заставить искусственный голос звучать естественно, разработчики тратят тысячи часов на обучение и «доведение до ума» созданных для этого алгоритмов. Но, похоже, в Microsoft приблизились к решению этой проблемы.

Редмондские специалисты создали особый алгоритм, способный генерировать реалистичную речь, основываясь всего на 200 семплах, общей длиной около 20 минут, и заданных правилах транскрипции.

В работе система частично полагается на нейросети глубокого обучения, эмулирующие мозговые нейроны. Нейронные сети обрабатывают каждый ввод и вывод «на лету», помогая алгоритму почти идеально воспроизводить даже длинные предложения, а в её «голосе» с трудом можно уловить интонации робота.

Система, разработанная Microsoft, не требует сложных настроек и больших вложений, поэтому ей смогут воспользоваться даже небольшие компании и энтузиасты для внедрения реалистичных голосов в свои приложения.

Фото: Altaf Qadri