Новый способ оптимизации качества голосового общения, основанный на машинном обучении

Качество дистанционной голосовой коммуникации зависит от подавления фонового шума. Шумоподавление при этом не должно искажать голос говорящего человека. Подходы к оптимизации голосовой коммуникации, основанные на глубоком обучении, способны эффективно подавлять посторонний шум.

Однако существуют такие ситуации, когда фоновый шум вызван не окружающей средой, но сгенерирован самими коммуникационными системами. Часто этот шум значительно искажает речь говорящего, что влияет на качество голосовой беседы.

Исследователи из Института акустики при Академии наук Китая задумались над этой проблемой и попытались найти ее решение. Результатом их работы стала система улучшения качества голосового общения, способная контролировать не только уровень внешнего (фонового) шума, но и тех помех, которые возникают искусственно в самих коммуникационных системах.

Исследователи разработали подход, целью которого являются одновременно максимизация шумоподавления и минимизация искажения голосовой речи — причем обе эти опции должны контролироваться в соотношении друг с другом, а не по отдельности. Этот подход призван значительно улучшить качество голосовой коммуникации.

В теории статистических решений и машинном обучении существует так называемая функция потерь — она характеризует потери при неправильных решениях, которые принимаются на основе наблюдаемых данных. Например, при оценке параметра сигнала, имеющего помехи в качестве фона, функция потерь — это мера расхождения между истинным значением оцениваемого параметра и самой оценкой параметра. Свой метод оптимизации голосового общения ученые разработали с пониманием минусов этой функции потерь.

Ученые применили метод, основанный на оптимизации гиперпараметров — этот метод решает задачу выбора оптимальных гиперпараметров для обучающего алгоритма. Те или иные виды машинного обучения могут, в зависимости от видов данных, требовать использование совершенно различных параметров — предположений, веса или скорости обучения. Эти параметры и называются гиперпараметрами и от их настройки зависит успех модели в решении задач обучения.

Для решения поставленной задачи ученые поработали с оптимизацией нескольких гиперпараметров, связанных с голосовым общением. Они настроили свою систему так, чтобы речь при голосовом общении слышалась лучше и качественнее, а фоновый шум и внутренние помехи подавлялись.

Протестировав новую систему, ученые пришли к выводу, что она работает намного лучше всех предыдущих. Новая система будет использоваться в сфере голосовой коммуникации (при создании девайсов) и работы с речевой информацией, где требуются качественные системы шумоподавления.

фото: CC0 Public Domain

Это новость от журнала ММ «Машины и механизмы». Не знаете такого? Приглашаем прямо сейчас познакомиться с этим удивительным журналом.

Наш журнал ММ