Системы автоматического распознавания речи делают больше ошибок при обработке речи темнокожих людей

Светлана Белякова – 24 марта 2020

Согласно новому исследованию, технология, используемая в системах автоматического распознавания речи, делает в два раза больше ошибок при интерпретации слов, произнесенных темнокожими людьми.

Ученые проводили эксперименты, используя системы Amazon, IBM, Google, Microsoft и Apple. Тесты были проведены прошлой весной, и речевые технологии, возможно, уже обновлены. Исследователи протестировали системы распознавания речи каждой компании, используя более чем 2000 записей речи из интервью с темнокожими и белыми людьми.

Результаты показали, что все пять технологий в два раза чаще ошибались при распознавании речи темнокожих людей. Ошибки происходили даже когда говорящие были сопоставимы по полу и возрасту, и когда они говорили одни и те же слова. В среднем, системы неправильно понимали 35 процентов слов, произнесенных темнокожими людьми, и 19 процентов слов, произнесенных белыми людьми. Частота ошибок была самой высокой среди афроамериканцев, а различия были выше среди говорящих с афроамериканским акцентом.

Ученые провели и дополнительные тесты. Они протестировали тысячи записей речи в среднем по 15 секунд, чтобы подсчитать, как часто технологии не распознают половину слов. Этот недопустимо высокий уровень ошибок имел место в более чем 20 процентах записей голосов темнокожих людей, и менее двух процентов записей белых людей.

Ученые пришли к выводу, что, хотя исследование было сосредоточено исключительно на различиях между темнокожими и белыми американцами, подобные проблемы могут возникнуть у людей, говорящих на неродном языке.

Фото: CC0 Public Domain