Не секрет, что ИИ-системы обработки естественного языка в абсолютном большинстве случаев применяются в отношении европейских языков. Азиатские языки также входят в фокус таких систем. Многие другие языки остаются вытесненными. Меньше всего внимания специалистов вычислительных технологий получают африканские языки. Учёные из Университета Ватерлоо решили восполнить этот пробел, разработав систему анализа естественного языка применительно к текстам на африканских языках.
Новая нейросеть AfriBERTa задействует технологию машинного обучения, что позволяет ей обрабатывать информацию на языках, радикально отличных от привычных европейских. Модель способна работать с 11 африканскими языками, в числе которых суахили, хауса и амхарский. На этих языках говорит более 400 миллионов людей.
Качество вывода модели сравнимо с таковым у работающих с европейскими и азиатскими языками аналогов. При этом AfriBERTa имеет превосходство: для того, чтобы провести анализ естественного языка ей достаточно всего одного гигабайта текста, тогда как другие модели требуют намного большего количества вводных данных.
Но как AfriBERTa удаётся достигать такой эффективности, работая с языками, о которых у специалистов вычислительных технологий не так много данных? Всё дело в подходе, известном как предобучение. В случае с новой нейросетью оно заключалось в загрузке в неё ограниченного количества данных: предложений или фраз, некоторые слова в которых были скрыты. Машина обучалась обнаруживать связи между разными частями предложения. Процедура была повторена несколько миллиардов раз, после чего модель смогла полноценно угадывать статистические ассоциации между словами (что отчасти напоминает и человеческое обучение языку).
Создатели AfriBERTa подчёркивают, что новая нейросеть — небольшой, но значительный шаг в преодолении вытеснения африканских языков за пределы области обработки текстовой информации.
Фото: Pixabay
Это новость от журнала ММ «Машины и механизмы». Не знаете такого? Приглашаем прямо сейчас познакомиться с этим удивительным журналом.