Российская нейросеть научилась оцифровывать рукописный текст

Вячеслав Ларионов – 02 июня 2020

Для оцифровки старых бумажных документов российские разработчики создали специальный алгоритм искусственного интеллекта. Сейчас разработку тестируют сотрудники одной из страховых компаний.

Если тестирование алгоритма пройдёт успешно, его планируется внедрять повсеместно. Алгоритм работает при участии нескольких нейронных сетей, каждая из которых решает определённые задачи на разных этапах обработки текста.

Сначала документ, который необходимо перевести в цифровой вид, классифицируется, затем подключается нейросеть, определяющая его структуру, далее третья «нейронка» преобразовывает данные из документа в готовый цифровой текстовый файл. К сожалению, даже три нейронных сети, управляемых продвинутым алгоритмом, не способны сделать всю работу самостоятельно, поэтому у них без участия оператора частенько возникают ошибки при распознавании.

Сложнее всего работать с бумагами, где надписи выходят за поля и других нарушениях правил распознавания, но, к счастью, такой процент документов невелик, потому его при желании можно обработать и вручную. Алгоритм разработан компанией Dbrain, которая уже предоставила её для тестирования нескольким компаниям в сфере страхования и энергетики. Уже сейчас на обработку одного типового бланка или документа алгоритм тратит не более трёх минут.

Сотрудники приходится лишь сканировать и сохранять документ, с которым в данный момент работает новая система распознавания. Ожидается, что такая нейросеть уже в ближайшем будущем поможет существенно улучшить документооборот, значительно сократив объём бумажной волокиты.

Фото: Pixabay