Исследователи Пермского Политеха разработали модель генерации текста

В настоящее время в некоторых сферах невозможно обойтись без автоматической генерации контента. Электронная рассылка писем, отзывы о товаре, релевантные заголовки и отдельные абзацы для статей — все это работа сервисов, которые создают различный текстовый контент.

Фото: Pixabay

Исследователи Пермского Политеха на базе матричного комбинаторного алгоритма разработали модель программы генерации слов, предложений и текста. Технология применима для языков, письменность которых основана на латинском и кириллическом алфавитах.

Результаты работы опубликованы в журнале «Austria science».

По словам автора программы, алгоритм, который применяется в модели, является функциональным и генерирует все слова из букв по математическим правилам комбинаторики и матричного исчисления.

Так, для русского алфавита формирование предложений начинается с составления двухбуквенных слов. Затем путем умножения строки на каждый столбец матрицы получается полная система абсолютно всех трехбуквенных слов. Выходит, базис матриц образует все множество слов данного алфавита.

После генерации всех вариантов слов путем подключения словарей выделяются и оставляются в матрице только те, которые подходят по смыслу в определенный момент. Остальные, не подходящие по лексическому значению слова считаются нулями и по умолчанию не выдаются системой. После добавления точки или пробела в полученные ранее базис формируются предложения.

Такой иерархический матричный базис решает проблему визуализации и одновременно фиксирует место каждого слова и предложения в тексте. Это открывает путь к созданию информационной технологии для анализа, сравнения и распознавания текстов различных авторов и их идентификации.

— Стоит отметить, что предложенный программный матричный генератор текста превосходит все природные генераторы (писатели) и может быть использован в системе искусственного интеллекта. Однако человеческий текстовый генератор обладает меньшей избыточностью за счет использования омонимов и других трудных для понимания матрицы лексических значений, — рассказал доцент кафедры общей физики Вячеслав Кирчанов.

По словам политехника, в конечной перспективе искусственный интеллект, обладая абсолютно всеми словами определенного языка, опираясь на иерархические базисы слов и предложений, привнося смысл в новые слова, будет писать тексты, статьи, книги и другую печатную продукцию.


Это новость от журнала ММ «Машины и механизмы». Не знаете такого? Приглашаем прямо сейчас познакомиться с этим удивительным журналом.

Наш журнал ММ