Кто подставил нейронные сети

Игорь Зубов – 01 марта 2019

Слишком частое упоминание «нейронных сетей» в рекламе, статьях и блогах, которые не имеют к ним отношения, ставит настоящие нейронные сети в незавидное положение – действительно важные новости о них никто не воспринимает всерьез. Но если убрать всю мишуру, становится ясно, что за их жизнью стоят не банки и не попытки привлечь инвесторов в сомнительные проекты. Искусственный интеллект – это про злую математику и почти безграничные возможности: из формул алгоритмы превращаются в мощные рабочие инструменты.

Воображариум машины

Читая книгу, человек рисует в своем воображении ее героев, пейзажи, целые города – чем больше читателей, тем больше возможных интерпретаций текста. Теперь машины научились делать то же самое. Конечно, это не абстрактное мышление, а буквальное преобразование поданного на вход алгоритму текста в графику. Делают это нейронные сети GAN (Generative adversarial networks – генеративно-состязательные сети). Впервые их описал сотрудник компании Google Ян Гудфеллоу в 2014 году. Алгоритм представляет собой две конкурирующие сети, которые участвуют в «игре с нулевой суммой», то есть согласно теории игр победит только одна, ничья невозможна. Важно, что эта система обучается практически без участия человека. Одна сеть получает на входе набор данных, например, в виде связок «лес – фотография леса» или «ворон – фотография ворона», и на их основе пытается создать требуемый объект: скажем, фотографию, где вороны кружат над лесом. Затем она отдает результат второй сети – та сравнивает его с изначальным набором и возвращает первой что-то вроде рецензии, где отмечает данные с ошибками. Первая сеть изменяет выборку на основе этой информации, и все повторяется по кругу. Фактически, задача первой сводится к тому, чтобы вторая не распознала в сгенерированном объекте «подделку», а задача второй – ее все-таки распознавать. Если система будет писать музыку, то на вход ей подадут отрывки произведений – одна модель сгенерирует свою композицию, а вторая проверит и сообщит первой, насколько та близка к оригиналу.

Творческие работы GAN-алгоритма, www.hackernoon.com, www.github.com

В результате мы можем получить что угодно. Акварельная картина по описанию? Легко! Фотография с абсурдным или компрометирующим содержанием? Без проблем! Замена одного человека другим на видео? Уже сделано! GAN-алгоритмы могут создавать или модифицировать практически любой контент. Они способны не только рисовать и писать музыку, но также улучшать детализацию объектов на фотографии или компьютерных моделях и восстанавливать поврежденные изображения.

Схема работы GAN-алгоритма, www.medium.freecodecamp.org

Слоумоушен на ровном месте

Следующий алгоритм не обладает творческими задатками, зато способен изменить частоту любого видеоряда: из 25 кадров в секунду сделать 270! Компания Nvidia опубликовала в Интернете описание алгоритма в конце 2018 года. Сейчас уже есть его реализация в открытом исходном коде – любой может скачать его и опробовать на домашнем видео с котиками. Работа алгоритма проста: он смотрит на два кадра и пытается составить цепочку снимков, которые подошли бы для промежуточного состояния изображения. Цепочку вычисляет сверточная нейронная сеть U-Net. Изначально она использовалась в медицинских исследованиях для сегментации изображений мозга и печени, чтобы визуально разделить части органов. Когда Nvidia экспериментировала с алгоритмом, первые результаты получились не очень качественными: края движущегося объекта на промежуточных кадрах были размазаны. Но оказалось, что достаточно отдавать каждый новый кадр второму U-Net алгоритму, и эффект размытия пропадает.

Нейронная сеть U-Net обрабатывает изображение, www.medium.com/@keremturgutlu

Сурдопереводчик маминой подруги

Алгоритм LipNet Оксфордского университета читает по губам и распознает слова на специально подготовленных видеоданных с успехом в 93 % против 52 % у людей. При проверке на случайных видео из новостной ленты BBC результат тоже впечатляет: 46 % против 12 % у людей. Интересная особенность алгоритма заключается в том, что он пытается распознать не отдельные слова, а предложения целиком, – это приближено к восприятию речи обычным человеком, так как мы тоже оперируем более крупными единицами. Пока LipNet работает только на данных с англоговорящими людьми, но для многих языков со схожей фонетикой и движениями губ эта сеть подойдет: немецкий, испанский, французский и, может быть, даже русский. Алгоритм разработали в конце 2016 года, но коммерческой реализации он пока не получил. Дело за малым – вложиться в его развитие, чтобы субтитры больше никогда не расходились с тем, что действительно говорят на видео.

Алгоритм LipNet читает по губам. www.news.developer.nvidia.com

Рабочая лошадка

Система с искусственным интеллектом от интернов компании Google занимается рутиной, которой пренебрегают во многих городах. Она ищет дефекты на дороге и составляет их карту с указанием типа проблемы: ямы, трещины, кривые канализационные люки, выступающие препятствия вроде кучи мусора и пр. Ребята используют платформу TensorFlow от Google с открытым исходным кодом. Первым городом-заказчиком стал Лос-Анджелес. Место для работы нейронной сети отличное: дождей мало, дефекты дороги видны почти всегда, да и Калифорния – территория IT-гигантов. Пока проект находится в стадии прототипа, но разработчики надеются, что им заинтересуются муниципальные службы и городской трафик удастся хотя бы чуть-чуть улучшить. Лос-Анджелес, как бы ни был хорош, остается самым загруженным городом на планете: за 2017 год водители провели в пробках по 102 часа.