я могу 
Все гениальное просто!
Машины и Механизмы
Все записи
текст

Кто подставил нейронные сети

Слишком частое упоминание «нейронных сетей» в рекламе, статьях и блогах, которые не имеют к ним отношения, ставит настоящие нейронные сети в незавидное положение – действительно важные новости о них никто не воспринимает всерьез. Но если убрать всю мишуру, становится ясно, что за их жизнью стоят не банки и не попытки привлечь инвесторов в сомнительные проекты. Искусственный интеллект – это про злую математику и почти безграничные возможности: из формул алгоритмы превращаются в мощные рабочие инструменты.
Кто подставил нейронные сети
Воображариум машины

Читая книгу, человек рисует в своем воображении ее героев, пейзажи, целые города – чем больше читателей, тем больше возможных интерпретаций текста. Теперь машины научились делать то же самое. Конечно, это не абстрактное мышление, а буквальное преобразование поданного на вход алгоритму текста в графику. Делают это нейронные сети GAN (Generative adversarial networks – генеративно-состязательные сети). Впервые их описал сотрудник компании Google Ян Гудфеллоу в 2014 году. Алгоритм представляет собой две конкурирующие сети, которые участвуют в «игре с нулевой суммой», то есть согласно теории игр победит только одна, ничья невозможна. Важно, что эта система обучается практически без участия человека. Одна сеть получает на входе набор данных, например, в виде связок «лес – фотография леса» или «ворон – фотография ворона», и на их основе пытается создать требуемый объект: скажем, фотографию, где вороны кружат над лесом. Затем она отдает результат второй сети – та сравнивает его с изначальным набором и возвращает первой что-то вроде рецензии, где отмечает данные с ошибками. Первая сеть изменяет выборку на основе этой информации, и все повторяется по кругу. Фактически, задача первой сводится к тому, чтобы вторая не распознала в сгенерированном объекте «подделку», а задача второй – ее все-таки распознавать. Если система будет писать музыку, то на вход ей подадут отрывки произведений – одна модель сгенерирует свою композицию, а вторая проверит и сообщит первой, насколько та близка к оригиналу. 
Творческие работы GAN-алгоритма, www.hackernoon.comwww.github.com
В результате мы можем получить что угодно. Акварельная картина по описанию? Легко! Фотография с абсурдным или компрометирующим содержанием? Без проблем! Замена одного человека другим на видео? Уже сделано! GAN-алгоритмы могут создавать или модифицировать практически любой контент. Они способны не только рисовать и писать музыку, но также улучшать детализацию объектов на фотографии или компьютерных моделях и восстанавливать поврежденные изображения. 
Схема работы GAN-алгоритма, www.medium.freecodecamp.org

Слоумоушен на ровном месте

Следующий алгоритм не обладает творческими задатками, зато способен изменить частоту любого видеоряда: из 25 кадров в секунду сделать 270! Компания Nvidia опубликовала в Интернете описание алгоритма в конце 2018 года. Сейчас уже есть его реализация в открытом исходном коде – любой может скачать его и опробовать на домашнем видео с котиками. Работа алгоритма проста: он смотрит на два кадра и пытается составить цепочку снимков, которые подошли бы для промежуточного состояния изображения. Цепочку вычисляет сверточная нейронная сеть U-Net. Изначально она использовалась в медицинских исследованиях для сегментации изображений мозга и печени, чтобы визуально разделить части органов. Когда Nvidia экспериментировала с алгоритмом, первые результаты получились не очень качественными: края движущегося объекта на промежуточных кадрах были размазаны. Но оказалось, что достаточно отдавать каждый новый кадр второму U-Net алгоритму, и эффект размытия пропадает. 
Нейронная сеть U-Net обрабатывает изображение, www.medium.com/@keremturgutlu

Сурдопереводчик маминой подруги

Алгоритм LipNet Оксфордского университета читает по губам и распознает слова на специально подготовленных видеоданных с успехом в 93 % против 52 % у людей. При проверке на случайных видео из новостной ленты BBC результат тоже впечатляет: 46 % против 12 % у людей. Интересная особенность алгоритма заключается в том, что он пытается распознать не отдельные слова, а предложения целиком, – это приближено к восприятию речи обычным человеком, так как мы тоже оперируем более крупными единицами. Пока LipNet работает только на данных с англоговорящими людьми, но для многих языков со схожей фонетикой и движениями губ эта сеть подойдет: немецкий, испанский, французский и, может быть, даже русский. Алгоритм разработали в конце 2016 года, но коммерческой реализации он пока не получил. Дело за малым – вложиться в его развитие, чтобы субтитры больше никогда не расходились с тем, что действительно говорят на видео. 
Алгоритм LipNet читает по губам. www.news.developer.nvidia.com

Рабочая лошадка

Система с искусственным интеллектом от интернов компании Google занимается рутиной, которой пренебрегают во многих городах. Она ищет дефекты на дороге и составляет их карту с указанием типа проблемы: ямы, трещины, кривые канализационные люки, выступающие препятствия вроде кучи мусора и пр. Ребята используют платформу TensorFlow от Google с открытым исходным кодом. Первым городом-заказчиком стал Лос-Анджелес. Место для работы нейронной сети отличное: дождей мало, дефекты дороги видны почти всегда, да и Калифорния – территория IT-гигантов. Пока проект находится в стадии прототипа, но разработчики надеются, что им заинтересуются муниципальные службы и городской трафик удастся хотя бы чуть-чуть улучшить. Лос-Анджелес, как бы ни был хорош, остается самым загруженным городом на планете: за 2017 год водители провели в пробках по 102 часа.

1  /  5
Иллюстрация: Henri Campeã, www.behance.net/henricampea
Нейронная сеть может быть обучена сегментировать определенные изображения из хаотичного визуального шума. Например, выделять галактики и звезды в неотчетливых снимках космоса. www.github.com
Пример сегментации мозга. www.arxiv.org/pdf/1801.06457.pdf
Во время говорения разные участки губ изменяются с различной интенсивностью. Алгоритм LipNet выделяет те из них, которые изменились сильнее всего и, соответственно, привлекают наибольшее внимание. На основе выбранных участков (салиентных) алгоритм определ
Студенты устанавлиявают камеру на автомобиль, чтобы отправиться собирать данные. www.blog.google/technology

Технологии

Машины и Механизмы
Всего 0 комментариев
Комментарии

Рекомендуем

OK OK OK OK OK OK OK