Становится слишком просто создать фейковое видео с лицом человека

Антон Шилка – 28 мая 2019

Исследователи из компании Samsung разработали алгоритм, которому нужно всего лишь одно исходное изображение для создания поддельного видео.

Исследователи из Московского Центра Искусственного Интеллекта Samsung разработали способ создания «живых портретов», при котором используется очень маленький набор данных— бывает достаточно лишь одной фотографии.

Научная статья с названием «Few-Shot Adversarial Learning of Realistic Neural Talking Head Models» была опубликована на препринтовом сервере arXiv в понедельник.

Исследователи называют этот способ много- и однокадровым обучением — модель «обучается», используя всего лишь одно изображение для создания очень реалистичного анимированного портрета. Если добавить еще данных — от восьми до тридцати двух изображений — портрет становится еще реалистичнее.

Исследователи взяли только одно изображение, и им удалось добиться впечатляющих результатов — они успешно анимировали известные фото- и живописные портреты. Федор Достоевский, умерший задолго до изобретения видеокамеры, говорит и двигается в монохроме. Мона Лиза двигает глазами и ртом с легкой улыбкой на лице. Сальвадор Дали разговаривает, колыхая усами.

Все эти «фотореалистичные модели говорящих голов» созданы с использованием сверточных нейронных сетей: исследователи «натренировали» алгоритм на большом массиве данных, в котором содержатся видео «говорящих голов» самой разнообразной внешности. В нашем случае использовалась база данных VoxCeleb, которая находится в открытом доступе. В ней содержатся более 7000 изображений знаменитостей, взятых из видео на YouTube.

На основе этой базы данных программа учится определять «ориентиры» на человеческом лице: глаза, линию рта, длину и форму переносицы.

В каком-то смысле это исследование является грандиозным скачком вперед по сравнению даже с deepfakes и прочими алгоритмами, использующими генеративные состязательные сети. Вместо того, чтобы обучать алгоритм слепо копировать разные выражения лица одного и того же человека, используются черты лица, которые часто встречаются у разных людей, чтобы затем анимировать новое лицо.

Исследователи указывают в статье на то, что они видят основное применение технологии по созданию реалистичных лиц-аватаров в видео-конференциях, видеоиграх и для спецэффектов в кино — но «эффект Зловещей Долины» задерживает развитие технологии и не дает ей массово распространиться. Они надеются, что этот проект изменит ситуацию, учитывая его низкие потребности в данных и «абсолютный реализм».

Взято и переведено с Vice.com