Становится слишком просто создать фейковое видео с лицом человека

Исследователи из компании Samsung разработали алгоритм, которому нужно всего лишь одно исходное изображение для создания поддельного видео.

3412 0 0

отправить по e-mail

Становится слишком просто создать фейковое видео с лицом человека.

Исследователи из Московского Центра Искусственного Интеллекта Samsung разработали способ создания «живых портретов», при котором используется очень маленький набор данных— бывает достаточно лишь одной фотографии.

Научная статья с названием «Few-Shot Adversarial Learning of Realistic Neural Talking Head Models» была опубликована на препринтовом сервере arXiv в понедельник.

Исследователи называют этот способ много- и однокадровым обучением — модель «обучается», используя всего лишь одно изображение для создания очень реалистичного анимированного портрета. Если добавить еще данных — от восьми до тридцати двух изображений — портрет становится еще реалистичнее.

Исследователи взяли только одно изображение, и им удалось добиться впечатляющих результатов — они успешно анимировали известные фото- и живописные портреты. Федор Достоевский, умерший задолго до изобретения видеокамеры, говорит и двигается в монохроме. Мона Лиза двигает глазами и ртом с легкой улыбкой на лице. Сальвадор Дали разговаривает, колыхая усами.

Все эти «фотореалистичные модели говорящих голов» созданы с использованием сверточных нейронных сетей: исследователи «натренировали» алгоритм на большом массиве данных, в котором содержатся видео «говорящих голов» самой разнообразной внешности. В нашем случае использовалась база данных VoxCeleb, которая находится в открытом доступе. В ней содержатся более 7000 изображений знаменитостей, взятых из видео на YouTube.

На основе этой базы данных программа учится определять «ориентиры» на человеческом лице: глаза, линию рта, длину и форму переносицы.

В каком-то смысле это исследование является грандиозным скачком вперед по сравнению даже с deepfakes и прочими алгоритмами, использующими генеративные состязательные сети. Вместо того, чтобы обучать алгоритм слепо копировать разные выражения лица одного и того же человека, используются черты лица, которые часто встречаются у разных людей, чтобы затем анимировать новое лицо.

Исследователи указывают в статье на то, что они видят основное применение технологии по созданию реалистичных лиц-аватаров в видео-конференциях, видеоиграх и для спецэффектов в кино — но «эффект Зловещей Долины» задерживает развитие технологии и не дает ей массово распространиться. Они надеются, что этот проект изменит ситуацию, учитывая его низкие потребности в данных и «абсолютный реализм».