Ученые чикагского университета создали нейросеть, которая имитирует человеческую речь настолько точно, что вводит в заблуждение других людей и даже системы анализа голоса.
К созданию такой нейросети, ученых привел вопрос — на сколько хорошо работают системы распознавания голоса. К примеру, многие умные колонки опознают владельца по голосу, в аккаунт в WeChat можно войти, если сказать определенную фразу. Ведь разработчики систем анализа голоса исходят из того, что каждый человек имеет уникальный и неповторимый тембр. Также авторы исходили из ситуации, когда у злоумышленника есть доступ к образцам голоса жертвы. Это могут быть публичные аудио и видеозаписи, а также возможность поговорить с жертвой для получения образца голоса.
Общая длина записей была около 5 минут. После этого, ученые использовали нейросети из открытых источников: SV2TTS и AutoVC. Для обучения моделей авторы использовали записи речи 90 людей из трех публичных датасетов: VCTK, LibriSpeech и SpeechAccent.
Наиболее удачно отработала модель SV2TTS и датасет VCTK. Для Resemblyzer доля успешных атак составила 50,5 ± 13,4%, для Azure — 29,5 ± 32%.
При тестировании голосового помощника Alexa и входа в WeChat, ученые привлекли 14 добровольцев. Сперва были обучены нейросети своему голосу, а потом тестировали на искусственных записях. По итогу результаты такие: Alexa была обманута всеми, а в WeChat смогли зайти 9 из 14 человек. При тестировании на людях, они не смогли отличить синтезированную запись от настоящей в половине случаев.