「蚂蚁呀嘿」克星来了！中科院23岁博士生开发「听音识人」，准确率近90%-技术圈

来源：arxiv

编辑：LRS

看脸和声音是否匹配，这种黑科技如今走向了现实。中科院计算所23岁的博士生温佩松主导开发出一种「听音识人」的 AI 技术，只需1秒就能将声音和正确人脸进行匹配，准确率接近 90%。

「AI换脸」技术实际上蕴含着巨大的风险，只需上传一张照片，就可以让你的脸随着音乐蚂蚁呀嘿，欢乐的同时，也让人无从判断视频的真伪。

阿里安全图灵实验室的资深算法专家认为这项工作能够有效地降低伪造视频的风险，帮助公众进行辨别，保护用户的财产和信息安全。目前该研究成果已被 CVPR2021接收。

据温博士说，灵感来源于一个综艺节目，节目里川大教授听声音就可以判断长相。

经过调研以后，发现事情可行，当即开展了工作，主要研究方法就是找数据，搭模型。

主要创新点在于

1、引入一个两阶段模态对齐的损失函数，把局部信息和全局信息都引入进来

2、引入动态 reweighting 模式来发现不同对象之间的多样性

对于不同的匹配对来说，难度也是不同的（声优伪装？）。

主要的模型架构也是首先对face和voice分别进行编码，然后通过三个损失函数进行训练。

用到的数据集主要从VoxCeleb和VGGFace中构造。

道高一尺魔高一丈，如今声音也是可以通过模拟，例如高德导航的各种明星语音，也许未来还会有更强大技术的出现来对抗。

参考资料：

https://arxiv.org/pdf/2103.07293.pdf

https://m.weibo.cn/3266943013/4627997305080541