人工智能换脸技术的利弊探讨,AI换脸技术原理

文章来源：VentureBeat，arXiv

智东西4月20日消息，AI换脸并不新鲜，手机APP市场上有不少换脸的APP，此前也有互联网IP在明星脸上伪造色情电影，甚至在选举过程中在选民脸上制造虚假视频信息

为了避免滥用Deepfake带来的恶性结果，很多研究者打算利用AI技术开发鉴定分类器。

但是，谷歌公司和加州大学伯克利分校的研究人员最近的研究表明，以目前的鉴定技术水平，还不足以100%分辨出AI变脸的作品。由加州大学圣地亚哥分校主导的另一项研究也得出了同样的结论。

这些研究结果给我们敲响警钟，要警惕AI变脸制造的虚假信息。

目前谷歌和加州大学伯克利分校的研究发表在学术网站arXiv上，论文标题为《用白盒、黑盒攻击绕过Deepfake图像鉴别工具（Evading Deepfake-Image Detectors with White- and Black-Box Attacks）》

论文链接： https://arxiv.org/pdf/2004.00622.pdf

实现3358www.Sina.com/ai人脸交换的技术称为Deepfake，原理是基于对抗网络(generative adversarial networks，GAN )的生成合成伪图像。 GAN由生成网络和判别网络构成。

GAN模型的学习过程是生成网络与判别网络的相互博弈的过程。生成网随机合成一张图像，让判别网判断该图像的真伪，根据判别网的反馈不断提高“伪”能力，最终以假乱真。

研究人员测试了三个分类器，其中两个是第三方分类器，一个是研究人员训练的核对用分类器。

选择的第三方识别器分别采用两种不同的训练方式。

第一个分类器模型基于深度残差网络resnet-50(deepresidualnetwork )。

使用的ResNet-50预先在大型视觉数据库ImageNet中进行训练，然后为了判别真伪图像而进行训练。采用包含720000个训练图像、4000个验证图像的训练集，其中一半是真实图像，另一半是由ProGAN生成的合成图像。合成图像采用空间模糊和JEPG压缩方法增强。

经过训练后，该分类器可以准确识别ProGAN生成的图像，并对其他未被发现的图像进行分类。

第二种辨识分类器采用基于相似性学习(similar learning-based )的方法。受过训练的这个鉴别器可以正确地识别由不同生成器合成的图像。

研究小组还独自建立了鉴定分类器模型，作为前述两个鉴定分类器的对照例。该分类器使用100万个ProGAN生成的图像进行训练，其中真伪图像各占一半。论文指出，该分类器的训练流水线比上述两种简单得多，因此错误率也较高。

研究人员根据分类器是否释放了访问权限，选择了不同的攻击方式。对开发访问权限分类器采用白盒攻击；对不开放访问权限的分类器采用黑匣子攻击。

另外，使用接收者操作特性曲线ROC曲线]评价了分类器的正确率。评价基准为曲线下面积(AUC )的大小。 AUC的取值范围为0~1，一般AUC0.5表示分类器有预测价值，AUC值越大表示分类器的精度越高。

针对实验准备：训练3种分类器，设置对照组开放访问权限的分类器，研究人员通过白盒攻击评估了其稳健性。

白盒攻击是指攻击者知道分类器使用的算法和算法使用的参数。在生成抗性攻击数据的过程中，攻击者可以与分类器系统进行交互。

用于攻击的所有图像都来自包含94036张图像的可视数据库。

在开始白盒攻击之前，基于该数据库的分类器的AUC值为0.97。即使在运行常规清洗策略以隐藏图像合成痕迹后，分类器的AUC值仍将保持0.94或更高。

其次，研究人员使用了4种白盒攻击方法。这四种攻击在前面的对抗性的例子中已经被研究。攻击的具体方法是修改图像，使分类器误认为它们是真的。

4种攻击前后，分类器的ROC图表。蓝色实线表示JPEG格式的合成图像，蓝色虚线表示PNG格式的合成图像

一是失真最小化攻击，即在合成图像中加入小的加法扰动。假设某个合成图像x先被识别器判定为假，加上扰动后，(x )被判定为真。

结果表明，像素反转2%时，71.3%的伪图像被误判定为真；像素反转4%时，89.7%的伪图像被误判定为真；如果像素反转4 %到4~11%，则所有假图像都将被错误地确定为真。

a )分类器将假图像识别为真； )分类器将真实图像识别为假。反转1%的像素后，一半的假图像被判定为真；如果将像素反转7%，则一半的真实图像将被判定为假。

二是损失最大化攻击(Loss-Maximi )

zing Attack），即定义一个更简单的目标函数，更大限度地提升合成图像被判定为真的概率。

结果显示把未压缩图像的像素翻转40%，AUC值就会从0.966降到0.27。

第三种是通用对抗性补丁攻击（Universal Adversarial-Patch Attack）。失真最小化攻击方法有有一个局限性：攻击者需要花费0.1秒为每个图像定制攻击方式。为了弥补这一局限性，研究人员创建了一个单一的可视噪声模板补丁。这个补丁可以叠加在任何假图像上，有效增加了假图像的迷惑性。

叠加补丁后，分类器的AUC值从0.966降到0.085。

不同于之前三种方法通过对假图像施加扰动来影响分类结果，第四种攻击方法是通用潜空间攻击（Universal Latent-Space Attack），即对图像的潜在空间进行攻击。最终把分类器的AUC值从0.99降到0.17。

▲a为通用对抗性补丁攻击效果，b~d为通用潜空间攻击效果。图中所有假图像都被分类器误判为真

限制条件进行黑盒攻击，AUC值降至0.22以下

论文指出，现实中的社交网站、约会网站等，并不会公开其鉴定分类器的算法，因此很难进行前面所说的白盒攻击。

面对这种情况，研究人员进行了黑盒攻击。黑盒攻击假设对方知道攻击的存在，并且掌握了一般的防御策略。

研究结果显示，即使在这种限制性较强的黑盒攻击条件下，鉴定分类器也很容易受到对抗性因素影响。经过黑盒攻击，分类器的AUC数值下降到0.22以下。

结语：现有分类器有局限性，仍需深入研究

谷歌公司和加州大学伯克利分校研究团队证明，只要对虚假图片适当加以处理，就能使其“骗”过分类器。

这种现象令人担忧，论文中写道：“部署这样的分类器会比不部署还糟糕，不仅虚假图像本身显得十分真实，分类器的误判还会赋予它额外的可信度”。

因此，研究人员建议开创新的检测方法，研究出可以识别经过再压缩、调整大小、降低分辨率等扰动手段处理的假图像。

据悉，目前有许多机构正在从事这一工作，如脸书、亚马逊网络服务及其他机构联合发起了“Deepfake鉴别挑战”，期待能探索出更好的解决方案。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

人工智能换脸技术的利弊探讨,AI换脸技术原理

Published by

风君子

发表回复取消回复

最新文章

标签

书签

Published by

风君子

发表回复 取消回复

最新文章

标签

书签

发表回复取消回复