你好，这是微视AI还原的李焕英-技术圈

看，李焕英这亲切的笑容、明亮的眼眸，是否与银幕上那个她一样有感染力？

你的长辈年轻时，又是否像这张老照片里的人一样，剑眉星目，神采飞扬：

要说最近最火的AI玩法，那真是非腾讯微视“会动的老照片”这类特效莫属。

表情迁移技术与基于GAN的老照片修复技术强强联合，给人一种打开了时光机的感觉，仿佛真的能与老照片里的人隔空对话，追忆往昔。

并且用户无需任何加工，只需在微视APP里上传一张照片，不到一分钟，都能亲自开启这样的“时间魔法”。

这不，一经上线，就吸引了15万用户体验，视频播放量高达5800万。

更有不少网友在看到这样特效后直接泪目：

麻瓜的魔法

说起来，让照片动起来的“魔法”，在2019年就曾带起一波时尚风潮，令网友直呼“哈利波特”。

比如，来自意大利特伦托大学的一篇NeurIPS 2019论文，就介绍了一种名为一阶运动模型（First Order Motion Model）的方法。

通过运动估计模块和图像生成模块，这个AI能让川建国和《冰与火之歌》里的史塔克们实现眨眼、摇头神同步。

除了“会动的老照片”，基于这类技术，腾讯微视上还能这样玩：

一键让清朝皇帝们齐唱画画的baby。

而围绕图像生成，AI这种麻瓜的魔法能实现的效果，当然还不止如此。

正如前文所提到的，要实现“会动的老照片”这一特效，除了动态的部分，在提升清晰度方面，也少不了GAN的功劳——这也是近年来人脸特效方面最热的课题之一。

单单基于GAN，腾讯微视上就还有这样的玩法：

做人嘛，最重要就是开心。对着镜头笑不出来？AI分分钟帮你打造完美笑容。

减龄10岁，也不在话下。

还能秒变欧美脸。

不过，虽然以上方法相关的开源代码不少，但想把它集成到一个手机App里，仍然需要在算法优化和工程实践上下功夫打磨。

具体腾讯微视是如何实现的呢？

首先，在生成模型方面，技术团队针对不同场景，先后研发迭代了三种大模型：

在非成对数据比较丰富的场景下，基于CycleGAN思想，打造能够实现有条件生成的Cycle-StyleGAN模型。

在只有少量非成对数据的真实人脸生成场景中，采用基于隐向量的属性编辑思想，利用如StyleGAN这样的预训练生成模型，在隐向量空间中找出代表目标属性的方向向量，以实现对眉毛、眼睛这样的面部属性的控制。

而在只有少量非成对数据的风格化场景中，技术团队提出了基于小样本的模型融合方法。主要思想是，在收集的少量数据上对预训练模型进行微调，然后，将微调后的模型与原始模型融合得到一个混合模型，这样，该模型既能生成目标风格的图片，又兼具原始预训练模型强大多样的生成能力。

而在动作迁移方面，技术团队实现了实时的轻量化人脸动作迁移。

具体而言，在大模型层面，技术人员借鉴Monkey-Net和一阶运动模型等所采用的基于关键点轨迹的反向光流预测方法，先以无监督形式估计每一对关键点的位置，得到稀疏动作光流，再预测加权掩膜得到稠密动作光流。

而为了实现更强的变形能力和动作建模能力，技术人员还引入了透视变换项，使得稀疏动作光流可以学习到更加复杂的变换类型。

而为了实现手机端的实时推断，技术团队还进行了小模型层面的优化：

网络结构优化。对于模型中的各个模块，借鉴GhostNet分别设计相应的小模型结构，从而将模型大小缩减99.2%，GFLOPs降低97.7%。
分阶段蒸馏训练。如果直接从零开始训练小模块，模型将无法收敛，主要是因为模块之间为串行关系，前者的输出将作为后者的输入，因此需要采取分阶段训练的策略。同时，引入知识蒸馏的思想，使得小模型可以成功学习到大模型的能力。
工程优化。例如缓存模型当中，需要重复使用的一些常量、优化代码逻辑、节省推断时无需重复进行的步骤等。同时，手机端的部署和实时推理均借助腾讯自研的TNN推理框架实现，测试结果显示，对比其他框架，在大部分场景下TNN具有一定提速增效的优势。

相关技术人员还透露，针对不同配置的手机，他们进行了有针对性的分档优化。从效果上来看，即使是配置较低的千元机，也能以15FPS以上的帧率流畅运行老照片修复这样的特效。