↑ 点击蓝字关注极市平台

作者丨Zhouyong Liu 等

来源丨机器之心

编辑丨极市平台

极市导读

近日，来自东南大学的研究者提出了一种新型的端到端架构名称为卷积Transformer,用于视频帧序列学习和视频帧合成。研究者表示，这是卷积神经网络与 Transformer 首度结合用于视频帧合成。 >>感谢CV开发者一路以来对我们的支持，前往文末即可领取【极市】双12福利！

深度卷积神经网络（CNN）是功能非常强大的模型，在一些困难的计算机视觉任务上性能也很卓越。尽管卷积神经网络只要有大量已标记的训练样本就能够执行，但是由于物体的变形与移动、场景照明变化以及视频序列中摄像头位置的变化，卷积神经网络在视频帧合成方面的表现并不出色。

近日，来自东南大学的研究者提出了一种新型的端到端架构，称为卷积 Transformer（ConvTransformer），用于视频帧序列学习和视频帧合成。ConvTransformer 的核心组件是文中所提出的注意力层，即学习视频序列序列依赖性的多头卷积自注意力。ConvTransformer 使用基于多头卷积自注意力层的编码器将输入序列映射到特征图序列，然后使用另一个包含多头卷积自注意层的深度网络从特征图序列中对目标合成帧进行解码。

在实验阶段的未来帧推断任务中，ConvTransformer 推断出的未来帧质量媲美当前的 SOTA 算法。研究者称这是 ConvTransformer 架构首次被提出，并应用于视频帧合成。

论文地址：https://arxiv.org/abs/2011.10185

卷积 Transformer 架构

如图 2 所示，ConvTransformer 的整体网络 G_θG 有 5 个主要组件：特征嵌入模块 F_θF、位置编码模块 P_θP、编码器模块 E_θE、查询解码器模块 D_θD 和综合前馈网络 S_θS。

首先，特征嵌入模块嵌入输入的视频帧，然后生成表示性特征图。随后，将每个帧提取出的特征图与位置图相加，用于位置识别。然后，将位置帧特征图作为输入传递给编码器，以利用视频序列中每一帧之间的长距离序列依赖性。得到编码的高级特征图之后，将高级特征图和位置帧查询同时传递到解码器中，然后查询帧和输入视频序列之间的序列依赖性将被解码。最后，解码的特征图被馈入综合前馈网络（SFFN）以生成最终的中间插值帧或推断帧。

实验

在实验部分，研究者通过与几种 SOTA 方法进行比较来评估所提出的 ConvTransformer。最后该研究还进行了控制变量实验，以验证 ConvTransformer 中每个组件的优势和有效性。

为了创建视频帧序列的训练集，该研究利用来自 Vimeo90K 数据集的帧序列，该数据集是用于视频帧合成的新建高质量数据集，另一方面，该研究还利用其他几个广泛使用的基准进行测试，包括 UCF101、Sintel、REDS、HMDB 和 Adobe240fps。

与现有 SOTA 方法的对比

研究者将经过训练的 ConvTransformer 在几个公共基准上与 SOTA 视频插帧和视频帧推断算法进行比较，包括 DVF、MCNet、SepConv、CyclicGen、DAIN 和 BMBC。表 1 和表 2 分别说明了几种算法在视频插帧和未来帧推断方面的定量比较结果。

此外，带有缩放细节的合成图像视觉比较结果如图 1 和图 3 所示。

图 1：视频帧推断示例，上面是推断结果，中间是放大的局部细节，底部是根据实际情况计算出的遮挡图。

图 3：ConvTransformer 与其他视频插帧 SOTA 方法（DVF、SepConv、DAIN、CyclicGen、BMBC）的可视化比较结果。

推荐阅读

双12极市回馈送你现金红包，领取即可提现，快来！

福利一：邀好友翻倍概率，瓜分现金666元

关注“极市平台”，回复关键词“1212”，参与抽奖即可瓜分666元现金红包。邀请好友参与抽奖助力，抽中概率翻倍！12月12日当天23点自动开奖~

福利二：邀3位好友，即领现金红包

邀请3位好友参与抽奖助力，即可瓜分100元！数量有限，先到先得！

添加极市小助手微信（ID : cvmart2），备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳），即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群：每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~