Unsupervised Deep Image Stitching：首个无监督图像拼接框架（TIP2021）-技术圈

作者丨廖康@知乎

来源丨https://zhuanlan.zhihu.com/p/386863945

编辑丨3D视觉工坊

一、写在前面

图像拼接(Image Stitching)可以说是计算机视觉领域中一个非常经典且完备的体系，由于其包含如特征点检测、映射估计、匹配对齐、投影变换和图像融合等重要算法（其中每一个小点都可单独拿出来研究），如此综合全面的技术常常被选为各类毕业论文的研究课题。自2007年Matthew Brown在IJCV上发表“Automatic panoramic image stitching using invariant features”后，便吸引了众多学者跑步入场，很多被学术界和工业界青睐的算法如双单应矩阵、网格对齐、视频拼接、立体拼接等如雨后春笋般映入眼帘。值得一提的是，如今Facebook在深度学习大放异彩的巨佬-何凯明和新星-Yuxin Wu都曾在图像拼接还未“失宠”之前留下了美好回忆。更深入地，learning-based计算机视觉中很多任务与图像拼接有着异曲同工之妙：都是在对比数据-学习映射关系-投影/映射至目标空间这个流程下进行的。

随着深度学习的快速发展，以大数据驱动的有监督学习在众多计算机视觉课题中得到了广泛研究。基于手工特征的传统视觉算法便慢慢退出了人们(arXiv)的视线，而其中图像拼接为典型代表之一。当然，近年也不乏怀旧派的忠实粉试图来波文艺复兴，但他们都只是在图像拼接中某一个技术点上用深度学习进行改进。一个完整、灵活且鲁棒的深度学习图像拼接框架至今还未被人研究和探索过。下面，我将分享一篇近期我们组和电子科大刘帅成老师组（人均图像拼接忠实老粉）合作的工作：Unsupervised Deep Image Stitching: Reconstructing Stitched Features to Images，目前该工作已被IEEE TIP接收。同时，我们公开了首个真实场景的无监督图像拼接数据集（https://github.com/nie-lang/UnsupervisedDeepImageStitching），欢迎各位同行和前辈使用、测评。

二、研究动机与发现

传统的基于手工特征点（如SIFT、ORB等）的图像拼接方法严重依赖于特征点的检测质量，往往在低纹理，低光照或重复纹理等场景下失败。而现有的深度学习有监督拼接方案很少得到研究，其最主要的原因是拼接图的Ground Truth难以获得。

为了解决以上两个问题，我们提出了一种基于重建的无监督图像拼接方案。其重建的核心思想来自于一个有趣的发现：像素级的不对齐现象可以在特征级上被一定程度削弱。因此，我们认为：重建拼接特征比重建像素级拼接图更容易，随后拼接特征可以用来重建出拼接图。如下图从左至右依次展示了：1）像素不对齐 2）特征不对齐 3）重建的特征 4）重建的拼接图。

三、无监督图像拼接

如下图，我们提出的无监督拼接方案可以分为两个阶段：无监督粗对齐和无监督重建。第一个阶段估计一个全局单应性矩阵（homography）来粗对齐输入图像，第二阶段重建粗对齐的结果得到拼接图。

无监督粗对齐

现有的无监督deep homography方法在训练过程中，要求除了输入网络的patch对之外，还需要额外输入patch对周围的图像信息。这种基于填充的约束方式可以避免warp后出现的黑色区域。但在低重叠率的图像拼接场景中，这种patch对的选取方式可能导致两个patch输入之间找不到任何重叠区域（如下图第1、2列），这样会导致网络对homography的估计毫无意义。为了解决上述问题，我们提出一种基于消融的约束方式（如下图第3、4列），改动如下：1）网络的输入为整张图而不是patch，完全利用重叠区域 2）只约束warp后重叠区域的内容一致。

无监督重建

第一步基于单homography的对齐不能解决视差的问题，会导致拼接图中出现伪影。这一步我们提出一个无监督的重建网络来消除伪影。该网络分为一个低分辨率重建分支和一个高分辨率优化分支，其中重建分支用来消除伪影，优化分支用来增强图像质量。

在低分辨率的重建分支中，约束重建拼接图的特征应该尽可能接近warp过后的图像特征。由此，我们提出了一个内容约束和一个缝隙约束来引导重建过程的学习方式。对于内容约束，我们约束拼接图的Content Masks（上图第3列）部分需要尽可能接近warped images的特征（VGG-19高层特征）；对于缝隙约束，我们要求拼接图的Seam Masks（上图第4列）部分需要尽可能接近warped images的像素值。当前低分辨率分支重建的过程可视化如下图：网络会优先在encoder阶段重建重叠区域的特征，然后在decoder阶段恢复非重叠区域，最后重建出像素级的拼接图。

在高分辨率的优化分支中，由于没有Ground Truth作为监督，我们采用和低分辨率相似的约束，只不过我们将Content Masks区域的VGG高层特征约束换为了低层特征约束。除此之外，为了防止高分辨率分支重建的图像出现伪影（高分辨率下网络的感受野相对降低），我们还增加了内容一致性约束，即约束高分辨重建图的像素内容和低分辨率重建图的像素内容尽可能接近。下图展示了低/高分辨率的输出结果。

四、数据集

此外，我们还构建了首个真实场景下的无监督图像拼接数据集(USIS-D)。该数据集包含了不同场景，不同重叠率和不同的视差的图片对。训练集共10,440对图像，测试集包含1,106对图像。部分数据展示如下：

五、实验

我们分别在homography估计任务和图像拼接任务上进行了定量和定性的评估。实验结果表示，甚至与现有的有监督深度学习图像拼接算法相比，我们的方法实现了更好的拼接结果。消融实验结果也证明了本文设计的不同模块的有效性。更多实验结果和细节部分请参考原文。

六、一些思考及开放问题

为了“重铸”Stitching之光，并赋予拼接算法灵活且鲁棒的特性，我们提出了首个无监督深度学习图像拼接框架。我们也希望本工作的实验结果和构建的数据集能够作为一个benchmark供后续工作参考。最后，我们还提出了一些思考及开放问题进行适当展望，欢迎各位同行及前辈交流、探讨。

Towards panorama stitching

本工作只考虑了左右两视较为理想的图像拼接情况，拼接场景所呈现的视场离360°全景还有一定距离。而增加输入图片数量又会带来很大的空间负担，因此如何做好视场和模型空间的trade-off还是很值得去探索的。此外，本身就具备大视场的鱼眼图像或许会更适合当前的deep image stitching，理论上两张鱼眼图像就能够展现一个完整的360°全景。

Contrastive learning

对比学习是自监督学习近年来火热的学习方式之一，而缺乏Ground Truth的图像拼接算法与对比学习有着“浑然天成”的对应关系。实际上，传统图像拼接算法也是通过对比两幅图像间的匹配程度及区域去进行操作的。下图是微软亚研院在CVPR 2021上的一篇工作"Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised VisualRepresentation Learning"，该工作提出了利用像素一致性去更好地促进对比学习。而保持左右视图在重叠区域的像素一致性，也正是图像拼接的初衷所在。

Beyond stitching

随着VR技术的浪潮消散，全景拼接在工业界的需求也日益减少。此外，目前各类智能手机中也都集成了比较成熟的图像拼接算法，套用股市里的一个经典(xuan xue)语句——“利好落地便是利空”。所以，相较于视觉中的场景理解等high-level task, 当前图像拼接得到的关注并不是很多。但是，其中某些技术点仍具备广阔的应用场景，如单应性矩阵估计(homography estimation)等。仅仅在今年的CVPR上，就可以看到很多基于homography的有趣研究，例如用homography指导双目图像压缩，用homography去对齐多模态图像，用homography帮助图像修复，甚至图像超分也进军了homography。

我们组最近也在单应性矩阵估计这个任务上做了进一步的改进，提出了“Depth-Aware Multi-Grid Deep Homography Estimation with Contextual Correlation”。与现有的绝大部分deep homography的工作不同，这个工作利用多网格单应矩阵，将deep homography的应用由“无视差场景”推广到了“真实视差场景”。同时，论文中设计的contextual correlation模块比经典的cost volume模块更加高效（见下图表）。目前该方法在所有的对比方法中取得了SOTA性能。论文已在arXiv上发布: https://arxiv.org/pdf/2107.02524.pdf，欢迎各位批评指正~