首页 文章详情

使用4D Nerf显示遮挡(CVPR2022)

3D视觉工坊 | 447 2022-07-26 18:30 0 0 0
UniSMS (合一短信)

标题:Revealing Occlusions with 4D Neural Fields

来源:CVPR 2022 (Oral Presentation)

解读&翻译:竹石

文章&代码&视频讲座https://occlusions.cs.columbia.edu/

遮挡是计算机视觉的基础,预测遮挡背后的内容是视频分析中许多应用的基础。近年来,研究人员将现代深度学习特征与各种方法相结合来跟踪遮挡。其中包括经典卡尔曼滤波或 linear extrapolation[25]、2D递归神经网络[57]和更明确的推理机制[49]。该文结合cloud modeling点云模型、neural field神经场和attention mechanisms注意力机制来解决这个问题。
文章介绍了一种用于学习从RGB-D摄像机预测4D点云的体系结构。该方法的关键是点云的连续神经场表征,它使用注意力机制来调节整个空间的观察。由于表征是连续的,该方法可以学习在时空中的任何位置产生点,从而允许高保真地重建复杂场景。在存在遮挡和缺失场景结构的情况下,该表征能够使用注意力来找到上次可见时的对象和/或缺失的场景结构,并随后进行校正。
文章都主要贡献有三个:
  • 提出了从单目RGB-D(深度信息)视频输入中完成4D动态场景补全这一新的基本任务,为时空推理任务奠定了基础
  • 提出了新的基准来评估场景完备性和杂乱环境中目标的持久性
  • 提出了一种新的点云深度学习体系结构,它能够根据点云的上下文生成新的点
假设是从单个摄像机视图捕获的点云视频(假设已知摄像机参数,将RGB+D投影到某个标准坐标系中)。每个离散点都有一个空间位置,时间、 和RGB颜色,其中下标表示索引。
注意,输入点云只是部分扫描数据,因此会存在因遮挡而丢失的点,这使得这是一项具有挑战性的任务。我们的目标是学习从完整点云的映射。输出矢量是想要预测的任何标签,例如颜色或语义类别。

Model模型

点云通常被视为离散的,这导致它们具有不规则的结构,这使得传统的深度表示学习很困难。为了让模型在某些点被遮挡后学会保持这些点,文章用一种机制来创建尚未观察到的新点。
我们将把输出点云建模为连续的(Neural 场可以表征连续的模型,也具有袖珍的优点),可以袖珍(Compactness)地参数化整个4D时空体积中的所有假定点。让是一个连续的时空查询坐标。我们的模型估计了位于的特征,该特征可能被遮挡,并进行分解:
  (1)
其中是特征提取器,是连续表示。有许多可能的选择,我们使用Point Transformer network[69]的架构,它为(子采样)输入中的每个点生成语境化特征。该模型能够连续预测整个时空体积的表示,如图2所示。

Figure 2. Neural Architecture
Figure 2. Neural Architecture – 编码器是point transformer ,它使用自注意力对输入点云视频进行特征化,以产生。以为条件的隐式表示包含交叉注意力块,以语境化查询点,并为场景中的该位置和时间创建所需的输出特征

模型使用了类似于神经场体渲染和计算机图形学中的方法的连续表示,这也具有袖珍场景表示的显著计算优势。然而,该方法是在点云上操作,而不是在符号距离函数或辐射场上操作,因此该模型具有泛化能力,使得在视图合成之外的许多任务中训练和应用该模型。此外,该方法以动态点云视频中的一组帧为条件,使模型能够学习遮挡对象的丰富时空表示。

Point Attention集中注意力

给定查询坐标,我们需要估计该时空位置的内容。在有遮挡的视频中,这些内容的上下文可能在空间和时间上都很遥远(指帧之间的距离)。因此文章引入了一个交叉注意力层,该层使用查询坐标来关注输入视频,以生成这种预测。我们在图3中说明了这个过程。

Figure 3. Key Idea
Figure 3. Key Idea 在给定4D中的查询点的情况下,模型学习关注从输入视频中提取的键和值。当查询点对应于被遮挡的坐标时,注意机制将在对象尚未被遮挡时找到该对象。当世界坐标对应于空白的空间(empty space)时,该模型反而会学习预测一个低占有率

注意力通过使用查询键并检索相关值来工作。在我们的例子中,将对特征点云进行操作,我们从中获得键和值,以及从中得到相对位置编码 。从得到查询。通过层的递归堆叠,使模型能够构建越来越丰富的场景表示。受[69]启发,我们通过以下计算实现了上述向量交叉注意力策略:

其中是对查询点的特征进行编码的特征向量。基本情况是,当我们堆叠交叉注意力块时,它将通过以下迭代细化:

其中周围内的一组最近邻,是归一化的softmax操作,是产生注意力权重的映射MLP,以及是表示每通道特征调制的元素乘积[69]。在等式(6)中应用了两次运算,这意味着在处终止递归。这将生成一个描述查询位置处内容的特征向量,我们将其解码为预测的标签。最后,使用MLP将映射到

Learning and Supervision学习和监督

这部分讲训练模型以完成4D动态场景补全。给定场景的多个摄像机视图,假设已知摄像机参数,并将其记录投影到点云中。选择一个摄像机视图作为输入视图,创建。将所有摄像机视图合并在一起的点云,当做目标。我们训练模型,从单视点云预测多个视点的点云,如图4所示。

Figure 4. Learning About Occlusions
Figure 4. Learning About Occlusions 当输入视频中的某些帧发生遮挡时,通常这些遮挡的区域在其他视点下仍可见。例如,较小的圆锥体在最后一个输入帧中完全被遮挡,但通过 ground truth可以再次显示。该方法利用这一自然线索,为模型提供几何上一致的多视图自监督,从而提炼出对象在空间和时间上持久存在的概念。
注:相机采集物体是透视投影,会存在近大远小的问题,该模型是没有考虑这一点的。如果是正交投影,则不需要考虑。

最小化损失函数:

其中是从随机抽样的一组负点(对应空白的空间)。由于训练数据只包含实心点,负点的作用是让模型学习区分哪些区域是空白的空间。

Tasks

该框架能够学习在点云上显示几个不同任务的遮挡。对于每个查询点,该模型生成一个向量, 可以监督的不同维度用于各种任务。文章根据不同的数据集和任务,选择不同的损失函数L:
Geometry completion:
将场景中的实体对象与空白空间 区分开来,通过对查询点与目标点云的接近程度进行阈值化,来推断出每个查询点接近ground truth 的程度σ。将 表示为 向量的相关维度,损失函数用如下标准二元交叉熵:
Visual reconstruction:
除了补全缺失区域外,该模型还必须预测RGB空间中的颜色。损失函数使用相关输出维度和目标之间的距离:
Semantic segmentation :
将每个查询点分类为个可能的类别,利用预测类别和标签之间的交叉点损失来监督输出:
Instance tracking:
要求模型定位仅在第一帧中使用mask高亮显示的对象,包括完全遮挡的情况(这类似大多数半监督视频对象分割的设置,但在3D空间中相反。注意,对象在视频开始时可能部分未完全遮挡,这样才能起作用)。为此,我们向输入点云添加额外的维度,来表示哪些点属于感兴趣的对象。然后,训练模型并在视频的其余部分传播。损失函数定义为输出的之间的二进制交叉熵损失:
这四个损失项可以线性组合,形成总体目标:

Inference

在学习之后,能够从视频中估计连续表示的点云。对于许多应用,需要一个采样过程来将连续点云离散化。由于目标在测试时是未知的,因此在感兴趣的4D时空体积内均匀随机抽样查询坐标,根据稳健性过滤预测来生成离散点云,只要预测程度高于某个阈值,就保留一个查询点。出于可视化目的,还可以将预测转换为场景网格。时间处网格的表面隐含地定义为相对于阈值的预测占比的零水平集,即σ_T=0.5。在通过立方体推进算法对点云或网格进行采样后,我们通过检索与每个坐标相关的预测颜色 、语义类别或跟踪标志来对其着色。

Evaluation Metrics评估指标

使用预测点云和目标点云之间的切角距离(CD)度量来评估模型:

对于几何完整性,我们最初考虑所有点,但也希望专门研究遮挡为此,根据所有点是否属于遮挡来过滤,通过相互比较不同的视图来近似这些点。如果过滤后的输出点云为空(通常对应于 false negatives,即判断为负,但是判断错了),则我们将预测替换为场景中心的单个点,否则CD将变得未定义。
例如,在更大范围内跟踪,我们一次跟踪一个对象,并在测试时合并结果预测。具体来说,我们通过为每个点分配具有置信分数,当时来标记获得多个轨迹。对于每个实例标记,仅计算其相应预测点和地面真实对象点之间的CD,然后在场景中的所有实例上平均该值(只报告被遮挡对象的平均值)。

References

[25] Tarasha Khurana, Achal Dave, and Deva Ramanan. Detecting invisible people. In ICCV, 2021
[49] Aviv Shamsian, Ofri Kleinfeld, Amir Globerson, and GalChechik. Learning object permanence from video. In ECCV,2020.
[57] Pavel Tokmakov, Jie Li, Wolfram Burgard, and Adrien Gaidon. Learning to track with object permanence. In ICCV, 2021
[69]Hengshuang Zhao, Li Jiang, Jiaya Jia, Philip HS Torr, and Vladlen Koltun. Point transformer. In ICCV, 2021.
本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
14.ROS2从入门到精通:理论与实战
15.国内首个3D缺陷检测教程:理论、源码与实战
16.基于Open3D的点云处理入门与实战教程

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。


一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定激光/视觉SLAM自动驾驶)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
 圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~  

good-icon 0
favorite-icon 0
收藏
回复数量: 0
    暂无评论~~
    Ctrl+Enter