三次方
学员
AR/VR的关键技术 - 三维重建,我是算法工程师,最近负责公司XR方面的算法工作。班班有没有什么好的框架或者数据集供学习参考呢?
最近Facebook AI 开源 CO3D(3D 中的常见对象)数据集,用于计算机视觉研究中的 3D 重建
3D熊
CO3D - 三维重建数据集
3D对象重建是 AR/VR 技术应用的重要计算机视觉问题(eg:远程呈现和游戏 3D 模型的生成)用于逼真 3D 重建的新兴技术可以将真实物体与传统智能手机、笔记本电脑甚至未来增强现实眼镜上的虚拟物体无缝混合。
总而言之,当前的 3D 重建方法依赖于各种对象类别的学习模型,由于缺乏包含真实世界对象视频和准确 3D 重建的数据集,这些模型是有限的。由于模型使用这些示例来创建足够的重建,因此研究人员通常只使用本质上具有近似匹配的合成对象。
Facebook AI部门发布了一个大规模数据集,其中包含带有 3D (CO3D) 注释的常见对象类别的真实视频。新的 CO3D 拥有来自近 19,000 个视频的 150 万帧,这些视频捕获了广泛使用的 MS-COCO 数据集中 50 种不同类型的对象,以提高准确性和覆盖范围。
Facebook AI 也发布了一种他们称之为 NeRFormer 的新方法的成果。它可以通过观察 CO3D 数据集中的视频(而不仅仅是静止图像)来学习从不同视角合成物体的图像。这实现了结合最近两个机器学习贡献的高效合成:变压器和神经辐射场,在为对象生成新视图时,与最接近的竞争对手的方法相比,准确度提高了 17%。
三次方
学员
看起来不错哇,能简单介绍下原理或者过程嘛?
妥,没有问题,往下看:
3D熊
为了收集用 3D 形状标注的野外常见物体的大规模现实生活数据集,Facebook AI 研究人员设计了一种摄影测量方法,只需要以物体为中心的多视图图像。
为了实现这一目标,他们在 Amazon Mechanical Turk (AMT) 上众包了以对象为中心的视频。每个 AMT 任务都要求工作人员在给定类别中选择一个对象,将其放置在固体表面上,并在围绕整个对象移动的同时录制视频。他们选择了 50 个 MS-COCO 类别,包括具有明确定义的形状的静止物体,它们是成功 3D 重建的良好候选者。
成熟的摄影测量框架 COLMAP 使用 3D 注释并跟踪相机以创建密集的对象点云。为了确保高质量的 3D 注释,作者对精度较低的视频使用了主动学习算法。
除了CO3D数据集的发布,Facebook AI还提出了NeRFormer。这是一种新颖的深度架构,通过差异化渲染其神经辐射场 (NeRF) 进行学习。这些属性是基于分析视频内容并沿着光线行进以进行渲染来预测的。因此,一旦神经形成器学习了一个类别的共同结构,它就可以合成一个不可见对象的新视图,只给出它的已知视图。
CO3D 数据集将是同类中的第一个,它已经对 3D 现实生活对象重建产生了重大影响。它为他们的 NeRFormer 提供训练数据,以处理新视图合成 (NVS) 任务。借助逼真的 NVS,它们离完全身临其境的 AR/VR 效果又近了一步。
三次方
学员
Get!代码和论文下载有吗?
1、数据集下载地址:
https://ai.facebook.com/datasets/co3d-downloads/
2、代码地址:
https://github.com/facebookresearch/co3d?
3、论文下载:公众号回复【CO3D】
3D熊
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿 ▲长按关注公众号
▲长按关注公众号