点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
作者来自ETHZ Computer Vision实验室,本文设计了ZippyPoint,它是一个用于特征点提取的网络。与ORB的描述子类似,ZippyPoint得到的也是二进制描述子。该特征点可以获得与基于学习的特征匹配以及视觉定位性能,同时速度提升5倍。
论文:arxiv.org/abs/2203.03610
本文代码即将开源,笔者将持续关注。
摘要
更复杂、更强大的神经网络模型的设计显著提升了局部特征检测和描述的技术水平。这些技术进步可以归因于更深的网络、通过自我监督改进的训练方法,或引入新的网络结构,例如用于特征匹配的图神经网络。然而,在追求更高性能的过程中,生成轻量级描述符的高效架构几乎没有受到关注。本文的出发点就是设计一种可用于低功耗低算力的移动平台的特征提取网络。本文设计的ZippyPoint使用了二进制描述子归一化层以及混合精度网络,该特征点可以获得与基于学习的特征匹配以及视觉定位性能,同时速度提升5倍。
基本原理
基线网络
网络优化/量化
Macro-Block I (First Encoder Convolution):两种配置,FP以及INT8,作者发现使用INT8可以提升约3FPS,同时可保持性能不下降。作者认为,这是因为输入图像也是用INT8表示的,因此,输入序列的离散化不会造成信息的损失。 Macro-Block II (Encoder Convolutions):三种配置,INT8, binary (BIN)以及具有高精度残差的二进制(BIN-R)。使用二进制表示可以极大地提到吞吐量,但是性能下降明显;为应对性能下降,本文引入了用于构建高精度残差的INT8表示。 Macro-Block III (Spatial Reduction):四种配置,average-pooling (Aver.), max-pooling (Max), sub-sampling (Sub.S.)以及一个需要学习的池化操作(INT8表示)。 Macro-Block IV (Decoder Convolutions):二种配置,INT8以及BIN-R。 Macro-Block V (Final Decoder Convolutions):二种配置,FP以及INT8。
二进制描述子
实验
结论
参考
3D视觉精品课程推荐:
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
▲长按关注公众号