2021年11月初，VIVO & 地平线视觉工程师面经-技术圈


文 | 七月在线
编 | 小七

FIGHTING

问题1、简述下你对end to end检测器的理解？

问题2、线性回归和逻辑回归的区别？

问题3、目标检测trick

问题4、Mask-rcnn介绍一下。

问题5、L1,L2正则化的区别

问题6、说一下你知道的cv任务里 transformer发展的时间线

问题7、解释一下位置编码


问题1、简述下你对end to end检测器的理解？
1、从faser-rcnn开始解释Blabla，原来通常用选择性搜索方法生成proposals不能和cnn一起训练，需要各自训练各自的部分。
2、此外原来的rcnn阶段的分类的svm进行的，也不能和整个网络一起训练

问题2、线性回归和逻辑回归的区别？
1、线性回归做预测，逻辑回归做分类
2、前者拟合合适的模型函数，后者预测函数的输出值
3、参数更新：最小二乘法vs梯度下降
4、因变量：连续性的数据，离散的label
举例子：饮食习惯对体重的影响，如果是输入数据（性别，饮食习惯，身高，年龄等）预测重量的具体值，是用线性回归；如果预测体型，如微胖，正常等分类，用逻辑回归。
问题3、目标检测trick
1、数据增强
2、小目标的重采样
3、根据数据集小目标的分布进行anchor的调整（guide-anchor,k-means）
4、多感受野：FPN,可变型卷积
5、注意力机制orSEnet
6、HRnet超高分辨率的backbone
问题4、Mask-rcnn介绍一下。
敲黑板：谈到Mask-rcnn，不如说这是一道考验介绍算法的陈述题。面试官会根据你简历做的算法or你提到的算法（恰好他也熟悉的Hhh）进行提问要你介绍，说明。这里不要求同学们说的多么仔细，我建议可以这样回答


1、它基于的历史：双阶段检测器faster-rcnn+语义分割分支

2、它的最大几个idea，让你眼前一亮或是和你的项目论文关联度比较大的创新点
解决特征图与原始图像上的RoI不对齐问题：即Roi_align:传统的proposals在生成固定长度的roi的过程由于二次量化时造成的位置精度损失以及双线性插值法回去看paper!!!
掩模预测和分类预测解耦：参考Nms的类内抑制，对于实例分割的每个类别独立地预测一个二值掩模，每个二值掩模的类别依靠网络RoI分类分支给出的分类预测结果。
与FCN不同，FCN是多分类问题（相当于softmax）这里类似于进行了每个class的伯努利0-1分布预测（相当于sigmoid）
**这一点回答的不太好，主要书对于实例分割不够了解，欢迎大佬补充

3、后续的改进：例如faster-rcnn→cascade→DetecoRS的发展
问题5、L1,L2正则化的区别
1、包括各自的功能
（why need正则化：防止训练产生过拟合，用复杂的模型去拟合训练集时容易出现过拟合，即泛化能力不足， 用一些惩罚项约束复杂度）

2、各自怎么约束复杂度
（L1对模型权值的绝对值之和约束，L2的模型权值的平方和约束！）

3、区别和特点：
L1正则化容易得到稀疏解，L2正则化容易得到平滑解。
原因：（1）从解空间来说（2）从梯度下降来说
问题6、说一下你知道的cv任务里 transformer发展的时间线
Vit，Detr，swin , Deformable
敲黑板：有做过transformer的同学，基本的组件要掌握的（muti-head,位置编码，编码器，解码器，FFN等），没有的话一般不会问~因为大概2020才引入到cv的，题外话：感觉做过了transformer，有一些不会cv的面试官也可以交流了hhh感觉cv面试也有挺多是nlp,ml方向的老师面
问题7、解释一下位置编码
主要说了sin-cos方式和embeddings）
追问：你认为在CV中，encoder之前的位置编码能不能去除？
没有这个的话，切分patch的时候，只有图像的抽象特征信息而没有位置信息，感觉不利于回归任务，分类应该问题不大，然后告诉我说，目前有针对这个positon-encoding的简化甚至存在的必要性的讨论让我可以去看看，这个属于一个开放问题