U平方Net:深入使用嵌套的U型结构进行显著目标检测

小白学视觉

共 2764字,需浏览 6分钟

 · 2021-01-19

点击上方小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达



小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。



摘要


作者设计了一个简单而强大的深层网络架构,U2-Net,用于显著目标检测(SOD)。作者的U2-Net的体系结构是一个两层嵌套的U型结构。设计具有以下优点:(1)它能够捕捉更多上下文信息从不同尺度的混合接受字段大小不同的在计划的剩余U-blocks (RSU),(2)它增加了整个架构的深度没有显著增加池的计算成本,因为这些RSU块中使用的操作。这种架构使作者能够从头开始训练一个深度网络,而不需要从图像分类任务中使用骨干。为了方便在不同的环境下使用,作者对所提出的架构U2- Net (176.3 MB, 30 FPS在GTX 1080Ti GPU上)和U2- Net+ (4.7 MB, 40 FPS)两个模型进行了实例化。这两种模型在6个SOD数据集上都具有竞争性能。


代码链接:https://github.com/NathanUA/U-2-Net



论文创新点


作者的主要贡献是一种新颖而简单的网络架构,称为U2-Net,它解决了上述两个问题。首先,U2-Net是一种为SOD设计的两层嵌套u型结构,它不使用图像分类中预先训练的骨干。它可以从零开始训练,以达到有竞争力的表现。第二,新架构允许网络深入,获得高分辨率,而不显著增加内存和计算成本。在底层,作者设计了一个新的残差U块(RSU),它能够在不降低特征图分辨率的情况下提取阶段内的多尺度特征;在顶层,有一个类似u网的结构,其中每个阶段都由一个RSU块填充。



网络结构


现有卷积块和作者提出的残差U块RSU的说明:(a)平原卷积块PLN, (b)类似剩余块RES, (c)类似初始块INC, (d)密集块DSE和(e)作者的剩余U块RSU。

残差块与作者的RSU比较


作者提出的的U平方网架构的说明。主要的架构是一个像U-Net一样的编码器-解码器,其中每个阶段由作者新提出的残余u块(RSU)组成。例如,en1是基于图2(e)所示的RSU块。



实验结果


将本文方法与其他七种SOTA方法进行定性比较:(a) image, (b) GT, (c) Ours, (d) Oursy, (e) BASNet, (f) PoolNet, (g) CPD, (h) PiCANetR, (i) R3Net+, (j) AFNet, (k) DSS+,其中+表示CRF后处理。



结论


在本文中,作者提出了一种新颖的深度网络:U2-Net,用于显著性目标检测。作者的U2-Net的主要架构是一个两层嵌套的U结构。与作者新设计的RSU块嵌套的U结构使网络能够从浅层和深层捕获更丰富的局部和全局信息,而不考虑分辨率。与建立在现有骨干上的SOD模型相比,作者的U2-Net完全建立在提出的RSU块上,这使得作者可以从无到有地进行训练,并根据目标环境的约束配置不同的模型大小。本文提供了完整尺寸的U2-Net (176.3 MB, 30 FPS)和更小尺寸版本U2-Net+ (4.7 MB, 40 FPS)。在6个公开显著目标检测数据集上的实验结果表明,这两种模型在定性和定量度量方面都达到了与其他20种最先进的方法非常有竞争力的性能。


尽管作者的模型与其他最先进的方法相比具有竞争力,但对于计算和内存有限的设备,如移动电话、机器人等,需要更快、更小的模型。在不久的将来,作者将探索不同的技术和架构来进一步提高速度和缩小模型尺寸。此外,需要更大的多样化的显著目标数据集来训练更准确和鲁棒的模型。


每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。


下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目31讲
小白学视觉公众号后台回复:Python视觉实战项目31讲即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲
小白学视觉公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

下载4:leetcode算法开源书
小白学视觉公众号后台回复:leetcode即可下载。每题都 runtime beats 100% 的开源好书,你值得拥有!





交流群


欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


浏览 27
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报