清华大学研发无透镜光电神经网络:打造极简化机器视觉
tu点击下方卡片,关注“新机器视觉”公众号
重磅干货,第一时间送达
由于现代图形处理单元(GPU)的并行性和处理能力的提高,基于卷积神经网络(CNN)的深度学习有所增加。这为人工智能应用中的一系列问题提供了有效的解决方案。但是,视觉处理涉及的大量数据意味着CNN只能在便携式硬件上使用,耗电少,并且可以快速处理数据。
在光学计算领域已经进行了几项研究,以找到使电神经网络更好地工作的方法。光学计算有很多好处,比如光学并行,可以大大提高计算速度;光学无源,可以降低能源成本,减少延迟。光学神经网络(ONN)是一种加速计算并克服电子设备带宽限制的方法。但ONN只能使用相干激光作为光源,因此不能与成熟的机器视觉系统一起用于自然光场景。因此,人们提出了混合光电神经网络,其中前端是光学,后端是电。这些基于镜头的系统使得在边缘设备中使用它们变得更加困难,比如自动驾驶汽车。
在《光科学与应用》杂志上发表的一篇新论文中,研究人员开发了一种用于计算机视觉任务的无透镜光电神经网络(LOEN)体系结构,该结构使用插入成像光路中的无源掩模在光学域中执行卷积运算。这减少了计算所需的工作量和整个管道的能耗。此外,光链路、图像信号处理和后端网络可以顺畅地协同工作,以实现特定任务的联合优化。
源:https://www.nature.com/articles/s41377-022-00809-5
LOEN可以在自然光下工作。预先训练的光电神经网络确定掩模结构和卷积层权重。针对目标分类等任务,构造了一个轻量级的实时识别网络。掩模用于特征提取、功能验证和提高准确性。对于人脸识别等视觉应用,提供了无需计算即可实现光学加密的全局卷积核选择和设计方法。端到端网络没有私人信息,例如可识别的面部信息,并且可以保护用户隐私。LOEN没有镜头结构,因此减小了系统的体积,其基本内部设计降低了生产成本。独特的设计将所有任务链接级联,并通过自动驾驶、智能家居和智能安全应用程序对其进行优化。
几何光学理论认为光是直线传播的,因此可以将场景视为一组点光源。在本文中,代替传统机器视觉硬件中使用的透镜,建议使用靠近成像传感器的光学掩模。掩模修改空间中的光信号,对图像传感器进行移位和叠加操作。已经证明,光学掩模可以代替神经网络的卷积层在光学领域提取特征。
对于像识别手写数字这样的任务(这是对象分类的一部分),我们构建了一个轻量级的实时识别网络,以测试该体系结构中的光学卷积的工作情况。使用单卷积核,识别准确率可高达93.47%。通过在掩模上同时放置多个核进行多通道卷积运算,分类准确率可提高到97.21%。它可以节省约50%的传统机器视觉链接使用的能耗。
此外,通过放大光学掩模,图像在光学域中会变得混乱,传感器会拾取人眼看不到的混叠图像。这是一种不使用计算能力加密私人信息的自然方式。人脸识别被用来测试光学加密的效果。与随机MLS模式相比,端到端网络联合优化的掩模识别人脸的准确率超过6%。同时,加密被用来保护隐私;它获得了与不使用加密的方法相同的识别精度。
这项工作提出了一个简单的机器视觉任务系统,该系统计算自然场景中的光电神经网络,并使整个光电链接作为一个整体进行优化,以获得特定视觉任务的最佳结果。当非线性材料加入混合物中时,将形成全自然光神经网络。新的体系结构可以用于现实世界中的情况,如自动驾驶汽车、智能家居和智能安全。
光学卷积和光学加密是机器视觉的挑战。LOEN简化了机器视觉,无需成像。该管道在光学和电子方面都得到了优化。成像管道中传感器和ISP的总功率成本是可比的。因此,在捕获原始数据时(无需ISP),该系统节省了标准管道的近一半能源。优化的光学掩模取代了数字加密,并提供了与保护隐私的人脸识别中无加密方法相同的识别精度。光学卷积加密提供实时人脸识别和隐私。
LOEN不使用透镜将电卷积计算转换为光学卷积计算。与DNN不同,重点是实际场景视觉任务;因此,系统必须在非相干照明下工作。所有任务操作都是组合的。ISP可以针对特定功能进行调整,以简化采集并降低传感器功耗。该方法使用一个卷积层。ONN是动态和非线性的。当与非线性材料(如饱和吸收体、光学相变存储器和其他创新材料)结合时,非线性层也可用于光场。多个卷积层允许闭环自然光神经网络。在降低能耗的同时,加快了计算速度。当可重构光学元件(如LCM或MetaSurface)添加到LOEN中时,可以编程卷积核。因此,可以实现空间和时间上的卷积,同时结构可以重用。这项技术为智能设备的视觉功能提供了一个小巧、智能、低能耗的解决方案。
论文:https://www.nature.com/articles/s41377-022-00809-5
资料来源:https://www.eurekalert.org/news-releases/951916
本文仅做学术分享,如有侵权,请联系删文。