点击上方“小白学视觉”,选择“星标”公众号
重磅干货,第一时间送达
上文提到,目前的图像识别技术是作为一个工具来帮助我们与外部世界进行交互,只为我们自身的视觉提供了一个辅助作用,所有的行动还需我们自己完成。而当机器真正具有了视觉之后,它们完全有可能代替我们去完成这些行动。目前的图像识别应用就像是盲人的导盲犬,在盲人行动时为其指引方向;而未来的图像识别技术将会同其他人工智能技术融合在一起成为盲人的全职管家,不需要盲人进行任何行动,而是由这个管家帮助其完成所有事情。举个例子,如果图像识别是一个工具,就如同我们在驾驶汽车时佩戴谷歌眼镜,它将外部信息进行分析后传递给我们,我们再依据这些信息做出行驶决策;而如果将图像识别利用在机器视觉和人工智能上,这就如同谷歌的无人驾驶汽车,机器不仅可以对外部信息进行获取和分析,还全权负责所有的行驶活动,让我们得到完全解放。
《人工智能:一种现代方法》中提到,在人工智能中,感知是通过解释传感器的响应而为机器提供它们所处的世界的信息,其中它们与人类共有的感知形态包括视觉、听觉和触觉,而视觉最为重要,因为视觉是一切行动的基础。在一次论坛上百度IDL的余凯院长问大家,你觉得哪种感觉最重要?没有人能很快作答,后来余凯院长换了个提问方式,如果要放弃一种感觉,你最不愿意放弃的是那一种?这时大家都回答是视觉。Chris Frith在《心智的构建》中提到,我们对世界的感知不是直接的,而是依赖于“无意识推理”,也就是说在我们能感知物体之前,大脑必须依据到达感官的信息来推断这个物体可能是什么,这构成了人类最重要的预判和处理突发时间的能力。而视觉是这个过程中最及时和准确的信息获取渠道,人类感觉信息中的80%都是视觉信息。机器视觉之于人工智能的意义就是视觉之于人类的意义,而决定着机器视觉的就是图像识别技术。
更重要的是,在某些应用场景,机器视觉比人类的生理视觉更具优势,它更加准确、客观和稳定。人类视觉有着天然的局限,我们看起来能立刻且毫无费力的感知世界,而且似乎也能详细生动的感知整个视觉场景,但这只是一个错觉,只有投射到眼球中心的视觉场景的中间部分,我们才能详细而色彩鲜明的看清楚。偏离中间大约10度的位置,神经细胞更加分散并且智能探知光和阴影。也就是说,在我们视觉世界的边缘是无色、模糊的。因此,我们才会存在“变化盲视”,才会在经历着多样事物发生时,仅仅关注其中一样,而忽视了其他样事物的发生,而且不知道它们的发生。而机器在这方面就有着更多的优势,它们能够发现和记录视力所及范围内发生的所有事情。拿应用最广的视频监控来说,传统监控需要有人在电视墙前时刻保持高度警惕,然后再通过自己对视频的判断来得出结论,但这往往会因为人的疲劳、视觉局限和注意力分散等原因影响监控效果。但有了成熟的图像识别技术之后,再加以人工智能的支持,计算机就可以自行对视频进行分析和判断,发现异常情况直接报警,带来了更高的效率和准确度;在反恐领域,借助机器的人脸识别技术也要远远优于人的主观判断。
许多科技巨头也开始了在图像识别和人工智能领域的布局,Facebook签下的人工智能专家Yann LeCun最重大的成就就是在图像识别领域,其提出的LeNet为代表的卷积神经网络,在应用到各种不同的图像识别任务时都取得了不错效果,被认为是通用图像识别系统的代表之一;Google 借助模拟神经网络“DistBelief”通过对数百万份YouTube 视频的学习自行掌握了猫的关键特征,这是机器在没有人帮助的情况下自己读懂了猫的概念。值得一提的是,负责这个项目的Andrew NG已经转投百度领导百度研究院,其一个重要的研究方向就是人工智能和图像识别。这也能看出国内科技公司对图像识别技术以及人工智能技术的重视程度。
图像识别技术,连接着机器和这个一无所知的世界,帮助它越发了解这个世界,并最终代替我们完成更多的任务。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~