作为人工智能的两个分支,计算机视觉与机器视觉在近年都取得了长足的进步。前者自2010年以来,随着深度学习再度流行并用于目标识别,在人脸识别等方面已经超过了人类;而后者在工业应用方面,也有不少突破性的应用。
但是,在消费级市场方面,计算机视觉与机器视觉的进展并不大。不少人对于计算机视觉与机器视觉在消费级市场能有多大实质性地应用,存在深深地担忧。
计算机视觉与机器视觉
首先,我们有必要理清楚机器视觉与计算机视觉之间的关系。从学科分类上, 二者都被认为是 Artificial Intelligence 下属科目,不过计算机视觉偏软件,通过算法对图像进行识别分析,而机器视觉软硬件都包括(采集设备,光源,镜头,控制,机构,算法等),指的是系统,更偏实际应用。简单的说,我们可以认为计算机视觉是研究“让机器怎么看”的科学,而机器视觉是研究“看了之后怎么用”的科学。
机器视觉离消费市场有多远?
计算机视觉与机器视觉的问题是,前者太学术,后者太工业,因而一直以来在消费级市场缺乏好的产品。图漾创始人费浙平向雷锋网(搜索“雷锋网”公众号关注)记者说,机器视觉的很多核心技术和原理多年前就比较成熟了,近年来的进展主要集中在工程化,比如GPU和视觉计算加速器的出现解决了计算量问题。但与此同时,要想把视觉技术实现真正产品落地,中间还有不少其他问题,他们也在摸索中。
视觉技术在消费级市场最早的尝试是微软的Kinect。2010年,微软联合深度摄像头技术方案提供方PrimeSense正式对外推出Kinect,利用骨骼捕捉技术,Kinect可以捕捉游戏玩家的骨骼动作,从而让游戏玩家可以不接触屏幕即可玩游戏。在Kinect之后,华硕、Intel、谷歌以及苹果也相继在深度摄像头的应用场景上跟进,一切都看起来往好的方向发展。
但深度摄像头作为独立产品,市场化难度颇大。例如Intel在13年在开发者会议上宣布,将推出自己的微型深度感知模块,华硕、戴尔、惠普、联想等多家 PC厂家都将从2014年下半年开始在产品线中部署这款深度感知模块。而两年多过去了,曾经预言的集成深度摄像头的产品迟迟未见。
那么,处于计算机视觉和机器视觉交叉部分的深度摄像头,应该如何打开消费级市场?
深度摄像的瓶颈
深度摄像头也称RGBD摄像头。我们常用的摄像头是RGB摄像头,单一个摄像头便能感知彩色可见光信息(Red、Green、Blue),而RGBD摄像头是在我们常见的RGB摄像头基础上,增加了深度信息。
深度摄像头获取图像方式分为主动式获取和被动式获取。二者的主要区别集中在观测传感器是否主动向环境发出探测光。如大疆精灵4上的双目视觉便是被动式获取深度图像,其技术特点是摄像头不主动向环境中发射能量,而通过两个以上摄像头计算特征点的坐标差得出感知环境中现有能力得到信息,这一方式与人类双眼获得时差的方式最为相近,但最大的弊端在于限于目前的技术,目前的识别精度还不高,过于依赖光线,而且无法处理特征不明显的场景,所以强光暗光都会导致深度计算的失效。
主动式获取所采用的方式则是从蝙蝠等生物上寻找灵感,通过主动发射探测光通过计算获取深度图像。这当中又分为三类:“RF-modulated light sources with phase detector”、“Range gated imagers”、“Direct Time-of-Flight imagers”,如Kinect一代所采用的PrimeSense就属于第二类,随着苹果收购PrimeSense,微软也在Kinect二代中改为微软自有技术,一般认为二代采用的是直接TOF的技术。
以Kinect的深度摄像头为例,它包含了一个红外投射器、一个RGB摄影头和一个红外感应器,由于深度摄像头自带光源,而且是不可见的红外光,对我们的生活无任何影响。似乎深度摄像头获取景深信息就已经完美了,但也有他的弊端。由于是主动方式,两个同波段红外光会出现干涉,导致两台一样的深度摄像头没有办法一起使用,而且受发射功率的影响,检测距离也会受到很大影响。
市面上常见的深度摄像头,Kinect距离最远,但也需要最高达到12W的用电供给,拖一根供电线很是累赘。同时,深度摄像头还难以应用于户外,因为阳光中也有红外成分,会对主动红外光部分造成干扰。红外光对于玻璃情景,也无计可施,出现无法探测距离的情况。
机器视觉离消费市场有多远?
Kinect获取的深度图像
艰难中的尝试
Kinect一代售罄一空之后,对Kinect二代的绑定更加严厉,这更加抑制了销售量;Leap Motion两年前由于销售情况不如预期,不得不解雇了 10% 的员工,切入虚拟现实;苹果收购了Primesense之后也不知道在盘算什么小九九,有分析称苹果打算放在iPhone上,这样我们拍照时就能拍出3D效果的了;另一边Intel则将目标对准了机器人无人机,比如小米的机器人Segway Robot以及昊翔的无人机Typhooon H。机器人和无人机正是这两年的大热产品,看起来Intel可能会成为赢家,但因为Segway Robot和Typhooon H都还未正式上市,因此效果如何还有待验证。也就是说,在消费级市场还没有一个特别成功的案例。
机器视觉离消费市场有多远?
而在国内,Intel的RealSense出来之后,给了国内一些创业者的信心,因此催生了一批相关的创业企业,但目前成规模的应用也寥寥无几。
奥比中光是其中最早实现量产的,其深度摄像头与Kinect一样,主要应用在一些电视游戏上;与奥比中光有直接竞争的是华捷艾米,只不过在产品量产上,华捷艾米的进度慢了一步;图漾的产品则正在准备量产阶段中,瞄准的方向都是些行业应用,似乎对消费应用还在观望阶段;格灵深瞳正在做应用在自动驾驶汽车上的深度摄像头;速感看好机器人;
机器人是目前热门的应用领域,目前机器人的路径规划大多使用雷达,雷达虽然只能建立平面的深度图像,但市场上已经有公开产品,而且雷达的导航所用到的SLAM方案已经比较成熟,而视觉导航的SLAM方案则还很少见,iRobot是较早开始在其扫地机器人上使用SLAM方案,不过也不到1年时间,因此想要在机器人上使用视觉避障与导航,看起来还需要一段时间。