视觉一直都是人类最重要的感知系统,如今在人工智能时代,这一能力也被“移植”过来,努力让计算机“看懂”所有东西。
“让机器看到”的第一步就是从模仿人类开始。这起源于20世纪50年代的统计模式识别的计算机视觉,主要基于二维技术研究,但结果远不如人类视觉。在如今公认的第三阶段的人工智能中,由于深度学习算法的突破,直接推动了神经网络算法的发展。有趣的是,人类的大脑皮层有一半的神经元与视觉有关,这与神经网络算法中的“神经元”很类似。一旦借鉴人类“视觉”系统之后,神经网络算法直接成为计算机视觉的技术引擎,视觉智能应用场景逐渐丰富起来。
高德:利用视觉惯导技术实现高精地图的大规模生产
导航、驾驶辅助、自动驾驶等技术的不断发展对地图的精细程度提出了更高的要求。常规的道路级地图对于智能交通系统存在很多不足,针对自动驾驶应用的需求,高德提出了利用视觉惯导技术制作高精地图的方法。
高精地图的生产主要从两类要素进行,一类是道路标志牌,例如路面导向指示牌,红绿灯等;一类是地面标识,例如车道分割线,导向箭头等。两种类别的地图要素均要先计算出位置,然后把要素和路网关联,得到要素的属性信息和几何信息。
地图要素的生产把人工作业和自动化提取融为一体。首先,通过外业采集的数据进行图像和轨迹的解算,获取自动化所需的视觉惯导信息,根据视觉惯导融合技术生成地图要素,在自动化地图的基础上采用人工进行Web编辑的模型,提高地图要素的精度,最后存储到对应的数据库中去。
目前,高德完成了全国超过32万公里高等级道路的高精地图数据,采用了搭配激光雷达采集、图像视觉惯导融合两种方式。通过图像视觉惯导结合的方式采集数据,一方面能大大降低成本。另一方面,基于图像视觉的高精地图在识别上具有一定优势,能提高车道级别要素作业的效率。
影谱科技:利用智能影像技术实现影像内容自动生产
清科研究中心发布报告指出,在计算机视觉技术中,图像识别主要是基于静态图像的识别、分析和应用,未来技术和应用的重点将转向动态图像技术,即视频的智能化获取、识别及处理,最终实现智能影像生产。目前,智能影像已经与文娱、教育、媒体等行业深度融合,形成切实有效的落地方案,体现了强大的商业化能力。而目前文娱领域是智能影像商业化程度最为领先的行业,该领域由影谱科技表现尤为突出。
影谱科技基于新的AI+Video技术组合——“机器自动化生产视频内容引擎MAPE”推出几款针对特定行业定制的AI应用组件,涵盖智能影像生产技术、平台、行业应用落地的全栈布局。该生产引擎将人工智能和互动视频技术结合,提出包括景深测算反推技术与子像素反轨技术、视频叠加技术、优化计算技术及其他技术的完整技术框架,拥有完整的视觉识别(MCVS)、视频结构化(Auto-structuring Video)、自动化视频生产AGC(Auto-Generating Video Content)三大AI组件,帮助媒体和娱乐公司应用非结构化数据,并对他们创建,获取和交付给观众的内容做出更明智的决策。
这是一个新的服务组合,有效补充了行业现有的视频内容开发及应用功能。MAPE使用结构化和非结构化视频数据,利用AI内核帮助客户理解他们的视频数据,分析和收集视频数据中的洞察力,从视频中获取洞察力、结构、情感和视觉分析。根据内容中的图片、语义识别将视频分割为逻辑场景,对内容和上下文的更深入理解来识别场景,自动生产可用的内容和上下文,从而实现视频自动生产。
百度:视觉技术全面升级,软硬结合赋能多领域
机器视觉还在不断升级中,可以模仿人类的眼睛以三维视觉对周围环境进行精确的定位。我们在侦探类作品中常看到读心术,其实这是读微表情。百度云的“情绪识别专家”,透过镜头可以捕捉人的微表情,一不小心就可能比你更懂你的情绪。现在,百度云将三维视觉应用在人脸识别上,活体识别正确率已经提升至99.55%。三维视觉技术可以广泛应用于机器人、无人驾驶、智慧工厂、虚拟/增强现实等方向。
这主要通过两个层面实现:硬件层面,百度云有适用于三维视觉的立体视觉AI传感器,并且采用三维AI视觉模组,使成本大大降低。软件层面,开发了从实时端上运算到大规模云端分布式计算等多种算法。基于百度三维视觉技术,机器可以像人一样看透世界,从而更好地在AR、新零售、工程机械等领域施展才能。
当前,百度计算机视觉技术也已全线开放,包括人脸识别、文字识别(OCR)、图像审核、图像识别、图像搜索5大类别,58项基础能力,已服务于几十万开发者。近日,百度还为自家的视觉技术(人脸识别)发布了新品牌“度目”,并发布了四款硬件产品:人脸应用套件、AI镜头模组、视频分析盒子、人脸抓拍机。“度目”代表着百度大脑整套视觉软硬一体化产品的集合,主要定位于高灵活度、高易用性、高性价比,应用于针对智慧社区、智慧园区内的人脸识别门禁、闸机,驾驶员身份验证与行为分析,视频流下的人员黑白名单识别,购物中心零售客群分析等众多应用场景。
在人脸识别、图像分类等众多任务中,计算机视觉能比人类视觉完成的更优秀。但在其他需要推理的任务,计算机视觉还有很长的路要走。”行业专家表示,“人类能轻易明白物体彼此之间的关联,我们看到一张图就能编出一个故事。但计算机还远不能达到这种程度的理解能力和想象力。”随着计算机视觉技术的不断发展,它将会带来更多新的发现。计算机视觉和 AI 都处于各自发展的初始阶段,还有很多东西值得探索。