探秘机器人是如何进行深度学习

日期：2016-10-19

核心提示：一个人独处时，感觉有点孤单，怎么办?微软亚洲研究院推出的“微软小冰”，或许可以像闺蜜一样地跟你聊天解闷。3.0版本的“小冰”除了具有“评颜值”“选搭配”等功能外，还基于深度学习技术具备强大的视觉识别能力。它在看到一张图片后，可以基于情感给出人性化回复，且秒回速度缩短到250毫秒。

一个人独处时，感觉有点孤单，怎么办?微软亚洲研究院推出的“微软小冰”，或许可以像闺蜜一样地跟你聊天解闷。3.0版本的“小冰”除了具有“评颜值”“选搭配”等功能外，还基于深度学习技术具备强大的视觉识别能力。它在看到一张图片后，可以基于情感给出人性化回复，且秒回速度缩短到250毫秒。

不仅仅是“微软小冰”和围棋高手“阿尔法狗”，从互联网搜索到语言翻译，乃至识别患有自闭症风险的基因……凡是需要从大量数据中预测未知信息的领域，都是深度学习可以一展拳脚的地方。那么，什么是深度学习技术?它将怎样改变人类的生活?

万张图片中发现重复的猫

2011年，谷歌一家实验室的研究人员从视频网站中，抽取了1000万张静态图片，把它“喂”给谷歌大脑，目标是从中寻找重复出现的图案。3天后，谷歌大脑在没有人类帮助的情况下，从这些图片中发现了“猫”。

这个谷歌大脑就是一个采用深度学习技术的大型神经网络模型，由1000台电脑组成。这件事当时在科技界引起了轰动，被认为深度学习复兴的里程碑。

所谓深度学习，就是用多层神经元构成的神经网络，以达到机器学习的功能。这些多层的电脑网络像人类大脑一样，可以收集信息，并基于收集到的信息产生相应的行为。

传统的机器学习方法一般只能挖掘简单的线性关系，如1+1等于2。然而，大千世界并不是这种简单关系所能描述的，如收入与年龄、性别、职业、学历的关系。深度学习的出现改变了这种现状，它的灵感来源于模仿人类大脑神经网络。

科学家发现，人类大脑皮质不是直接对视网膜传递过来的数据进行特征提取处理，而是让接收到的刺激信号通过一个复杂的网络模型进行筛选。这种层级结构大大降低了视觉系统处理的数据量，并最终保留了有用的信息。

上世纪60年代，生物学家在研究猫的脑皮层时，发现其独特的网络结构能有效降低反馈神经网络的复杂性，继而提出“卷积神经网络”。利用这种网络结构编写的深度学习程序，适应性很强，成为人工智能的突破口。

语音识别改变人机交互

简单地讲，深度学习技术是对人脑的一种模拟，因而可以完成很多人脑所具有的功能。

最为人所熟知的是视觉功能。我们的相机可以像眼睛一样看到这个世界，却不能像大脑一样看懂这个世界，深度学习恰恰补上了这个短板。有了深度学习，百度识图可以准确识别照片中的物体类别，并对照片进行自动归类或搜索。有了深度学习，我们可以很方便地刷脸付款。有了深度学习，特制机器可以检测一定空间内所有人员、车辆的行踪，并对可疑和危险事件及时报警。

同时，深度学习技术在语音识别方面，也有广泛的应用。在深度学习的帮助下，计算机拥有越来越强大的语音识别能力，这可能改变目前仍以键盘为主的人机交互模式。

深度学习还和增强学习相结合，正深刻改变着机器人领域。所谓增强学习，指的是机器人通过与环境交互中得到的奖赏和惩罚，自主学习更优的策略。前段时间引人关注的“阿尔法狗”就是增强学习的产物，它通过跟棋手下棋或跟自己对弈的输赢情况，摸索出更好的下棋策略。

什么让深度学习实现超越

不过，创造一个强大的神经网络需更多处理层。而由于硬件限制，早期仅能制造2至3个神经层。那么，是什么让深度学习实现超越呢?

显然，高性能计算能力的提升是一大助力。这些年GPU(图形处理器)、超级计算机和云计算的迅猛发展，让深度学习脱颖而出。2011年谷歌大脑用了1000台机器、16000个CPU处理的深度学习模型大概有10亿个神经元。而现在，我们已经可以在几个GPU上完成同样的计算了。

“深度学习还得到大数据的助力，就像火箭有了燃料。”格灵深瞳计算机视觉工程师、清华大学自动化系博士潘争介绍，深度学习技术建立在大量实例基础上，就像小孩收集现实世界的信息一样。而且，“喂”的数据越多，它就越聪明，并且不会“消化不良”。因为大数据的不可或缺，所以目前深度学习做得最好的基本是拥有大量数据的IT巨头，如谷歌、微软、百度等。

现在，深度学习技术在语音识别、计算机视觉、语言翻译等领域，均战胜传统的机器学习方法，甚至在人脸验证、图像分类上还超过人类的识别能力。专家预计，再过些年，我们口袋里的手机也可以运行像人脑一样复杂的神经网络。

不过，就目前的趋势来看，深度学习技术仍然无法代替“坐在后台监控室的人”。举个例子，如果你和朋友在一家饭店里用餐后抢着结账，这种推搡过程，智能摄像头尚难以判断是在打架还是怎么了。可见，逻辑判断和情感选择，是深度学习尚难以逾越的障碍。

案例一眼就能识别坏人的系统

专注于计算机视觉及人工智能的科技公司格灵深瞳，将基于深度学习技术研发的智能识别系统，运用到银行安防监控领域。

考虑到传统光学镜头在识别图像时会丢失“深度”维度，格灵深瞳专门为银行安监开发了一套三维传感器。在它的背后，一套奖惩机制训练成的算法模型能够主动识别异常。“看见有人走近了一个有人的自动柜员机，而不是旁边那个空着的，此时要识别他的轨迹、判断其行为是否正常，就牵涉到深度学习。”格灵深瞳CEO何搏飞介绍，如果系统识别出异常，它就会推送给后台监督者。而为了教会机器判断准确，背后需要提供几十万量级的图片数据。

何搏飞指出，给这个智能识别系统一张侧脸或者是没有脸的全身照，它也能以超过99%的精度迅速锁定目标。前提是建一个6000到1.5万的样本库，“一旦样本达到百万级，可能精度要下降20%或更多。”

标签： 深度学习语音识别机器人人工智能

14

更多>同类技术

全年征稿 / 资讯合作

2398080099

联系邮箱：

版权与免责声明

凡本网注明“来源：CK365测控网”的所有作品，均为北京新科时代传媒信息技术有限公司-CK365测控网合法拥有版权或有权使用的作品，未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：CK365测控网”。违反上述声明者，本网将追究其相关法律责任。
本网转载并注明自其它来源的作品，目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品来源，并自负版权等法律责任。
如涉及作品内容、版权等问题，请在作品发表之日起一周内与本网联系，否则视为放弃相关权利。

推荐图文

传感器的爆炸式增长下，隐私问题将重新定义	RFID技术在小区安防系统中的应用
基于RFID技术的核心物品实时监控管理系统	基于3G的RFID身份识别系统安全研究

推荐技术

可能喜欢

• 基于多层深度学习框架和运动分析的驾驶员疲劳监测系统	• 对比深度学习和经典机器学习，分别介绍这两种技术的优缺点
• 人工智能没那么简单这些误解你有吗？	• 人工智能在金融行业应用
• 读懂机器学习、数据科学、人工智能、深度学习和统计学之间的	• 人工智能、机器学习和深度学习的联系与区别
• 人工智能技术在安防领域的应用	• 人工智能大盘点：中美差距有点大
• 深度学习放到VR上会是什么样的？	• 从人机博弈看深度学习技术在安防中的应用