人工智能如今已经成为科技产业所讨论的普遍话题。这项技术已经被应用在了Gmail、自动驾驶汽车和照片整理上面,MarkZuckerberg甚至还打算开发一位人工智能管家。但问题在于,人工智能这个概念有点太科幻了,它总是让人想起操纵宇宙飞船的超级计算机,而不是特别聪明的垃圾邮件过滤器。如此一来,人们已经开始担心人工智能会在何时造反并统治人类了。
科技公司在一定程度上也鼓励着人们忽略人工智能到科幻人工智能之间的差距,但当你试图去理解计算机所做的事情时,就会很容易了解到它们的区别。本文要讲的就是人工智能在消费应用领域里最常见的应用方向,当前技术的限制,以及为什么说我们还没必要担心机器人的崛起。
神经网络、机器学习和深度学习到底是什么
这3个名词如今拥有相当高的出现频率。它们可以被看作是3个不同的层次:神经网络位于底层,它是建立人工智能的计算机结构;机器学习是下一层,它是可以在神经网络上运行的一个程序,可训练计算机在数据当中寻找特定的答案;深度学习处在顶层,这是一种在最近10年里才流行起来的特性类型的机器学习,而它的流行主要得益于廉价处理性能和互联网数据。
神经网络的概念可以追溯到50年代人工智能的开端。简单来说,它是一种建造计算机的方式,使其看上去像是一个卡通化的大脑,当中由神经一样的节点连结成网络。这些节点本身都很笨,只能回答最基本的问题。可一旦组合在一起,它们就可以解决复杂问题。更为重要的是,有了正确的算法之后,它们还能拥有学习能力。
纽约大学计算机科学教授ErnestDavis这样介绍道,假如你想让计算机学习如何过马路,在传统编程方式下,你需要给他一套非常具体的规则,告诉它如何左右看,等待车辆,使用斑马线等等,然后让它尝试。而在面对机器学习时,你只需向它展示10000部安全横穿马路的视频(以及10000部过马路被车撞的视频)就行了。
在这件事上面,如何让计算机吸收视频当中的所有信息是一大难点。在过去的几十年里,研究者尝试过各种办法来教计算机,其中就包括增强学习和遗传算法。前者需要你在计算机达成目标时给予其奖励,以逐渐优化最佳解决方案;后者则会以类似物竞天择的方式对解决问题的不同方法进行对比。
在如今的计算机领域,有一种教学方法变得特别实用,那就是深度学习。它是机器学习的一种类型,会利用神经网络中的诸多层面以不同的抽象化方法对数据进行分析。当深度学习系统面对着一幅画时,神经网络的每一层会对其进行不同程度的放大。底层可能会关注5x5像素网格,然后判断是否有东西在当中出现。如果有的话,它上面的那一层就会开始查看该网格是如何适配到更大的图案中的。这个过程会逐渐累计起来,让软件利用逐步分解的方式去理解哪怕是最复杂的数据。
接下来,假设我们想要使用深度学习让计算机了解到猫的样子,我们首先需要利用神经网络的不同层面来识别猫身上的不同元素:爪子、脚掌和胡须等。然后,神经网络会观察一大堆猫和其他动物的图片,并被告诉哪些是猫哪些不是。随着时间推移,它会记住哪些层面是重要的,并增强或忽略当中的部分联系。比如说,它可能会发现爪子和猫具备强烈的关联,但同样会出现在其他动物身上,因此它就知道去寻找爪子和胡须同时出现的情况。
这是一个漫长而又重复的过程,系统会根据反馈缓慢提升自身能力。在这个过程当中,人类可以去纠正计算机,而如果网络本身拥有足够多的标签数据,它也能自己进行测试,来查看如何利用自身的所有层面才能产生最准确的结果。认出一只猫已经如此困难,那些需要去识别世间万物的系统的复杂程度也可想而知。这也正是为什么微软会推出一款应用来辨别不同品种的狗。在我们人类看来,杜宾和雪纳瑞之间的区别可能非常明显,但计算机在能够分清两者之前需要去定义大量的区别。
这就是谷歌、Facebook和其他公司所使用的技术吗?
大体上讲的确如此。
深度学习技术如今已经被应用在了各种日常任务上面。许多大公司都拥有自己的AI部门,Facebook和谷歌还通过软件开源的方式公开了自己的研究成果。谷歌甚至推出了一个为其3个月的免费在线课程来介绍深度学习。学术研究者或许可以相对低调地进行研究,但这些企业几乎每周都会为这项技术推出创新的应用方式,从微软的情绪识别网页应用到谷歌的超现实DeepDream图像。这也正是我们在最近会频繁看到深度学习相关信息的原因:大型消费类技术公司都在捣鼓这项技术,并向我们分享自己奇奇怪怪的工作成果。
但是,虽然深度学习在语音和图像识别方面具备出色能力,但它同样存在相当多的限制。这项技术不仅需要大量的数据和微调,它们的智慧也是狭窄且脆弱的。就像认知心理学家GaryMarcus所说的,这种热门技术“缺乏呈现因果关系(比如疾病和症状)的方式,在学习抽象概念上面也存在困难。它无法执行逻辑推理,在整合抽象知识(比如某个物体的名称、用途和使用方式)上面也还有很长的路要走。”换句话说,深度学习并没有任何常识。
举个例子,在谷歌的一个研究项目当中,他们首先向神经网络呈现哑铃的样图,然后让它独立生成一张图片。从结果来看,神经网络所生成的图片还不错:一根横向握把连接着两个灰色的圆环。但握把的中间总是会出现手臂肌肉的轮廓,这是因为训练时所用图片当中通常都有健身爱好者举着哑铃。深度学习或许可以了解到成千上万图片当中哑铃的基本视觉属性,但它永远都不能作出认知上的跨越,认识到哑铃并没有长胳膊。这种问题并不单单存在于常识的范畴。由于检验数据的具体方式,深度学习网络还能被随机的像素图案所欺骗。
不过这种限制可以被巧妙地隐藏。就拿Siri这样的数字助手为例,它们经常可以理解用户的命令,或是抖点小机灵。但就像计算机科学家HectorLevesque说指出的那样,这些小花招恰好显示出了人工智能和真正的智能之间巨大的差距。他提到了图灵测试,称在这项挑战中取得最佳成绩的机器都会利用小花招来让人们认为它正在和自己讲话。它们会使用笑话、引用、情绪爆发、错误引导和所有的语言回避来混淆和干扰提问者。没错,在去年通过图灵测试的计算机号称自己是一位13岁的乌克兰男孩,这也成为了它偶尔出现无知遣词不当的借口。
Levesque认为,测试人工智能的一种更好方式是向计算机提出超现实但逻辑合理,同时需要广泛因果知识才能回答的问题,比如“鳄鱼可以参加越野障碍赛马吗?”,或者是“棒球运动员可以在帽子上粘上小翅膀吗?”可想而知,计算机在尝试回答这些问题之前需要拥有多么大的知识储备。
如果这不是人工智能,那它是什么?
这正是使用人工智能这个名词的困难之一:它太难以去定义了。业界对此所达成的共识是,只要机器完成了一项之前只有人类才能做到的任务——比如玩国际象棋或认脸——那它就不再被认为是智能的标志了。就像计算机科学家LarryTesler所说,智能指的是那些机器还做不到的事情。而即便计算机能够完成某些任务,它们也无法取代人类智慧。“我们说神经网络就像人类大脑,但事实并非如此,”Facebook人工智能研究团队主管YannLeCun说道,“这就好像飞机不是鸟一样。它们不能扇动翅膀,也没有羽毛或肌肉。”如果我们真得创造出了人工智能,它也“不会像人类或动物的智慧”。比如说,我们就很难去想象一个智慧体会没有自我保护的意识。
许多AI领域的业内人士都不认为我们会创造出具备真正有感知能力的人工智能。“目前的方式无法(让人工智能)具备灵活性,或是处理多任务和执行编程范围之外任务的能力。”MIT大脑、思维和机器中心AndreiBarbu教授这样说道。他还提到,效率的AI搜索不过是创造出为解决特定问题微调过的系统。尽管研究者曾经尝试过无人监管的机器学习——让系统观察未被分类和标记的数据——但这目前还处于非常初级的阶段。谷歌就有一个类似的神经网络项目,通过随机观察来自1000万部视频的缩略图,它最终教会自己猫的样子,但制作者并未公布任何除此之外的能力。就像LeCun在2年前出席OrangeInstitute的一场活动时所说的:“我们不知道如何进行无监督学习,这是最大的障碍。”
作为一个研究项目,人工智能还经常会受到夸张宣传的影响。当一种新方法被发现且研发进度加快时,评论者(通常还包括计算机科学家)会大胆假设这种发展速度会很快让机器人管家成为现实。纽约时报早在1958年就曾有过类似报道,当中把一种非常早期的AI形式——可以分辨左和右的区别——描述为电子“胚胎”,未来某天将能够“走路、交谈、观察、书写、繁殖,并具备自我存在意识。”当这类承诺未能兑现时,该领域便会陷入所谓的AI寒冬,也就是悲观主义盛行和资金减少的时期。历史上出现过十几次小规模的AI寒冬,70年代末和90年代初还有两次大寒冬。虽说每一个科研领域都会经历类似的时期,但值得注意的是,很少有一门学科会如此“可靠地”让自己的信徒一再失望,以至后者为此想出了一个专有名词。
人工智能只不过是噱头和糊弄人的把戏吗?
这样说有些以偏概全了。如何看待人工智能取决于你对它有着怎样的期待。我们的机器的确越来越智能,但这并不是我们可以轻松归类的。就拿特斯拉的自动驾驶软件为例,公司总裁ElonMusk将其描述为一种汇集数据的“快速学习网络”,好让旗下所有汽车在同时进行学习。这个研究项目的最终目的不会是一般的人工智能,但它的整个计算机网络的确会具备相当高的智能性,这也就是被LeCun称作是“隐形智能”的东西。
试想一下,未来你将拥有一台不会出差错的自动驾驶汽车,当中还有一位先进的数字助手。这或许是Levesque教授看不上眼的那种欺骗把戏,但却能让任何人将其当作人类来对待。你们会在早上上班时互相说笑话,聊聊新闻,安排自己的行程表,或是在需要时改变目的地——一切都会在这部不仅了解道路规则、还能应对其他车辆的自动驾驶汽车中进行。到了那时,我们真的还会在乎这种人工智能到底是真是假吗?