声控界面在手机、电视和汽车上不断出现。一家公司相信可以让声音控制一切。
与计算机交谈的想法直到最近还似乎完全是科幻小说里的情节。如果你让一台电脑去“把舱门打开”——不好意思,那只是电影里的台词。
不过,情况正在改变,迅速改变。现在有越来越多的人开始与自己的智能手机交谈,让其发送电子邮件和短信、搜索方位或在网上搜寻信息。
Nuance通信公司(NuanceCommuNIcations)首席技术官弗拉德·塞吉诺阿(VladSejnoha)说:“我们现在正处在一个转折点上,语音和自然语言理解突然成了前沿事物。我认为语音识别将真正颠覆现在的电脑界面。”该公司位于马萨诸塞州伯灵顿市(Burlington,Massachusetts)。公司的龙软件(Dragonsoftware)以及其他产品统治着语音识别市场。
语音识别的实现要部分归功于让机器听懂人类语言的技术所取得的稳步发展,这些技术包括机器学习、统计数据挖掘技术等。尖端语音技术已经在呼叫中心得到了广泛应用,它可以通过菜单引导用户操作,并识别出已经生气的,应转接至真人客服代表处理的顾客。
现在,高性能移动设备的快速普及使语音界面变得更有用,也更流行。
麻省理工学院(MIT)的一位高级研究人员吉姆·格拉斯(JimGlass)从1980年代起就致力于语音界面的研发。他认为,现在的智能手机的处理能力已经赶上他在1990年代的实验室中的电脑。智能手机也通过与云系统连接获得了高带宽数据传输能力,云服务器可以处理语音识别以及理解语音问询等繁重任务。格拉斯说:“数据与计算能力之间越来越广泛深入的结合表明,你在今天可以做以前做不到的事情。你可以运用更复杂的统计模型。”
有关移动语音界面的最明显的例子当然就是Siri,这是最新款iPhone中内置的一种语音激活式个人助理程序。不过,Android、WindowsPhone平台以及其他移动系统也内置了语音功能以及许多此类应用程序。虽然这些语音界面仍然有相当大的局限性,但是我们正在向可以真正与之交谈的机器界面慢慢接近。
Nuance公司是语音技术兴起的核心企业。该公司1992年创立时名为Visioneer,到现在已经开展了数十项语音技术业务。Nuance目前在全世界35个国家和地区有6000多名员工,2012年第二季度收入达3亿9030万美元,较去年同期增长22.4%。
Nuance公司近年来将其语音识别技术用于满足新兴市场对语音界面的需求。公司为许多企业提供语音识别技术,业界广泛认为Siri的语音组件是该公司提供的。
Nuance公司首席技术官表示,语音技术可以与移动计算实现完美搭配,因为用户的手和眼睛都被占用了——还因为只需一条语音指令,就能达到那些一般需要多次滑动和按键才能取得的效果。塞吉诺阿说:“你突然找到了一块新的‘积木’,可以用这种新方式去解决问题。我还认为,我们在以后设计现代设备的基本用户界面时,都要记住这一点。”
受到语音软件在手机上成功应用的启发,Nuance公司进而希望将自家的语音界面应用于更多场合,最引人注目的是在电视和汽车上,二者都是成熟的、广受欢迎的创新平台。
观众现在要在电视上寻找节目或是预约录制节目,就必须用遥控器在难用的菜单里找来找去,遥控器也从来不是用作输入文字信息的。那些本该让人们很轻松就找到节目的产品,例如谷歌电视(GoogleTV),对那些只是想在晚上找个娱乐节目放松一下的人们来说过于复杂了。
塞吉诺阿在Nuance研究实验室展示了这种运行在模拟客厅中电视上的名为“龙”的软件。一位工作人员说:“龙,找几部梅丽尔·斯特里普(MerylStreep)演的电影出来。”软件界面马上扫描频道列表,从中选出了几部合适的电影。这种技术的一个版本已经应用在三星(Samsung)公司生产的几款电视机上。
业界盛传苹果公司正在开发自家的电视机,可能会把Siri当作这种电视机的遥控器。沃尔特·艾萨克森(WalterIsaacson)在为史蒂夫·乔布斯(SteveJobs)所作的传记中更暗示了这一点,这位已故的苹果公司前CEO曾表示他将“最终解决”电视界面问题。
与此同时,福特公司(Ford)所生产汽车上的同步娱乐系统已经应用了Nuance公司的技术,能为驾驶员显示方位、天气信息和歌曲等。约有400万辆当前已经上路的福特轿车装有语音识别版同步系统。Nuance公司在上周发布了DragonDrive软件,可以让其他汽车制造商为其产品添加语音识别功能。
无论是汽车还是电视都颇具挑战性。语音界面在智能手机上变得流行的一个原因是,用户可以直接对着设备的麦克风说话。Nuance公司为了保证电视机和汽车上的语音系统也能正常工作(这些设备的工作环境都有更大的背景噪音),正在开展阵列式麦克风和降噪技术方面的实验。
Nuance公司为那些想在应用程序中内置语音识别技术的开发人员发布了一系列软件开发工具包。位于俄勒冈州亚什兰市(Ashland,Oregon)的Montrue科技公司(MontrueTechnologies)使用Nuance公司的移动医疗软件开发工具包(SDK)开发了一款iPad应用,医生可以通过口述记笔记。
Montrue科技联合创始人、首席执行官布赖恩·菲尔普斯(BrianPhelps)就是一位急诊医生。他说:“语音识别已经有了很大进步,它已经达到即开即用就能有惊人的准确性。”
这些软件开发工具包反过来也成就了Nuance公司的地位,软件通过其服务器发送更多的语音数据,帮助该公司改进了语音识别和语言处理算法。Nuance公司称其数据都以匿名的格式保存,以保护隐私。
塞吉诺阿相信,移动语音界面在几年内将更加流行,也更加强大。他说:“我应该只是对它说话,而不用去碰它。它会一直等着我的命令语句,然后就只是去执行——显示日历、编好一条短信或是打开一个浏览器并跳转到你想看的页面。”
人们甚至与自己穿戴的计算机交谈,就像谷歌正在开发的那种可以拍照的眼镜。据Nuance公司知情人士透露,他们正在积极筹划让语音技术能够在可穿戴式计算机上运行。