在智能家居给人们带来便捷生活的同时,人们的控制习惯逐渐发生改变。语音技术的发展也为控制入口做了一个补充,在抛去了传统遥控器和手机APP之后,通过口令发送让家居环境达到舒适状态,让生活更便捷智能,这是否会成为智能家居行业下一个阶段的普遍应用?
远场语音识别、云端语义辨识、人工智能应用等等一个个技术节点得到新的突破,为智能家居提供了新的控制入口选择。本文将从技术趋势、解决方案、产品应用、项目实施等多角度为您呈现语音控制技术在智能家居产品和集成项目中的应用前景。
所谓智能语音产业,主要指通过语音合成技术和语音识别技术,为用户提供各种服务的产业。一般来说,用户只需要用说话的方式给服务终端发布命令,就能得到相应的服务。这一产业从上世纪六十年代就已出现,但并不为普通消费者所熟知,消费者对其认知度也比较低。近年来,随着苹果、谷歌、微软等公司先后推出Siri等智能语音服务,这一服务以及相关产业也开始被普通消费者和投资界所关注。
语音控制技术
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。
语音识别是一门交叉学科,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
目前语音控制技术存在的问题
目前,对于语音控制类的智能硬件产品在很多场景下因语音交互体验不如人意而深受诟病,究其原因主要是受限于空间距离、背景噪音、其他人声干扰、回声、混响等多重复杂因素,进而导致的识别距离近、识别率低等明显痛点。
除此之外,单是中国语系、方言和口音就相当多,加上中文的多语义性,所以不同地区的人使用语音控制识别率差异较大。同时,在语义识别上,也存在上下文的关联带来识别的学习难、定位难和建立模型难等问题。
语音识别的几种控制技术
“语音识别”技术相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能。该技术经过语音信号处理、语音特征处理、模型训练及解码引擎等复杂步骤,使机器最终能够将语音中的内容、说话人、语种等信息识别出来。语音控制功能的实现,与用户的使用习惯高度关联。目前的语音控制功能实现方式可分为近场语音识别和远场语音识别二个大类。
近场/远场语音识别技术
近场语音识别,需要用户点击启动,并且用户与终端设备的距离比较近,如手机或其他终端设备,可直接借助这些终端设备的实现控制功能。
远场语音识别,以麦克风阵列远距离拾取的语音数据作为输入数据,通过语音识别的算法将语音信号转写成文字的技术。虽然和近场语音识别技术在原理上是相同的,但是由于音源和麦克风之间的空间距离增大,在声波传播过程中会出现信号强度的衰减和各种噪音干扰,因此需要特殊的语音数据拾取和预处理技术。不同的拾取设备和预处理技术常常会使用于语音识别的声波信号特征发生改变,因此针对不同的远场语音拾取技术,需要对语音识别引擎进行定制化适配和优化。
当语音信号在传播过程中有所衰减,影响采集信号的强度和分辨率,使用的灵敏度非常高的指向性麦克风,同时将麦克风的参数调整到适合远场语音数据的模式,可以最大限度采集清晰的远场语音信号。语音指令声波在传输过程中受到周围噪音的污染,降低声波信号的信噪比,使用定向波速成形技术,抑制方向外的噪音,从而减少噪音对语音信号的干扰。在一个房间里,麦克风拾取的声波不仅仅直接来自于音源,还有音源发出后经过墙壁反射的迟到的声波,形成声音的残留,造成混响。利用多个麦克风采集的数据,通过多通道回声消除算法,将这些不同时间达到的声音数据分离开来,从而消除了混响对声音数据的影响。
唤醒目标检测技术
在远距离用语音进行操控的时候,声音可能来自不同方向的不同人。因此首先要确定哪些是发指令的声音,哪些不是。使用的麦克风阵列波速成形算法,将360度空间垂直划分成若干区域,每个麦克风负责检测一个指定的区域。当某个空间区域里面检测到有唤醒词出现时,对应于该空间区域的麦克风拾音功能就被增强,其他区域的麦克风拾音就被抑制。从而实现了对声音进行有方向有角度的拾取,避免了周围电视机里的说话声音、其他人交谈对语音指令的影响。
播放状态打断技术
在对音箱等设备进行语音控制时,往往该设备处于播放歌曲的状态。由于麦克风安装在音箱上,麦克风和说话人之间的距离要远大于麦克风和扬声器之间的距离,在这样的情况下,采用内外兼顾的方法进行解决。内部使用特殊的回声消除算法从内部减小噪音对麦克风的影响。另外对于震动带来的非线性干扰,传统的线性回声消除方法失效了,因此可以使用非线性回声消除算法提高内部噪声消除的效果。在外部结构设计方面,使用精心设计的麦克风阵列减震结构,使多个麦克风和它所连接的电路板之间的震动减小到最小,从而最大程度的控制高声强导致的音箱本体震动对拾音的干扰。
成熟的语音控制应用解决方案
科大讯飞作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,并在中文语音合成、语音识别、口语评测等多项技术上拥有国际领先的成果。对于智能家居语音控制的应用,必须解决好距离、效率、个性化、方言、唤醒等问题,科大讯飞在这些方面都有非常成熟的解决方案。
距离:远场识别技术打破距离瓶颈
近场识别技术目前已经比较成熟,现在手机上使用的语音输入功能就属于近场识别技术,用户必须在离手机比较近的距离内说话,但在智能家居环境中,用户和智能终端之间的距离被大大增加了,用户能随意用语音控制智能家居的一个必要条件就是在无论你在客厅哪个角落发出指令,设备都能准确的识别,语音识别技术必须突破距离的障碍。
目前室内的语音交互受到背景噪音、其他人声干扰、回声、混响等多重复杂因素影响,导致识别率低甚至无法使用,只能在相对安静、近距离的环境下使用。而远场识别技术将能够很好的解决这些问题。
科大讯飞于2015年3月发布远场识别技术,是目前唯一支持超过5米的语音识别技术,突破了语音交互距离瓶颈,大幅度改进了语音交互的自由度。该技术利用麦克风阵列的空域滤波特性——在目标说话人方向形成拾音波束(BeamForming),抑制波束之外的噪声,结合独特的去混响算法,最大程度的吸收反射声,从而达到去除混响的目的,用户在客厅的任意角落通过语音操控智能家电已成为现实。
效率:快速反应实现秒懂
近年来,随着深度学习理论的爆发式发展及其在语音识别领域获得的显着效果,同时Kaldi等开源语音识别工具也在工业界和学术界逐渐普及,语音识别的门槛持续降低,许多公司都具备了语音识别的能力及相关产品,但是一些产品反应慢,说出一句话往往要等待很久才能显示结果,另外,准确率也不高,存在识别不出来的情况。
针对语音识别准确率和响应速度的问题,科大讯飞持续在核心技术和产品特性上做出创新,在把国际领先的深度神经网络技术引入语音识别的基础上,基于深度神经网络的语音增强算法对输入语音进行“识别关键信息无损”的降噪,通过海量训练语料基础上的高精度声学模型和语言模型训练,并结合极致的解码引擎工程技术,实现了在很小延迟的情况下,做到将去除原始语音的噪声干扰和识别几乎同时,大大提高了语音输入的响应速度和用户体验,在大词汇连续语音识别率上可以达到95%以上,命令词识别率达到99%以上,解码引擎可以在用户说完话40毫秒之内给出结果,真正实现“秒懂”。
个性化:自动学习适应用户使用习惯
每个人在说话时,口音、语速、口头禅都不一样,那么家里的智能设备只会识别一些基本词句显然是远远不够的,它们必须要更懂你。比如,懂你的口音、方言、口头禅以及时不时蹦出的专业词汇等。
让智能设备适应每个人的使用习惯可能吗?答案是肯定的。这里要用的到就是语音识别的另外一项关键技术——个性化识别技术。个性化识别指的是语音识别系统具备自动学习并适应用户使用习惯的能力,你用的越多,它越懂你。一般来说,个性化识别包括发音和语言两方面。其中发音个性化主要是指系统对用户语速、口音等发音习惯的学习,而语言个性化主要是指系统可以对用户的特定词汇,例如人名、地名、口头禅、专业词汇等,具备更好的辨识性。
目前科大讯飞的个性化识别技术已能针对每个人的兴趣点、知识背景等来进行个性化语言模型建模,从而准确识别出个性化的词汇内容。以后你用的越多,语音识别系统就会越懂你。
方言:无拘束随心控制
众所周知,中国的语音及语言博大精深,虽然国家在推广标准普通话方面不遗余力,但是中国真正掌握标准普通话的人群比例还是比较低的,而中国的口音现象则是纷繁复杂,同城市中不同口音的情况也很常见。因此,当这些带有或轻或重口音的人群在使用语音输入时,如果按通常的方法使用标准普通话数据进行模型的训练,就会产生很严重的适配问题,从而影响语音输入时的识别效果。
“方言”现在也不再是语音识别的障碍,得益于各类方言丰富的音频数据、特殊词汇、发音现象等专业资源以及充分利用深度神经网络的自学习特色,目前,讯飞输入法已经陆续支持四川话、河南话、东北话、天津话等15种方言识别,这些方言识别能力同样适用于智能家居环境中。以后,无论你使用普通话还是方言,无论你说话语速快还是慢,普通话标不标准,在家里都能自由地使用语音控制智能设备。
语音唤醒:真正解放双手
由于功耗等方面的限制,智能设备很难24小时都保持在激活状态。因此,要想在家里自由地控制智能家居设备,我们还需要能即时“唤醒”功能,也就是给智能设备加入“语音唤醒”技术。
语音唤醒,是指通过含有特定唤醒词的语音输入来“触发”语音识别系统以实现后续的语音交互。通过该技术,任何人在任何环境、任何时间,无论是近场还是远场,面向设备直接说出预设的唤醒词,就能激活产品的识别引擎,从而真正实现全程无触控的语音交互。
除了说单个唤醒词实现唤醒外,更自然便捷、在技术上更具有挑战性的交互方式是在连续语流中带上唤醒词,以实现唤醒产品并同时实现操控的效果。目前,语音唤醒方案已在部分产品中取得成功应用,比如在灵犀语音助手中,说出“灵犀灵犀,打电话给张三”就可以唤醒设备并自动完成人名识别与拨打电话。
国内外语音控制的市场现状
随着智能家居市场的发展,国外的IT巨头们已先后以智能家居产品与语音相结合的方式进入智能家居领域:谷歌收购NEST布局智能家居,不断强化Google Now的语音入口;苹果HomeKit智能家居平台与Siri也不断加强融合;市场上流行的Echo智能音箱使用了亚马逊的Alexa语音技术;微软也发布语音助手Cortana,将它作为智能家庭领域扩展交互入口。从这些国外科技大佬们对语音产业的重视和投入,可以看出智能语音与智能家居的融合是大势所趋,业内普遍认为语音作为人类信息最自然、最便捷的交互方式,必将成为未来智能家居设备中的重要组成部分。
在国内,语音巨头科大讯飞也在去年8月宣布进军智能家居市场,并于今年3月携手京东成立合资公司——北京灵隆科技,推出了其生产第一个产品——DingDong智能音箱,除了具备音箱的基本功能,还可以作为语音助手,更是智能硬件的控制中枢。除此之外,百度、腾讯等都在打造自己的语音团队。
随着国内外巨头们对语音交互领域投入的增加,语音核心技术正逐步成熟。智能家居作为 IT 产业和制造工业向个人家居领域渗透发展的必然结果,语音技术正不断进入智能家居领域渗透,市场前景广阔。
小贴士
Siri是iOS系统上的语音系统,与Siri对话,就和跟朋友对话一样,可以帮您做很多事情,例如发短信、打电话、预定餐厅、问路等等。也能与Siri做一些很有趣的互动,例如让它帮您抛硬币或者占卜星座。Siri可以在免提模式下工作,可以通过Siri进行语音操作导航寻找最佳驾车路线。Siri也可以与HomeKit一起工作以实现通过语音来控制家里的智能产品。Siri还能对接维基百科、Yelp、烂番茄、Shazam等许多第三方在线服务平台,帮助用户更多地了解与关注世界。
语音交互对于智能家居行业的意义
科技让生活更智能,语音让交互更便捷。语音交互对于智能家居最直接的意义在于将“智能家居”变得真正的智能起来。无论是再技术先进的品牌,再友善的人机交互界面,都没有语音交互控制来的简便直接。所有品牌、所有产品以一个智能控制的概念进驻到人们息息相关的日常生活中的时候,少不了需要一个学习和适应的过程,而语音则不需要,我们所有的日常交流、行为习惯,语言和声音已经成了人们思维中的一部分。所以,如果智能家居能与语音交互融于一体,那么智能家居产业也许会迎来一次划时代的突破。