Amazon的Echo意外获得了成功之后,现在大家都在跟风,就连大厂Google也在前几天发布了自己的Google Home,其实就是一个Echo的翻版。其实这两个产品的最大的特色并不是语音对话,而是更自然的交互,也就是远场的语音识别。
语音对话从Apple的Siri开始,那是很久以前的事了,那一年乔布斯还在世。现在在智能手机里面已经是标配了,我个人觉着国外Google做的好一点,Microsoft和Apple也还可以,Amazon倒是后起之秀;国内讯飞和百度差不多,腾讯和阿里都在自己研发类似技术,还有一些小公司也在做。除了语音助手,智能电视遥控器里面也很普及,比如按住小米电视遥控器的Home键,然后就可以说要看什么电视剧或者电影,系统就会帮你找到。
但是不论是手机上的语音助手还是电视等设备的遥控器,用户对于语音的接受度并不高,只有百分之几的使用率。
我觉着原因第一是体验不够好,尤其是在国内,对话的体验很差,经常上句不接下句,做个Demo还可以,日常用经常要骂娘。
第二是有可以替代的体验,手机上可以触摸,电视上可以上下左右选择,还都有很好的屏幕的视觉反馈,语音并不是必须的。
那为啥同样的技术放在智能家居里面大家就觉着这个体验好了呢,我猜有两个原因:
一是智能家居用户基数少,以能折腾的玩家为主,对于语音的接受度高,用户的学习能力也强,就算是体验不好用户也能自我纠正。
二是远场语音识别的体验已经可用了,而音箱这样的设备并没有别的输入输出形式,只能用语音,没有比较也就没有互相伤害。
远场语音识别主要靠的是硬件,灵敏度更好的麦克风阵列,可以定向识别语音,强大的噪声消除算法,可以在有环境噪音的时候分辨出人声。这类硬件成本目前还在人民币一百元以上,而普通的一个麦克风也就几块钱成本,这也就是为什么带远场语音识别的设备都比较贵了。即使是有了好的硬件,也要做一些体验的优化,比如唤醒词,音节越多对比越大越好,Amazon的Echo的唤醒词是“Alexia”,Google Home的唤醒词是“OK Google”,这样才能保证高的准确率和低的误识别率。
插播广告,小米生态链企业上海创米做了一个高端的摄像头,名字叫小白。设计的时候也有语音识别功能,放了两个麦克风,用的是讯飞的语音识别算法,已经是国内最好得了。实际测试的时候发现,只能在一米以内才能把提体验做好。唤醒词最早的时候是“小白”,实测发现误识别率很高,后来改成了“小白小白”,好了一些。鉴于它是一个摄像头,最终改成了“小白看过来”,它听到后会把头转过来,还是很萌的,有这款产品的可以试试。研发团队正在研发二代,估计会加入远场语音识别,价格也会高一两百块钱。
广告结束,说一下我的一点浅见。
这类语音对话设备只是一个开始,将来也未必是音箱这种形态,关键是技术成熟,成本用户可以接受。这样你可以对着空调说话,对着灯说话,它们都会听你的,仿佛这些设备都有了生命。而用户也很自然的接受这些设备是可以对话的,那个时候才是语音对话设备的爆发期。
用户对于这类体验的向往已经有了上千年,也体现在很多文学作品里面。比如《白雪公主》,里面的女王有一个魔镜,那就是一个非常典型的语音识别设备,唤醒词是“魔镜、魔镜告诉我”,可能当时的技术还不太成熟,要这么多音节才能唤醒。魔镜背后是强大的搜索能力,比如“谁是世界上最美丽的女人”,现在Google已经有那么个意思了,强大的深度学习能力,回答这个问题是小菜一碟。除了搜索,还有其它服务的整合,比如百度还能给你送外卖。