未来的智能人机交互技术可以帮助人类从更多繁重的工作中解脱出来,实现真正的心的自由。
键盘主导了DOS,Mac和Windows设备则更依赖鼠标,多点触控成就了iPhone,Kinect让Xbox360走火,一种人机交互技术的革新往往能够影响一个产业。
在全球科技界,人机交互仍然是创新的热点领域,其创新应用出现在不少热门科技产品之中。例如Siri就让苹果iPhone“有问必答、能听会说”,微软Kinect使体感操控成为现实,很多智能电视产品也加入了语音识别和体感操控的功能。
人机交互的方式上也日益多元化。英国的一家科技团队正在尝试创建一个工具,使其能将一套标准手势实时翻译成文字。这个工具被称作“便携式手语翻译(Portable Sign language Translato)”。手语使用者只需对着手机或电脑摄像头做出手势,该工具就可以立即基于数据库将其翻译成文本。他们现在准备支持英国手语,但这套系统完全可以用于处理美国手语(ASL)、默启通手语(Makaton)、国际语言以及字母等。对于残障人士是很大的帮助。
如今智能人机交互的应用越来越广泛,“花样”也越来越多。
Mirage Table:真人与虚拟影像的互动
由微软推出的Mirage Table(幻影桌面)是一项颇为神奇的技术,它将两台3D投影仪、Kinect体感监测仪、3D眼镜以及人的动作结合在一起,打造出一个真人和影像互动的效果。通过MirageTable,人们的所有动作都会被Kinect捕捉并转化称3D影像,然后和已有的3D物品进行交互,比如用手移动影像中的多米诺骨牌、皮球等。同时一个实体物品可以通过虚拟影像复制出多个,也可以将移动虚拟物品到任何位置。
用户只需要佩戴3D眼镜就可以看到MirageTable上3D投影的图像。曲面设计可以让操作者通过投影仪来与虚拟画面实现互动交流,就像打保龄球一样。“MirageTable”还可以实现人与人之间的双向写作,通过Miragetable,两个操作者不仅可以看到对方并谈话,而且一个人可以与视频中另一个人的虚拟对象进行互动交流,甚至可以“触摸”虚拟对象。还可以一起下象棋、搭积木,甚至研究一些比较复杂的项目方案等。
如果说AR(增强现实)技术可以在现实的基础上模拟出虚拟场景,让人进入虚拟版的现实世界,那么Mirage Table则可以将用户带入一个虚拟的世界,想象一下,如果未来所有的网络游戏都可以将用户融入其中,在虚拟环境下直接操作,使用新奇的装备,实现惊艳的特效,世界将会变得多么神奇!
基于Kinect的操控创新
微软推出的Xbox 360体感外设Kinect很受用户欢迎,但是它的意义并不仅仅是游戏外设,而在于对人机交互方式的探索和创新。正因为如此,Kinect技术才能被广泛应用到其他创新产品之中,成为智能人机交互的经典产品。
国外一家专注于人机交互技术的创业公司3Gear Systems利用微软Kinect技术,推出了SDK包,能够帮助开发者将手势动作反馈到应用软件之中。这套系统可以帮助3D建模人员更方便快捷地对模型进行拼装操作,操作过程可以在普通显示器之上呈现。开发者只需要购买Kinect传感器和固定装置就可以在这款SDK包的基础上,设计新的APP产品。
Kinect的作用还不止于此。Oblong实验室近期公布了一项科研成果,它将Kinect与Xbox上的IE浏览器结合起来,脱离鼠标来操作电脑屏幕,能够实现一系列复杂的操作,例如拖动、摆放屏幕上的个体,对三维模型进行旋转、缩放,进行复杂的命令操作,或者用手机、平板或遥控器来控制大屏幕,甚至可以多人玩游戏、通过手势控制飞行器,在多个屏幕之间进行无缝切换等。
微软研究院联合华盛顿大学也研发出了一种名为SoundWave的系统,该系统可利用计算机内置的麦克风和扬声器,提供与Kinect类似的对象识别及手势识别功能。SoundWave将计算机的内置扬声器用做超声波(18-22KHz)发射源,其频率会随着你的手或身体的位置的变化而变化。然后,计算机的内置麦克风会测量这一频率变化,并把参数告诉一套相当复杂的软件,由该软件计算出手势和动作。
语音交互的行业应用
苹果于2010年花2亿美金亲自将Siri收购,并将其深度融入到iPhone 4S中。Siri 和手机紧密结合,可以极大提升设备的操作简易性、环境适应性和真正意义上的智能性。实际上,不仅仅是Apple自己的iPad、 iTV和车载设备,所有未来所谓的智能设备都将会使用Siri的模式。
但是智能人机交互技术在行业的应用中,还存在一些不足。以语音交互为例,传统语音交互涉及的主要技术包括语音识别和语音合成等都已经比较成熟。在多年以前,IBM 的语音识别软件在 PC 上就有不错的识别率了,而微软名为Tellme的项目也持续了多年。然而,即使达到100%的准确率,仅限于输入识别功用的语音识别不能代表智能人机交互的真正意义,它并不是革命性的。要实现完美的人机交互,语音技术就必须跟人工智能技术结合起来。
现在以语音方式为主的人机交互系统目前主要应用在如呼叫中心的IVR系统、智能手机等终端中的语音拨号,短信朗读、车载语音导航系统等。但普遍存在交互模式比较机械固定(以声控命令为主)、用户体验一般、交互过程繁琐等问题。小i机器人是广受欢迎的一款智能人机交互产品,这款产品的独特之处在于,支持几乎所有的人机交互渠道,包括IM、WEB、微博、短信、电话、手机应用等,通过文本和语音等方式和用户进行智能自然的交互。
这款产品在技术上分为五个层面,最底层是知识体系和开发框架,整合了知识库、对话库、信息服务等资源,往上一层是机器人核心引擎和开发框架,能够实现场景管理、知识推理等功能,再往上则是语义分析层,是机器人的核心引擎,能够将人类语言转化为机器可以理解的指令。然后是语义处理层,实现语音识别和话音合成的效果,最后一层是交互界面,可以采集语音,编解码并输入结果。小i机器人被应用到智能家电、电信、金融、网络社区等多个领域,在自然语言处理、智能人机交互多渠道接入,机器人二次开发平台方面都做出了很多创新。