谷歌DeepMind推出WaveNet 大大改善计算机输出音频转换

日期：2016-09-13 来源：麻省理工科技评论

核心提示：近日，谷歌旗下人工智能公司DeepMind公布了其在计算机语音合成领域的最新研究突破——WaveNet。WaveNet是一种利用神经网络系统对原始音频波形(RawSoundWave)建模的技术，生成的音频质量优于目前所有的文本转语音(Text-to-Speech,TTS)系统，将计算机输出音频与人类自然语音差距缩小50%，号称世界最佳!

近日，谷歌旗下人工智能公司DeepMind公布了其在计算机语音合成领域的最新研究突破——WaveNet。WaveNet是一种利用神经网络系统对原始音频波形(RawSoundWave)建模的技术，生成的音频质量优于目前所有的文本转语音(Text-to-Speech,TTS)系统，将计算机输出音频与人类自然语音差距缩小50%，号称世界最佳!

DeepMind在twitter发文称：“让人类和机器对话是人机交互领域长久以来的梦想!”

通常我们听到的计算机或手机输出的文本转语音(TTS)音频都会觉得别扭、生硬，甚至诡异。此次DeepMind推出的这款新型语音合成系统WaveNet将大大改善这种情况，让机器输出音频更自然、更像人类发声。

当然，让计算机发出声音，这并不是什么新鲜事儿。

最常用的TTS方法可能是拼接式语音合成(ConcatenativeSynthesis)：先录制单一说话者的大量语音片段，建立一个大型语料库，然后简单地从中进行选择并合成完整的大段音频、词语和句子。这种“机械式”方法使得计算机输出音频经常产生语音毛刺、语调的诡异变化、甚至结巴，并且无法调整语音的强调性音节或情绪。

另外一种方法是所谓的参数化方法，利用数学模型对已知的声音进行排列、组装成词语或句子来重新创造音频。这种技术倒是不易产生声音毛刺，所以确实让机器输出的音频听起来不那么机器化。

然而，这两种技术的共同点是：简单、机械地将语音片段拼接起来，而不是从零开始创造出整个音频波形。

音频跳转

WaveNet正是一种从零开始创造整个音频波形输出的技术。

WaveNet利用真实的人类声音剪辑和相应的语言、语音特征来训练其卷积神经网络(convolutionalneuralnetworks)，让其能够辨别这两方面(语言和语音)的音频模式。使用中，对WaveNet系统输入新的文本信息，也即相对应的新的语音特征，WaveNet系统会重新生成整个原始音频波形来描述这个新的文本信息。

WaveNet组织结构

WaveNet是逐步进行操作的：首先，生成一个音频波形样本;接着再处理、生成一个音频波形样本，逐步进行。其中非常重要的是，新的样本生成都会受到此前样本结果的影响，也即每一步的样本结果都将影响下一步的样本预测，并帮助生成下一步的样本。

最终的音频结果确实表现惊人(试听参照DeepMind网站：https://deepmind.com/blog/wavenet-generative-model-raw-audio/)。相比于连续合成和参数化合成技术，WaveNet输出音频明显更接近自然人声。

DeepMind的WaveNet技术无疑是计算机语音合成领域的一大突破。然而，由于WaveNet是计算整个原始音频波形，每输出一秒音频神经网络必须处理16000个样本，所以WaveNet技术需要强大的运算能力来合成语音。

据DeepMind透露给《金融时报》(FinancialTimes)的内部消息称，这意味着目前还不能应用于谷歌或其他的任何一项产品中。

然而，这并不是计算机面临的唯一语言问题。翻译自然语言和手写文字也是人工智能系统的一大难题。

起码以现在这速度，在计算机形成真正的智能思考能力之前，它们应该早就能够用花哨的语言和人类交流了。

标签： 谷歌神经网络系统人工智能语音合成系统

15

更多>同类企业资讯

全年征稿 / 资讯合作

2398080099

联系邮箱：

版权与免责声明

凡本网注明“来源：CK365测控网”的所有作品，均为北京新科时代传媒信息技术有限公司-CK365测控网合法拥有版权或有权使用的作品，未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：CK365测控网”。违反上述声明者，本网将追究其相关法律责任。
本网转载并注明自其它来源的作品，目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品来源，并自负版权等法律责任。
如涉及作品内容、版权等问题，请在作品发表之日起一周内与本网联系，否则视为放弃相关权利。

推荐图文

GPS追踪短板怎么破看这款新式传感器轻松	贝尔金推WeMo家用传感器：检测家庭环境
RFbeam发布全新雷达传感器信号处理解决方案	Vishay环氧树脂微型传感器可在汽车应用中快

推荐企业资讯

可能喜欢

• 谷歌正训练人工智能预测分子气味	• 谷歌兄弟公司Wing在美推出商用无人机递送服务
• 谷歌用AI为视障人士解决导航问题	• 谷歌获婴儿AI监控专利，追踪眼球运动判断异常情况
• 谷歌获婴儿AI监控专利，追踪眼球运动判断异常情况	• 谷歌升级街景采集车用人工智能来获得更佳的图像
• 微软将建立新的人工智能实验室：挑战谷歌DeepMind	• 谷歌发布新一代无人驾驶系统月底开始道路测试
• 谷歌联手菲亚特密切合作研发自动驾驶汽车技术	• 谷歌人工智能10年之路