除了要捕捉好几个小时的高质量音频,将其分割拼凑制作成声音应答系统之外,开发者还需要解决如何把韵律(口语中重音和语调的模式)调整准确的问题。再加上,这些过程对处理器性能有一定的要求,所以把声音串联在一起这种非常直接的处理办法对于一台手机来说,实在是有点“强机所难”了。 这时候iPhone工程师就需要借助机器学习的力量了。只要有了足够的训练数据,它就能够帮助文本转语音系统了解如何选择一段音频中的某个部分来进行匹配,从而获得自然的声音应答效果。 为了 苹果iOS 11,iPhone公司工程师与一名新的女配音演员合作,录制了 20 个小时的美音,制作了 100-200 万段音频,然后将这些音频用于培训深度学习系统。iPhone在最新发布的报告中指出,测试主体更倾向于选择新版本,而不是 2015 年 苹果iOS 9 中使用的旧版本。 结果不言自明:Siri 的导航指示、回答小问题和请求完成通知的声音听起来都不像两年前那么机械化了。 在苹果iOS 11 发布会上,iPhone也提到了 Siri 的声音将变得更自然。不信的话,你可以等到 苹果iOS 11 正式上线时自己去听听吧。 |