揭秘:Siri是如何学会一门语言的?
- 03 月 10 日
- MacX
- 5938
自从Siri面世后,市场上各种各样的私人语音助手大量出现,其中比较出名的包括谷歌助手、Amazon Alexa以及微软的小娜。这些语音助手都有各自的优势,也存在不足。苹果语音助手Siri的优势就是本地化:Siri支持24种语言,并且还能支持36种方言。谷歌助手只支持5种语言,Alexa仅仅支持英语和德语。
iOS 10.3测试版中,苹果为Siri增加了上海话支持,继续扩展Siri的本地化优势。苹果公司言语团队主管Alex Acero最近接受了路透社采访,并解释了Siri如何学习一门全新的语言。
Acero目前在苹果公司负责言语团队,他在2013年加入苹果。最初,Siri语音识别基于Nuance的技术,几年前苹果自主研发了语音平台,并取代了Nuance的技术。苹果的语音平台很大程度上依靠机器学习来提高对词语的理解。
当苹果团队想要为Siri增加新语言时,首先需要邀请能说新语言的真人阅读不同的段落和单词,并需要涵盖不同的方言和口音。
真人说出的语音被其他人录制和转录。这形成了语言的规范,以及单词如何发声。这些语音都有真实的人读出,以确保准确性。然后将该原始训练数据发送到算法机器训练模型中。
计算机语言模型试图预测任意字串的转录。随着时间的推移,算法可以根据更多数据的训练而自动改进。苹果会在内部稍微调整一下数据,然后进入下一个阶段。苹果并没有直接将语音与Siri集成,而是将新语言作为iOS和macOS的听写功能,当用户点击iPhone键盘左下角的麦克风按键时,可以进行听写操作。通过这种方式,苹果可以从更广泛的人群中获得更多的语音范例。
这些真实世界的音频剪辑自然包括背景噪声和非完美的语音,如咳嗽,停顿和口齿不清。苹果将样本采集并由员工转录,然后使用这种新验证的音频和文本配对作为语言模型的更多输入数据。第二个过程可以将听写错误率降低一半。
苹果会重复这个过程,直到公司认为系统足够准确,随后会作为Siri的新语言出现。与此同时,配音员会记录语音序列,使Siri可以合成音频并执行文本-语音。最后,苹果会通过系统更新为Siri带来新语言,比如iOS 10.3和macOS 10.12.4中新增加的上海话。苹果会将一些常用的问题进行预设,比如给我讲个笑话,查找附近的餐馆等。
Acero表示,当Siri新增加一种语言后,苹果会收集真实世界用户的问题,并每隔两周更新一次数据库。