苹果为Siri引入机器学习技术不再认错主人

04 月 17 日
威锋网
4768

日前，苹果在自家机器学习刊物《Apple Machine Learning Journal》上发表最新一篇文章，主要是关于用户在 iOS 设备上激活“嘿Siri”功能时的人性化过程。这篇文章似乎也意味着，未来 iOS 系统将配备更高级的 Siri 智能私人助理，至少能够利用机器学习特性来非常精确识别设备的主人。

“嘿Siri”功能在 iOS 8 的 iPhone 6 首次推出，如今在所有苹果设备上，“嘿Siri”口令可激活设备上的智能私人助理。当然了，6s 之前仍需要先将设备插入电源才能使用，而目前的新 iPhone 和 iPad，“嘿Siri”都已支持全天候时刻待命，无需亮屏也无需接通电源充电状态下就能使唤。因此，口令激活后用户可跟进询问或执行相关语音命令，例如询问“今天天气如何？”之类的问题。

在这篇机器学习期刊的新文章中，苹果 Siri 团队讲述了引入“说话人识别系统（Speaker Recognition System）”的技术方法，声称为了给用户创造更人性化的设备，自家团队打造了“深度神经网络”，而此举将为 Siri 的迭代更新打下了基础。简单的说，苹果基本上确认的事实是：未来的 iOS 系统版本中，机器学习技术将会被引入 Siri 智能私人助理，用于识别设备所有者的声音。

苹果 Siri 团队表示，最初他们选中“嘿Siri”这个短语，就是因为这是非常“自然”的措辞。但也正是因为如此，“嘿Siri”常常被不经意间激活，因而带来了不少麻烦。苹果列举了三种情况，包括：“当用户说出类似的短语时”，“当其他用户说‘嘿Siri’时”，以及“当其用户说类似的短语时。”根据 Siri 团队的说法，最后一种场景下的“错误激活最恼人”。

苹果为Siri引入机器学习技术不再认错主人

为了减少 Siri 被意外地、错误地激活，苹果引入了说话者识别研究领域的技术。重点在于，Siri 团队称他们关注的是“谁在说话”，而不是“说了什么”。苹果表示，说话人识别技术的目标是确定语音发出者的身份。“我们感兴趣的是‘谁在说话’，而不是语音识别的问题，最终目的是确定‘所说的是什么’。”

Siri 团队表示，说话者识别技术目前所面临的其他挑战是，如何在混响（如：大房间）和嘈杂环境中获得更高质量的表现。未来通过机器学习，Siri 语音助理将被训练用于识别用户在广泛环境中飞声音，如在车里、厨房、咖啡店或类似的公共场所。Siri 还会学习识别各种情境下用户发出的声音状态，包括正常的声音，很高、很亮的声音，或者早上起床昏昏沉沉时的声音等等，而不局限于最初重复录入的几声“嘿Siri”。

最近，Siri 隐私漏洞的问题备受关注。因为该漏洞下，任何人都可以通过 Siri 来读取设备主人的通知，只要按住 HOME 键或 iPhone X 上的侧边按键几秒，呼出 Siri 后，喊它“帮我读一下通知”，它就会直接读出锁屏上的隐藏消息内容，无论是同事还是家人，甚至是路人都能执行相同的操作，而且是在设备锁屏的情况下。

很显然，苹果将机器学习技术用于 Siri 帮助识别设备主人的方案，将能解决了 Siri 面临的隐私问题。

爱思助手