你也许还没有意识到，语音识别已经让所有人掌握了魔法奥义

机器之心编译

参与：李泽南、蒋思源

英国科幻小说作家Arthur C. Clarke曾经指出，任何一种足够先进的技术，它和魔法之间的界限几乎是无法区分的。快速发展的语音识别技术也验证了他的观点，因为使用这种语音识别技术就像施放一个咒语：只要对着空气说几句话，然后身边的设备就会实现你的愿望。

亚马逊Echo，一个用语音控制的圆柱型计算机，当你把它放在桌面上，并呼叫Alexa时它就会受到召唤。然后Alexa就可以播放你指定的音乐曲目和收音机电台、说笑话、回答一些日常的问题甚至控制其他智能家电。在刚刚过去的圣诞节前，它已经进驻了全美4%的家庭。语音助手也进入了所有人的手机中，苹果Siri现在每周都要处理20亿条语音指令，而美国20%的安卓端谷歌搜索是通过语音识别发出的。听写电子邮件和短信的服务现在已经变得十分可靠了，当可以说话交流时，为什么要闷头打字呢？

这是一个巨大的进步。虽然语音识别看起来似乎很简单，但要在人类与机器之间提供自然的交流，把语音转换为计算机可以理解的指令需要大量计算。从Windows的简单图形界面，再到触摸屏，人们一直在寻找更加直接的交互方式，希望早日甩掉键盘和鼠标。人们希望能够直接与计算机交谈，完全抛弃“用户界面”的抽象化存在。就像手机比连着电线的电话更好，汽车比需要马的车架更快一样，没有屏幕和键盘的计算机拥有着更大的实用潜力，它也许会比人类目前拥有的设备更加强大，而且无所不在。

声音不会完全取代其他形式的输入和输出。有些时候保留传统交互方式的机器会有一些优势（亚马逊声称他们正在开发带有屏幕的Echo）。但语音控制注定会给人类带来更大的方便，想象一下，你的洗衣机可以告诉语音助理它还有多久完成工作，语音助理发送这条信息到呼叫中心，正在外出的你收到了这条信息，这会是一种高度自动化的图景。当然，为了发挥语音识别的全部潜力，科研人员们不仅在寻求技术突破，同时还需解决在便利与隐私之间权衡的棘手课题。

Alexa，你可知道深度学习？

计算机听写系统已经存在多年。但长久以来它们一直以不可靠著称，一些系统需要长时间的训练才能够分辨出特定用户的声音。新一代计算机系统可以不经训练准确地识别任何人的语音——它的力量来自于深度学习，一种人工智能领域下的先进技术。应用了深度学习的系统经过数百万条数据的训练，通常这些数据都来自于网络。通过深度学习，计算机现在已经可以准确识别人们发出的语音，其准确程度甚至超过人类。基于计算机的自动转译系统正在快速发展，它们文本语音转化的结果已经脱离了机翻水平。简而言之，计算机在处理各种形式的自然语言任务时已经变得高速且稳定。

虽然深度学习带来的突破已经可以让计算机准确识别人类说话的内容，但它们仍然无法理解语言的含义。这对于工程师们来说仍然是一个挑战，如果语音识别技术能够继续发展，那么这个困难必须被克服。计算机必须能充分理解人类日常对话中的上下文联系，以便与主人展开关于某件事的持续性对话，而不是像现在这样只能回答简单的、互相无关联的语音指令（“Hey, Siri, 订一个闹钟”）。

各类研究机构和大大小小的公司都在试图攻克这一难关，希望构建能够与人长时间正常对话的“机器人”，它不仅能检索信息，还能提供贷款建议和帮助安排旅行计划等。（亚马逊发出了100万美元的悬赏，奖励最先开发出能在20分钟时间内进行连续有效交流的聊天机器人的团队）

用施法代替拼写

消费者和监管机构在语音技术发展的道路上也扮演着自己的角色。即使在当前，还处于原生形式的语音识别系统也在承受着质疑声：语音驱动的系统在个性化设置之后才能发挥最大作用，但在个性化的过程中，机器必然会收集用户的大量数据，例如时间表，电子邮件和一些更为敏感的信息。这一切导致了人们产生了侵犯隐私权的担忧。

为了实现更多功能，很多语音驱动系统都在无时无刻地监听着周遭环境，等待被唤醒的那一刻。一些人正在抱怨这些连接着因特网的麦克风正在监听着他们的所有房间和电话。不过并不是所有的数据都会被传到云端，这些设备都有一个启动机制（“Alexa”，“OK, Google”，“Hey Cortana”或者“Hey Siri”），但是考虑到语音信息的存储，我们还不清楚实际的情况是否真的是这样。

阿肯色州的警察最近正在调查一起谋杀案，案发现场有一台开机的亚马逊Echo，警方要求亚马逊提供案发当时机器收集到的语音信息，但这个请求遭到科技公司的拒绝。亚马逊在隐私权提倡人士的声援下争辩道：此类请求的法律地位尚不明确。这种情况和2016年苹果公司遭遇FBI施压，其被要求解锁犯罪嫌疑人iPhone的那个案件如出一辙。这两个案件都是在法律地位尚不明确的情况下，个人隐私和公众安全之间的碰撞。

即使这些问题仍然存在，消费者们还是会逐渐倒向语音识别系统，因为在很多情况下，语音比其他交互方式都要便捷。而且，它也可以在一些特定情况发挥作用（驾驶、工作或者出街环境下），它可以把计算力扩展到屏幕和键盘无法触及的领域。语音识别也可能对人类产生另一个层次的影响，不仅仅是计算，而且关系到语言本身。计算机同传翻译可能会要求说话者使用非常规的语言；而在一个机器可以正常交流的世界里，减少对话数量可能意味着生存。迄今为止，触摸屏的实用化是人机交互方式最近的一次飞跃，我们都很期待语音识别为我们带来下一次进步。