据国外媒体报道称,谷歌高级研究员杰夫-迪恩(Jeff Dean)当地时间周三在于加州圣克拉拉召开的人工智能前沿峰会(AI Frontiers Conference)上表示,谷歌自2012年以来已经将语音识别的错误率降低了30%以上,这对于如今AI当道的科技领域来说可谓意义非凡。
在这儿,迪恩所说的语音识别错误率是指“谷歌将一个词语从语音转录成为文字时的错误率”。迪恩表示,谷歌自2012年以来已经成功将这一错误率降低了30%以上。与此同时,一名谷歌发言人也同科技媒体VentureBeat证实了这一数据的准确性。
迪恩表示,这一语音识别错误率的下降得益于神经网络的应用。目前,包括谷歌和其他企业均在深度学习中使用了这一神经网络技术,研究人员通过使用大量数据对神经网络进行训练。比如通过大量的语音片段练习,然后让他们基于已经获悉的内容对新数据作出推断。
消息称,谷歌最早在2012年,也就是Android“果冻豆”系统发布的时候首次将神经网络技术应用于语音识别领域。具体来说就是,当用户向Android“果冻豆”系统的语音识别软件说话时,声音频谱会被分解并发送到谷歌全球服务器“大军”中的八台电脑,随后由负责开发这个项目的谷歌研究科学家文森特-凡毫克(VincentVanhoucke)及其团队开发的“神经网络”模型进行处理。
凡毫克在当时就表示,与此前版本的Android系统相比,“果冻豆”语音识别系统的误差率要低25%左右,而这能让用户更加愿意使用语音命令。
在此之后,尽管这一技术的发展影响着越来越多的谷歌产品,但该公司却鲜有公开讨论自己在语音识别技术上取得的进展。2015年,谷歌CEO桑德加-皮查伊(SundarPichai)曾表示“谷歌语音识别的错误率约为8%”。
苹果Siri团队资深总监、前微软语音识别项目高管亚历克斯-阿赛洛(Alex Acero)在去年8月接受Backchannel主编史蒂芬-列维(StevenLevy)采访时透露,Siri在所有语言中的错误率降低了两倍,甚至在许多情况下超过了两倍。此外,微软也在去年9月份表示,旗下语音识别技术的出错率已经降至6.3%,打破了IBM超级电脑沃森之前保持6.9%的出错率纪录。
事实上,为了能在这场技术革命中处于领先位置,包括亚马逊、苹果、谷歌和IBM在内的科技企业都已经开始面向消费者提供语音识别技术。比如,苹果不久前在Siri中添加了第三方整合功能,允许它与第三方应用通讯,这意味着用户将可以利用Siri服务直接呼叫Uber专车。
然而,如果要想成为消费者最主要的计算平台,语音助手仍需迎来进一步改进。凯鹏华盈分析师、被巴伦杂志冠以“互联网女王”称号的玛丽-米克尔(Mary Meeker)就表示,语音识别的准确率必须达到99%左右才有可能成为最有效的计算输入形式。