谷歌研发比人类专家更强的唇读 AI，语音识别从此变成嘴型识别？-中国互联网资产评估服务中心【官网】

网站首页 > 移动互联网 > 移动互联网

谷歌研发比人类专家更强的唇读 AI，语音识别从此变成嘴型识别？

发布时间：2016-11-11来源：互联网资产评估协会

近日，谷歌 DeepMind 和牛津大学合作，开发了一款 AI 唇读工具。从团队的试验结果来看，这款唇读工具的识别精度，已经远远超过人类唇读专家。

在训练这套唇读系统的过程中，团队使用了来自英国的六个电视节目，包括 Newsnight、BBC Breakfast 和 Question Time 等，其中共包含大约 118000 个句子。所有这些使用的训练材料都集中在 2010 年 1 月至 2015 年 12 月期间播出过的电视节目，之后，团队使用了今年 3 月至 9 月期间播出的节目来对这一系统进行测试。从测试结果来看，这一系统已经能够准确地解读完整的短语，包括“我们知道这里还有数百个记者” “根据国家统计局的最新数据“等等。

不仅如此，在另外一个测试实验中，这个 AI 系统的唇读能力甚至超过了专业人士。在 200 个随机挑选的剪辑片段中，人类唇读专家能够完全无误地解读出其中 12.4%的片段，而 AI 的这一数据为 46.8%，而且其中许多的误差只是来源于漏掉复数形式等小错误。

从团队发表的文章来看，目前很多电视节目的音频和视频流实际上并不同步，因此 AI 学习过程中使用的数据必须由实验人员亲自设计，这也是为什么之前的 AI 唇读训练系统缺少学习数据的原因。团队表示，如果这一误差能够得到有效纠正，那么 AI 学习的效率将会更高。不过团队目前研发的这项 AI 技术，已经能够在一定程度上“重新对其“不同步的音频和视频并对其进行自动处理。

和语音识别技术一样，唇读能力的应用前景也非常广泛，包括在各种移动终端、个人数字助理、甚至是作为语音识别的辅助来使用。另外，对于失聪和患有听力障碍的病人来说，唇读技术的出现也能让他们的生活更加便利。试想一下，如果身处嘈杂的环境中而又想使用语音指令时，机器可能会捕捉不到用户的声音，在这时唇读能力就派上用场了，这就和我们在嘈杂的环境中猜测谈话方所说的内容一样；另外，当多个人同时发言时，机器有可能会混淆不同的声音，但是图像是不会出现这样的问题的，因此给多语音转录也提供了有效的辅助。

查询

管理介绍

新闻动态