网站首页 > 移动互联网 > 移动互联网

谷歌研发比人类专家更强的唇读 AI,语音识别从此变成嘴型识别?

发布时间:2016-11-11来源:互联网资产评估协会

近日,谷歌 DeepMind 和牛津大学合作,开发了一款 AI 唇读工具。从团队的试验结果来看,这款唇读工具的识别精度,已经远远超过人类唇读专家。

在训练这套唇读系统的过程中,团队使用了来自英国的六个电视节目,包括 Newsnight、BBC Breakfast 和 Question Time 等,其中共包含大约 118000 个句子。所有这些使用的训练材料都集中在 2010 年 1 月至 2015 年 12 月期间播出过的电视节目,之后,团队使用了今年 3 月至 9 月期间播出的节目来对这一系统进行测试。从测试结果来看,这一系统已经能够准确地解读完整的短语,包括“我们知道这里还有数百个记者” “根据国家统计局的最新数据“等等。

googledeepmindlipreading770x218

不仅如此,在另外一个测试实验中,这个 AI 系统的唇读能力甚至超过了专业人士。在 200 个随机挑选的剪辑片段中,人类唇读专家能够完全无误地解读出其中 12.4%的片段,而 AI 的这一数据为 46.8%,而且其中许多的误差只是来源于漏掉复数形式等小错误。

从团队发表的文章来看,目前很多电视节目的音频和视频流实际上并不同步,因此 AI 学习过程中使用的数据必须由实验人员亲自设计,这也是为什么之前的 AI 唇读训练系统缺少学习数据的原因。团队表示,如果这一误差能够得到有效纠正,那么 AI 学习的效率将会更高。不过团队目前研发的这项 AI 技术,已经能够在一定程度上“重新对其“不同步的音频和视频并对其进行自动处理。

和语音识别技术一样,唇读能力的应用前景也非常广泛,包括在各种移动终端、个人数字助理、甚至是作为语音识别的辅助来使用。另外,对于失聪和患有听力障碍的病人来说,唇读技术的出现也能让他们的生活更加便利。试想一下,如果身处嘈杂的环境中而又想使用语音指令时,机器可能会捕捉不到用户的声音,在这时唇读能力就派上用场了,这就和我们在嘈杂的环境中猜测谈话方所说的内容一样;另外,当多个人同时发言时,机器有可能会混淆不同的声音,但是图像是不会出现这样的问题的,因此给多语音转录也提供了有效的辅助。



查询
管理介绍
新闻动态

中国互联网资产评估协会 中国互联网资产评估服务中心 中国互联网资产评估查询中心 版权所有 京ICP备05009601号-2
Copyright © 2010 China Internet Assets Appraisal Inquiry Center
关闭
关闭
360网站安全检测平台