新闻中心

多用途唇读新技术可帮助“语音转文字”

信息来源：爱耳时代时间：2016-04-05

语音转文字DISCOVERY

现在，许多手机输入法都有语音输入选项，语音输入并非语音信息，而是以语音的形式录入，然后软件系统自动转换为文字，这一系统的便捷性特别适合快捷搜索，很多输入法都设计了此功能（如苹果设备里IOS系统内的“嘿!Siri”）。然而对于听障者来说，由于部分人的发音无法达到正常人水平，软件语音转文字的识别错误情况时有发生。（你可以在微信语音消息尝试，然后收到消息的的人长按转换为文字，看看正确率有多少）。

以前，语音转文字系统研发的困局主要在于数据库和云计算限制，这些设计都是以接收语音的清晰度为基础开发的（比如添加了方言模块等），但无法让听障者获得更多便利。而最近的研究则另辟蹊径，从唇语阅读的角度重新开发了一项新技术。

唇语阅读技术DISCOVERY

据英国东英吉利大学消息，该校科学家开发出一种新的唇语阅读技术，不仅有助于解决犯罪调查问题，也给那些在听力和讲话方面有困难的人带来帮助。研究人员在近日于上海召开的“国际声学、语音和信号处理大会”（ICASSP）上介绍了这一成果。

新的视觉语音识别技术由东英吉利大学计算科学学院海伦·L.拜尔博士和理查德·哈维教授开发，可以用在“任何凭声音难以确定人们在说什么的地方”。拜尔说，当无法获得声音时，如何确定人们的讲话内容是个独特的问题，比如闭路电视的脚注，或者声音不足又没有对话语境的线索。但现在，通过机器唇读分类技术，能更精确地区分这些声音。

强噪音环境下的交流方案DISCOVERY

拜尔说，一种稳定的唇读系统能用于从犯罪调查到娱乐用途等多种情况。唇读还可以用在运动场上，比如足球运动员在比赛激烈时大喊大叫的单词是什么（啧啧，好担心国足），但最可能的实际用途还是在那些噪音较大的地方，比如汽车中或飞机驾驶舱内。还有就是对于听障者来说，这款设备如果可以个性化学习主人的唇语数据，那将是一个重大突破，实际上，现在的语音转文字系统已经做到了“个性化学习”这一点，而唇语系统在过去的研究上更进一步，应该不是很难的事情。

据研究人员介绍，无论是专业人士还是现有的视觉语音电脑识别系统，在读唇语时一个最大挑战是如何区别容易混淆的发音，如英文中“p”、“b”、“m”发音时，唇部动作都非常相似，很难区别。但最新开发的电脑系统利用特别设计的程序，能分辨出图像中唇部最细微的变化，并且完全不需要语音信息辅助（但是爱耳君觉得，有语音辅助难道不会更精准嘛）。

参与这项研究的东英吉利大学学者说，发“p”、“b”、“m”这样的音时，唇部动作还是会有肉眼不易察觉的差别，这款电脑程序会不断学习和积累相似发音的唇部动作，并进行相关分类，从而不断提高识别的精确度。

研究人员使用了一种新的训练方法，使这种分类系统对以往的唇读方法进行了改进。虽然目前这一系统还有需要改善的地方，但最重要的是，它可以通过调整来用于多种目的，比如给那些有听力障碍或讲话困难的人带来帮助。此外，一个好的唇读机可以作为整体视听识别系统的一部分。

技术小型化DISCOVERY

研究人员也指出，在人工智能领域，唇读是最具挑战性的难题之一，训练机器如何识别人类嘴唇的形状和变化并非易事，所以这方面取得的进步非常重要。特别是该技术成熟后，会迅速应用于小型化终端设备，对于听障者来说，这将大大提升输入法使用体验。

未来经过进一步优化，这一系统能够运用在多个领域中，除了用来帮助有听力和语言障碍的人士，相关技术也会对人工智能的发展起到很好的助推作用。

相关论文将发表在电气与电子工程师协会（IEEE）《2016年国际声学、语音和信号处理大会会刊》上。