现在,许多手机输入法都有语音输入选项,语音输入并非语音信息,而是以语音的形式录入,然后软件系统自动转换为文字,这一系统的便捷性特别适合快捷搜索,很多输入法都设计了此功能(如苹果设备里IOS系统内的“嘿!Siri”)。然而对于听障者来说,由于部分人的发音无法达到正常人水平,软件语音转文字的识别错误情况时有发生。(你可以在微信语音消息尝试,然后收到消息的的人长按转换为文字,看看正确率有多少)。
以前,语音转文字系统研发的困局主要在于数据库和云计算限制,这些设计都是以接收语音的清晰度为基础开发的(比如添加了方言模块等),但无法让听障者获得更多便利。而最近的研究则另辟蹊径,从唇语阅读的角度重新开发了一项新技术。
据英国东英吉利大学消息,该校科学家开发出一种新的唇语阅读技术,不仅有助于解决犯罪调查问题,也给那些在听力和讲话方面有困难的人带来帮助。研究人员在近日于上海召开的“国际声学、语音和信号处理大会”(ICASSP)上介绍了这一成果。
新的视觉语音识别技术由东英吉利大学计算科学学院海伦·L.拜尔博士和理查德·哈维教授开发,可以用在“任何凭声音难以确定人们在说什么的地方”。拜尔说,当无法获得声音时,如何确定人们的讲话内容是个独特的问题,比如闭路电视的脚注,或者声音不足又没有对话语境的线索。但现在,通过机器唇读分类技术,能更精确地区分这些声音。
拜尔说,一种稳定的唇读系统能用于从犯罪调查到娱乐用途等多种情况。唇读还可以用在运动场上,比如足球运动员在比赛激烈时大喊大叫的单词是什么(啧啧,好担心国足),但最可能的实际用途还是在那些噪音较大的地方,比如汽车中或飞机驾驶舱内。还有就是对于听障者来说,这款设备如果可以个性化学习主人的唇语数据,那将是一个重大突破,实际上,现在的语音转文字系统已经做到了“个性化学习”这一点,而唇语系统在过去的研究上更进一步,应该不是很难的事情。
据研究人员介绍,无论是专业人士还是现有的视觉语音电脑识别系统,在读唇语时一个最大挑战是如何区别容易混淆的发音,如英文中“p”、“b”、“m”发音时,唇部动作都非常相似,很难区别。但最新开发的电脑系统利用特别设计的程序,能分辨出图像中唇部最细微的变化,并且完全不需要语音信息辅助(但是爱耳君觉得,有语音辅助难道不会更精准嘛)。
参与这项研究的东英吉利大学学者说,发“p”、“b”、“m”这样的音时,唇部动作还是会有肉眼不易察觉的差别,这款电脑程序会不断学习和积累相似发音的唇部动作,并进行相关分类,从而不断提高识别的精确度。
研究人员使用了一种新的训练方法,使这种分类系统对以往的唇读方法进行了改进。虽然目前这一系统还有需要改善的地方,但最重要的是,它可以通过调整来用于多种目的,比如给那些有听力障碍或讲话困难的人带来帮助。此外,一个好的唇读机可以作为整体视听识别系统的一部分。
研究人员也指出,在人工智能领域,唇读是最具挑战性的难题之一,训练机器如何识别人类嘴唇的形状和变化并非易事,所以这方面取得的进步非常重要。特别是该技术成熟后,会迅速应用于小型化终端设备,对于听障者来说,这将大大提升输入法使用体验。
未来经过进一步优化,这一系统能够运用在多个领域中,除了用来帮助有听力和语言障碍的人士,相关技术也会对人工智能的发展起到很好的助推作用。
相关论文将发表在电气与电子工程师协会(IEEE)《2016年国际声学、语音和信号处理大会会刊》上。
END