研究团队研发出一款解码器,能够利用人工智能基于大脑数据合成语音。
日前,学术期刊《自然》在线发表了一篇文章,其中涉及一种解码器,能够将大脑神经信号转化为语音,帮助无法说话的患者实现发声交流。
据了解,该解码器由加州大学旧金山分校的神经外科学家Edward Chang教授与其同事一同开发。他们采用了一种叫做“高密度脑皮层电图”的技术,能够基于癫痫患者脑中被植入的电极(医疗监测需要)所传出的数据,直接记录下受试者大脑皮层的神经活动。
过程中,受试者会被要求大声读出几百条句子,研究人员则会同步记录他们大脑腹侧感觉运动皮层区的神经活动,这里是大脑的语音产生中心。
随后,研究人员将利用循环神经网络破译采集到的神经信号,其中涉及两个步骤:第一步,他们将神经信号转换为表征发音器动作的信号,包括下巴、喉、嘴唇和舌头动作相关的脑信号;第二步,他们则根据解码出来的发音器官动作,把信号转换为说出的语句。
为了验证自己的成果,研究人员已经在亚马逊的众包任务平台Mechanical Turk上招募了听众,来辨认解码器合成的语音,测试内容包括325个单词和101局整句。结果显示,听众能够成功的识别出单词,和对自然语音的感知模式一样。
对于这一测试结果,第一作者Gopala Anumanchipalli博士表示,该结果意味着这种神经合成语音对于现实世界的应用来说已经达到即刻听懂的实用程度。
此外,研究人员还进行了另一项测试,让受试者用默读的方式读出同一个句子。结果显示,无声言语的合成效果不如有声言语。但Edward Chang表示,虽然语音解码的准确性大大降低,但受试者在没有声音的情况下模仿发声仍然可以进行语音合成。至于那些已经丧失语音相关动作能力的群体,该系统的是适用性还需要进一步研究。
针对这一项研究成果,生物工程学教授Chethan Pandarinath等人在文章评论中表示,这一系统要成为一个临床可行的语音合成脑机接口,还存在许多挑战。但可以肯定的是,脑机接口技术的持续进步可以让存在发声障碍问题的群体重新获得“说话”的能力。