本文来源:阿里云语音AI
2 0 2 4
自1956年达特茅斯会议上,约翰·麦卡锡首次提出了“人工智能”这一术语。AI在此后七十年的发展中呈现脉冲式趋势,每隔5-10年会出现一次技术革新和域定。在这一技术探索进程之中,预训练基础模型逐渐成为主流探索方向,受到学术界和工业界的关注。在此技术背景下,OpenAI携应用级界面产品ChatGPT横空出世,使得人们对大语言模型的通用能力有了全新的认识,引燃了语义大语言模型的研究热潮。
与此同时,要模拟人类的超级大脑,就必须进行多模态理解。这是因为人类接受信息不仅仅通过语言,真实世界的信息反馈还包含语音、文本、图像、视频等多种模态。单一模态的信息难以对人类的信息获取、环境感知、知识学习与表达的过程进行全面有效的学习。
站在岁末交更之际,本文将回顾最近一年通义实验室在语音AI经典的原子能力,如语音识别、语音合成、说话人识别的研究进展,并介绍语音AI结合大
01 语音识别
语音识别服务框架
语音识别服务除了语音识别声学模型以外,还包含很多对于实践应用非常关键的技术模块:语音端点检测、标点预测、逆文本正则化(ITN)等。进一步的,语音识别声学模型也包含很多配套的子技术模块,例如热词定制化技术、时间戳预测等。本小节会介绍通义实验室过去一年在语音识别声学模型、语音端点检测、语音识别热词定制化和时间戳预测上最新的研究和应用进展。
Paraformer语音识别声学模型
过去一年,通义语音实验室研究提出和落地了Paraformer的非自回归端到端语音识别。非自回归模型相比于目前主流的自回归模型,可以并行的对整条句子输出目标文字,特别适合利用GPU进行并行推理。相同模型参数规模的Paraformer和Transformer,Paraformer结合GPU推理效率可以提升5~10倍。Paraformer是当前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。
过往关于非自回归端到端语音识别的研究主要面临两个核心问题:1)如何一次性准确的预测输入的音频包含的输出文字数目;2)如何优化非自回归模型中条件独立假设导致的语义信息丢失。
针对第一个问题,我们采用一个预测器(Predictor)来预测文字个数并通过 Continuous integrate-and-fire (CIF) 机制来抽取文字对应的声学隐变量。针对第二个问题,受启发于机器翻译领域中的 Glancing language model(GLM),我们设计了一个基于 GLM 的 Sampler 模块来增强模型对上下文语义的建模。
Paraformer模型结构如上图所示,由 Encoder、Predictor、Sampler、Decoder 与 Loss function 五部分组成。Encoder可以采用不同的网络结构,例如self-attention,conformer,SAN-M等。Predictor 为两层FFN,预测目标文字个数以及抽取目标文字对应的声学向量。Sampler 为无可学习参数模块,依据输入的声学向量和目标向量,生产含有语义的特征向量。Decoder 结构与自回归模型类似,为双向建模(自回归为单向建模)。Loss function 部分,除了交叉熵(CE),还包括了 Predictor 优化目标 MAE。
目前基于paraformer的语音识别框架已经全量上线到阿里云语音AI。同时在下文我们也会介绍Paraformer在Modelscope社区和FunASR的开源相关的工作。关于Paraformer的详细的技术细节也可以参阅论文https://arxiv.org/abs/2206.08317。
RWKV-RNN-T语音识别声学模型
过去一年,我们在语音识别声学模型上的另一个尝试是探索将最新的RWKV结构和RNN-T相结合应用于实时语音识别。
目前主流的Transformer和Conformer网络结构的核心组件是self-attention。然而,全局attention机制使其不适用于流式识别场景。为了使transformer和conformer支持流式语音识别,常见的做法是使用chunk attention。这一做法存在两个问题,一是存在延迟和识别率的trade-off,即更低的识别错误率依赖更大的chunk,但会造成更大的延迟;二是需要在推理时缓存历史chunk的Key,Value信息,这增大了推理时的存储开销。
我们提出将最新的RWKV网络结构和RNN-T相结合,应用于低延迟的实时语音识别。RWKV是一种线性attention模型,在推理时,RWKV的前向计算可以写成RNN的形式。因此将RWKV用作ASR encoder有两大优势,一是无需使用chunk,因而不会引入额外的延时;二是推理时无需缓存Key,Value信息。
我们在Aishell-1、Librispeech、Gigaspeech、Wenetspeech上的结果表明,RWKV-RNN-T在延迟更小的前提下,可以取得与chunk-conformer接近的性能。在工业量级上的评测结果也表明,RWKV-RNN-T在低延迟限制下具有出色的识别准确率。 当前RWKV-RNN-T的相关模型已经通过Modelscope进行开源,相关的训练代码也通过了FunASR进行开源。具体可以参阅如下的具体链接:
Modelscope体验地址:https://modelscope.cn/models/damo/speech_rwkv_transducer_asr-en-16k-gigaspeech-vocab5001-pytorch-online/summary
论文预印版地址:https://arxiv.org/pdf/2309.14758.pdf
代码开源:https://github.com/alibaba-damo-academy/FunASR
Semantic-VAD语音端点检测
语音端点检测(Voice Activity Detection,VAD)是语音识别系统中重要的组成部分,它能够将输入音频的有效语音检出并输入识别引擎进行识别,减少无效语音带来的识别错误。目前应用比较广泛的是基于DNN、FSMN、LSTM的二分类或者Monophone建模方式。
传统的VAD模型只区分语音和静音,忽略了每个静音部分是否是完整的语义断点,通常情况下需要等待较长的连续尾部静音(例如700毫秒)才能进行尾点判停。这种传统模型在语音交互应用场景中会带来比较明显的体感延时;在翻译场景还存在切割出来的片段语义不完整,影响翻译效果。
为了解决这类问题,我们在传统的VAD模型中添加一个帧级标点预测任务。如果检测到一个结束标点(例如句号、问号),表明存在完整的语义断点,等待一个较短的尾部静音(例如400毫秒)则进行断句。当检测到非结束标点(例如逗号、顿号)的情况下,用于断句的尾部静音需要略长一些(例如500毫秒)。只有在无法预测标点的情况下,才会使用传统VAD的预设最大尾部静音(例如700毫秒)来确定分割点。传统VAD的是单任务训练方式,如下图(a)所示,通常采用DNN、FSMN、LSTM等模型结构。我们提出的语义VAD,通过多任务训练框架,如下图(b)所示,引入了标点预测和自动语音识别(ASR)任务来增强VAD训练中的语义信息学习,从而提高了整个VAD系统的性能。
在实际应用场景中(例如智能交互场景),需要在考虑延时和实时率的同时来提高VAD系统的性能,我们采用的是基于RWKV的模型结构,如下图(c)所示,该模型结构结合了RNN和Transformer的优点,非常适合用于实时语音端点检测系统。而在离线系统中(例如客户质检场景),更注重片段的切割准确率,我们采用的是通义语音实验室自研的SAN-M Chunk结构,如下图(d)所示。
论文预印版下载地址:http://arxiv.org/abs/2312.14860
热词定制化技术
大家在使用通用语音识别模型时,往往会遇到人名地名与专有名词识别不正确的问题,在这种情况下模型通常会输出同音异形的结果。热词定制化技术旨在支持用户通过预设热词列表的方式增强上述词汇的识别,是解决通用语音识别模型实际应用的最后一步中的关键技术之一。
通义实验室语音团队的热词定制化技术经过了从基于WFST解码图的热词激励到基于Clas的神经网络热词激励与二者耦合共同激励的演变,并且在今年针对Paraformer非自回归模型结构提出了Semantic-Augmented Contextual Paraformer(SeACo-Paraformer),利用Paraformer的结构特点实现了热词协同解码的效果。其热词召回率较Clas模型显著提升,并且模型训练与生效的稳定性较Clas更优。
基于神经网络的热词定制化ASR模型的核心策略由两部分组成:训练过程中随机采样热词、通过attention机制捕捉热词信息与decoder信息的相关性。Clas方案通过上述策略实现了隐式的热词激励,即热词部分的建模嵌入到了ASR decoder中,在基础ASR模型效果较好时网络的偏置部分可能会因不能得到充分训练而失效。SeACo-Paraformer将热词建模功能从ASR decoder中解耦,通过显式的热词损失函数引导热词建模,网络结构与训练方式如上图所示。内部工业数据对比实验表明,SeACo-Paraformer模型相较Paraformer-Clas模型在热词召回率上得到了约18%的提升,并且解耦了ASR模型训练与热词模型训练,使训练过程更灵活。论文预印版下载地址:https://arxiv.org/pdf/2308.03266.pdf
一体化时间戳预测
语音识别的音字对齐功能是一些典型应用,例如自动字幕等的关键需求。在语音识别模型从传统的基于HMM-DNN-WFST融合系统迈进基于CTC、Transformer、Transducer等结构的端到端时代的过程中,时间戳预测问题是遗留问题之一。
传统模型基于HMM产生的帧级别强制对齐,能够天然的在解码器中获取输出token的时间戳。但是在端到端模型中,CTC/Transducer模型面临尖峰偏移的问题、Transformer/LAS模型进行非帧同步的解码,均无法天然的获取输出token的时间戳,需要借助传统Force-Alignment模型分两阶段生成时间戳,提升了模型训练的成本与难度。
基于Paraformer模型中CIF-Predictor的建模特性,我们发现CIF机制的权重累计过程可以被用于时间戳生成。针对工业模型CIF权重的特点,我们设计了包括延迟发射在内的优化策略,实现了在ASR模型解码的同时天然的获取输出token的时间戳(如上图所示)。在学术数据集与工业数据集的实验中,上述方法的时间戳精度与Force-Alignment系统相当。
论文预印版下载地址:https://arxiv.org/pdf/2301.12343.pdf
音频多模态大模型
技术的发展日新月异,大模型也从单一的语义大模型快速的在向多模态大模型发展。例如OpenAI最新的GPT-4V,解锁了文本和视觉的能力;GPT-4的VoiceChat解锁了语义和语音的能力;Google的Gemini从设计之初就是一个包含文本、视觉和音频的多模态大模型。通义实验室过去的一年也在前沿的音频多模态大模型上展开相应的探索:1)多模态语音识别;2)LauraGPT语音大模型;3)Qwen-Audio语音-语义大模型。
多模态语音识别
多模态语音识别技术旨在利用多种模态信息来提升语音识别系统的性能。现有的一些多模态方法主要关注视频或图像方面的信息(例如唇语、图片中物品的种类信息等),但却忽视了对视频中文本信息的利用。在线会议视频中通常包含大量幻灯片,这些幻灯片以文本和图像的形式提供了丰富的特定领域信息,并且幻灯片和语音是实时同步的,因而也提供了时间上的上下文关系。鉴于此,我们发布了一个包含大量幻灯片场景的大规模音视频多模态语料库 SlideSpeech(https://slidespeech.github.io)。该语料库包含 1,705 个视频,1,000 多个小时,以及 473 个小时的高质量自动生成的语音转录抄本。在这项工作中,我们介绍了构建语料库的流水线,主要过程是结合Youtube外挂字幕和内部VAD和ASR系统进行数据挖掘生成。
构建语料库的流水线示意图
同时我们还提出了在可视上下文幻灯片中利用文本信息的基准系统。通过应用关键词提取和上下文语音识别(Contextual ASR)方法于基准系统中,我们展示了整合补充视频幻灯片中的文本信息以提高语音识别性能的潜力。
利用幻灯片文本信息的基准系统示意图
论文预印版下载地址:https://arxiv.org/abs/2309.05396
数据库开源地址:https://slidespeech.github.io/
考虑到SlideSpeech语料中视频数据包含的幻灯片与语音实时同步,相比于统一的稀有词列表,其能够提供更长的上下文相关信息。因此,我们提出了一种创新的长上下文偏置网络(LCB-net)用于音频-视觉语音识别(Audio-Visual Speech Recognition,AVSR),以更好地利用视频中的长时上下文信息。
具体来说,我们首先使用OCR技术来检测和识别幻灯片中的文本内容,其次我们采用关键词提取技术来获取文本内容中的关键词短语,最后我们将关键词拼接成长上下文文本和音频同时输入到我们的LCB-net模型中进行识别。LCB-net模型采用了双编码器结构,同时建模音频和长上下文文本信息。并且,我们还引入了一个显式的偏置词预测模块,通过使用二元交叉熵(BCE)损失函数显式预测长上下文文本中在音频中出现的关键偏置词。此外,为了增强LCB-net的泛化能力和稳健性,我们还采用了动态的关键词模拟策略。实验证明,我们提出的LCB-net热词模型,不仅能够显著提升关键词的识别效果,同时也能够提升非关键词的识别效果。
LCB-net 模型结构
从技术与场景的接近性角度看,教育网课是该技术落地应用的重要方向之一,其通常采用的授课形式是PPT的视频讲解。网课种类丰富包含学术课程(数理化等)、语言课程(英语、日语等)、人工智能课程(计算机、编程、网页开发等)、职业培训课程(软件开发、市场营销等)等,包含了大量的专有名词,为语音识别带来了巨大的挑战,并且面对海量的PPT视频课程,学生很难进行笔记整理、课件沉淀、重点精听。未来我们的听悟,将针对该领域推动多模态技术的落地应用,帮助用户在教育网课学习中转录上课内容、总结筛选重点知识、沉淀学习笔记等。
LauraGPT语音大模型
ChatGPT 证明一个模型通过生成式预训练(GPT)能够统一处理各种各样的文本任务,包括机器翻译、文本摘要、口语语言理解等。语音作为人类最自然的沟通交流方式之一,也是一种重要的信号模态,那么,不禁会产生这样的疑问,能否将不同的语音任务统一到一个模型框架中,只需训练一个模型就可以原生的支持语音的识别、理解和生成,而不是通过不同模型之间的级联?带着这样的疑问和愿景,语音-文本多任务大模型应运而生,例如微软的VALL-E、VioLA和SpeechT5,谷歌的AudioPaLM和Gemini等模型。
然而,现有语音-文本多任务大模型支持的语音-文本多模态任务比较有限,要么仅支持语音识别和理解任务,要么仅支持语音生成任务,缺乏对其他语音相关的信号处理、情感识别等任务的支持。此外,已有的语音-文本多任务大模型缺乏充分的定量评估,或者在性能上低于单任务的最优(SOTA)模型,并未体现出大模型的性能优势。这主要是由于现有的语音-文本大模型多使用离散化的语音表示来同意语音和文本的建模,而语音本身是一种连续信号,离散化的过程会造成严重的信息丢失,从而导致识别和理解类语音任务性能严重下降。
基于上述发现和分析,我们提出了LauraGPT,它连续的语音表示作为输入来保证识别和理解类任务的性能,同时使用离散的语言表示作为输出来统一生成语音和文本的token,从而在保证模型通用能力的前提下,尽可能的提高了模型性能。
LauraGPT的模型结构如下图所示,在LauraGPT中,我们将不同的语音-文本任务统一为如下形式的序列生成问题: "Task Inputs, Task ID, Task outputs"。其中任务输入可以是音频信号、文本或者他们的组合,其中音频信号通过AudioEncoder转变为连续的音频表征,而文本则通过Qwen Tokenizer进行子词拆分,而后经过 Embedding 层转换为词嵌入向量。其输出根据任务ID的不同,可能是离散化的语音token或者子词拆分后的文本token,其中离散化的语音token通过我们提出的 FunCodec 语音编码器得到,我们会在后面对其进行介绍。
此外,我们还提出了one-step codec vocoder,它能够根据提供的条件序列和LauraGPT生成的token序列生成质量更高的音频信号。通过上述的建模方式,我们将不同的语音-文本任务统一使用LauraGPT进行建模,挖掘了不同任务之间可能存在的协同关系。LauraGPT直接支持的任务包括:语音识别(ASR)、语音翻译(S2TT)、语音合成(TTS)、机器翻译(MT)、语音增强(SE)、音频描述(AAC)、语音/文本情感识别(SER)和口语语言理解(SLU)。此外,通过将不同任务进行组合,LauraGPT还能够进行更加复杂的任务,例如同声传译、富文本转写、富文本翻译、噪声鲁邦语音识别等。
为了保证可复现性,我们在开源的中英文双语种数据集上进行了实验验证,结果表明,LauraGPT在各种音频-本文处理任务的基准测试上达到了与现有SOTA模型相当或更优的性能。此外,我们还发现,不同的任务之间存在着不同程度的协同作用,例如,拥有大量的数据的ASR任务能够帮助数量较小的语音翻译任务做的更加准确。LauraGPT的提出使我们能够在未来仅需做不同任务的数据收集和整理就能够不断地提升性能;于此同时,还能够通过不同任务之间的协同作用,使用数据量较大的任务来帮助模型学习数据有限的任务。
LauraGPT模型结构图
Demo Page: https://lauragpt.github.io/
论文预印版下载地址:https://arxiv.org/abs/2310.04673
Qwen-Audio音频-语义大模型
语义大语言模型(LLM)相比于人类对于世界的感知,存在的一个短板是模型无法直观地感知和解析图像与音频信息。作为一种关键的信息表达方式,音频携带了丰富的、超越文字的信号细节,例如:人声中蕴含的情绪、语气和意图;自然界中的各类声响,像是火车的汽笛、钟声;以及音乐所传达的旋律和节奏等。因此,让语言模型掌握对这些丰富音频信号的感知与理解,并能够实现有效的音频互动,将语义大模型进化到多模态大模型是当前的一个研究和应用热点。
最近,遵循指令的音频-语言模型因其在与人类的音频交互中所表现出的潜力而受到了广泛关注。然而,缺少能够处理多种音频类型和任务的预训练音频模型,这限制了这一领域的发展。因此,大多数现有的研究只能支持有限范围的交互能力。
为此,通义实验室研究发布了Qwen-Audio音频-语义大模型。Qwen-Audio通过扩大音频-语言预训练的规模来解决这一局限性,涵盖了超过30种任务和各种音频类型,如人类语音、自然声音、音乐和歌曲,以促进全面的音频理解能力。然而,直接共同训练所有任务和数据集可能会导致干扰问题,因为不同数据集相关联的文本标签由于任务焦点、语言、注释粒度和文本结构的差异而显示出相当大的变化。
为了克服这种一对多的干扰,Qwen-Audio仔细设计了如下图的多任务训练框架,通过向解码器引入一系列层级标签来鼓励知识共享,并分别通过共享和指定的标签来避免干扰。
通过采用多任务预训练的Qwen-Audio模型,在公开的多个基准任务上都获得了SOTA的性能,如下图所示,在语音识别的AISHELL-1、AISHELL-2、Librispeech,语音翻译的CoVoST2任务,音频事件描述的Clotho任务等Qwen-Audio相比于开源的其他工作均有明显的性能优势,并且是当前这些任务的SOTA。
Qwen-Aduio通过多任务预训练具备了对音频的广泛理解能力。在此基础上,我们采用基于指令的微调技术来提升模型与人类意图对齐的能力,从而开发出名为Qwen-Audio-Chat的交互式聊天模型。
当前Qwen-Audio(https://modelscope.cn/models/qwen/Qwen-Audio/summary)和Qwen-Audio-Chat(https://modelscope.cn/models/qwen/Qwen-Audio-Chat/summary)模型已经发布到了Modelscope。可以到Modelscope进行在线体验。
同时Qwen-Audio相关的代码也通过Github进行了开源。
Github开源仓库: https://github.com/QwenLM/Qwen-Audio
02 音频分析与语音合成
说话人基础模型研究
基于上下文感知的说话人识别网络
在说话人识别领域中,主流的说话人识别模型大多是基于时延神经网络或者二维卷积网络,这些模型获得理想性能的同时,通常伴随着较多的参数量和较大的计算量。如何兼具准确识别和高效计算,是当前说话人识别领域的研究热点之一。
因此我们提出高效的说话人识别模型CAM++。该模型主干部分采用基于密集型连接的时延网络(D-TDNN),每一层的输入均由前面所有层的输出拼接而成,这种层级特征复用可以显著提高网络的计算效率。同时,D-TDNN的每一层都嵌入了一个轻量级的上下文相关的掩蔽(Context-aware Mask,CAM)模块。
CAM模块通过全局和段级的池化操作,提取不同尺度的上下文信息,生成的mask可以去除掉特征中的无关噪声。TDNN-CAM形成了局部-段级-全局特征的统一建模,可以学习到特征中更加丰富的说话人信息。CAM++前端嵌入了一个轻量的残差二维卷积网络,可以捕获更加局部和精细的频域信息,同时还对输入特征中可能存在的说话人特定频率模式偏移具有鲁棒性。
图示:CAM++模型结构示意图
VoxCeleb和CN-Celeb公开数据集上的实验结果显示,对比主流的ECAPA-TDNN和ResNet34模型,CAM++具有更高的识别准确率,同时在计算量和推理速度上有着明显的优势。
图示:VoxCeleb和CN-Celeb数据集实验结果
图示:计算复杂度对比
相关论文:https://www.isca-speech.org/archive/pdfs/interspeech_2023/wang23ha_interspeech.pdf
基于全局和局部特征融合的增强式网络
有效融合多尺度特征对于提高说话人识别性能至关重要。现有的大多数方法通过简单的操作,如特征求和或拼接,并采用逐层聚合的方式获取多尺度特征。本文提出了一种新的架构,称为增强式Res2Net(ERes2Net),通过局部和全局特征融合提高说话人识别性能。局部特征融合将一个单一残差块内的特征融合提取局部信号;全局特征融合使用不同层级输出的不同尺度声学特征聚合全局信号。为了实现有效的特征融合,ERes2Net架构中采用了注意力特征融合模块,代替了求和或串联操作。
ERes2Net在公开测试集VoxCeleb中取得优异性能,在模型参数量相近条件下,各模型识别性能对比如下所示:
论文下载地址:https://www.isca-speech.org/archive/interspeech_2023/chen23o_interspeech.html
基于非对比自监督学习的说话人识别
正则化DINO框架的自监督说话人识别
在无法获得说话人标签的语音数据条件下,训练一个鲁棒性强的说话人识别系统是一个极具挑战性的任务。研究表明全监督说话人识别和自监督说话人识别之间仍存在不小的性能差距。在这篇文章中,我们将自监督学习框架DINO应用于说话人识别任务,并针对说话人识别任务提出多样性正则和冗余度消除正则。多样性正则提高特征多样性,冗余度正则减小特征冗余度。不同数据增强方案的优劣在该系统中得以验证。大量的实验在公开数据集VoxCeleb上开展,表现出Regularized DINO框架的优越性。
正则化DINO框架在公开测试集VoxCeleb中取得优异性能,与同时期发表的相关模型性能对比如下:
论文下载地址:https://arxiv.org/pdf/2211.04168.pdf
基于自蒸馏原型网络的自监督说话人识别
深度学习在说话人识别中广泛应用并取得优异性能,但是利用大量有标签语音数据训练神经网络提取说话人嵌入矢量需要耗费极大的人工成本,所以如何利用海量无标签数据获取优质说话人矢量成为一大研究痛点。而自监督学习利用自身监督信息学习对网络进行训练,有效降低了标注数据等步骤成本,因此我们提出一种基于自蒸馏原型网络的自监督学习说话人确认方法,提高说话人嵌入矢量的泛化性能。
自蒸馏原型网络由教师模型和学生模型构成,如上图所示,将同一条语音切分成若干长时和短时语音,长时语音输入教师特征编码器,教师多层感知机以及原型网络,短时语音输入学生特征编码器,学生多层感知机以及原型网络,使用教师模型输出指导学生模型输出,完成自蒸馏过程。基于自蒸馏原型网络的说话人识别性能如下:
论文下载地址:https://arxiv.org/pdf/2308.02774.pdf
多模态说话人区分
结合语义的说话人日志技术
说话人日志(Speaker Diarization,SD)系统的目标是解决“谁在什么时间说话”的说话人识别问题,是一种可以广泛应用于客服、会议等多轮对话场景的语音技术。现有的相关技术大致分为两类,一类是基于分割聚类的传统方法,另一类则是基于深度神经网络的端到端方法,它们都是依赖纯语音信息的方案,在说话人音色相近、声学环境复杂的情况下往往容易产生说话人混淆、说话人转换点不清晰等错误。为此,我们着重探索了结合其他模态信息的说话人日志技术。
结合局部语义说话人日志系统
针对现有方法存在的问题,我们提出了结合语义的说话人日志系统。我们的系统如下图所示,区别于传统说话人日志系统的pipeline(VAD - Embedding - Cluster)的过程,我们通过引入Forced-Alignment模块来对齐文本和speaker embedding过程,并且将ASR输出的文本结果输入到语义模块中来提取说话人相关的语义信息。
关于语义部分,我们提出了两个用于提取语义中说话人信息的模块:对话预测(Dialogue Detection)和说话人转换预测(Speaker-Turn Detection),这两个模型基于Bert模型,使用大量带说话人ID的会议文本进行训练,可以用于判断多人对话的局部是否有说话人转换发生以及说话人转换发生的具体文本位置。
由于语义模块的结果也包含一些错误,尤其是在ASR系统解码出的文本上,文本错误会使得语义模型的性能有所下降,我们设计了一系列简单而有效的fusion策略来结合语音信息的说话人聚类结果,可以显著提升上述两个子模块的效果。
通过结合传统说话人聚类的结果和语义说话人信息,我们可以对纯音频信息的说话人日志结果进行优化。我们在AIShell-4和M2MeT(Alimeeting)数据上的结果表明,结合语义的说话人日志系统在speaker-wer和cp-wer上都有显著提升。
相关论文:https://aclanthology.org/2023.findings-acl.884.pdf
2024通义语音AI技术图景,大模型引领AI再进化(2)https://developer.aliyun.com/article/1587429