NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、GPT-1…你都掌握了吗?一文总结语音识别必备经典模型(2)

简介: NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、GPT-1…你都掌握了吗?一文总结语音识别必备经典模型

6、 GPT-1

BiRNN+Attention使用了典型的编码器-解码器结构,编码器部分使用BiRNN,解码器部分使用Attention机制。对于普通的RNN模型,输入(x_1,x_2,...,x_T) 在经过 T 个时刻之后,可以得到 T 个正向隐藏层状态(h→,...,h→T) ;之后将输入序列单词的顺序颠倒之后得到(x_T,...,x_2,x_1) ,然后再次经过RNN,就可以得到反向的隐藏层状态(h←1,...,h←T) 。最后,我们要得到单词x_j 的向量表示,只需要将正向的隐藏状态h→j 跟反向的隐藏状态h←j 进行连接即可,例如:hj=[h→j;h←j] 。

解码器
在解码器中,作者引入注意力机制。解码器通过如下方式输出目标序列:


对于RNN模型,每一个条件概率通过下式进行建模:


该模型使用的条件概率如下:


需要注意的是,对于每一个目标单词y_i,用来计算其条件概率的上下文向量c_i都是不一样的。这跟传统的编码器-解码器模型是不一样的。c_i 指的就是中间语义变量,作者在论文中称为上下文变量。首先,c_i 依赖于编码器所有的隐藏状态(h_1,...,h_T) ,其次,在双向循环神经网络中,h_i 是包含整个输入序列的信息的,但是其包含的信息更集中在输入序列第 i 个单词位置附近。最后,在翻译输出单词的时候,不同的隐藏状态h_i 对输出序列的贡献是不一样的。

图9. 模型图示,在源句(x_1, x_2, ..., x_T)的基础上生成第t个目标词y_t


编码器( BIDIRECTIONAL RNN FOR ANNOTATING SEQUENCES
一个BiRNN由前向和后向RNN组成。前向RNN→f按顺序读取输入序列(从x_1到x_Tx),并计算出前向隐藏状态的序列(→h_1,..., →h_Tx)。后向RNN←f以相反的顺序读取序列(从x_Tx到x_1),生成一个后向隐藏状态的序列(←h_1, ...,←h_Tx)。我们通过连接前向隐藏状态→h_j和后向隐藏状态←h_j 得到每个词x_j的注释。这样一来,注释h_j就包含了前面的词和后面的词的摘要。由于RNNs倾向于更好地代表最近的输入,注释h_j将集中在x_j周围的词。这一连串的注释被解码器和对齐模型用来计算上下文向量。完整的模型图示见图9。


当前 SOTA!平台收录 GPT-1 共 2 个模型实现资源,支持的主流框架包含 TensorFlow、PyTorch。


项目 SOTA!平台项目详情页
GPT-1 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/gpt-1


前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及API等资源。

网页端访问:在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。

移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
5月前
|
机器学习/深度学习 算法 安全
【光伏功率预测】基于EMD-PCA-LSTM的光伏功率预测模型(Matlab代码实现)
【光伏功率预测】基于EMD-PCA-LSTM的光伏功率预测模型(Matlab代码实现)
293 1
|
6月前
|
机器学习/深度学习 数据采集 数据挖掘
基于 GARCH -LSTM 模型的混合方法进行时间序列预测研究(Python代码实现)
基于 GARCH -LSTM 模型的混合方法进行时间序列预测研究(Python代码实现)
230 2
|
9月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
396 17
|
5月前
|
机器学习/深度学习 数据采集 并行计算
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
558 2
|
7月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
|
12月前
|
人工智能 自然语言处理 语音技术
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
Step-Audio 是由阶跃星辰团队推出的开源语音交互模型,支持多语言、方言和情感表达,能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。
1858 91
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
|
6月前
|
机器学习/深度学习 算法 物联网
基于WOA-CNN-LSTM-Attention、CNN-LSTM-Attention、WOA-CNN-LSTM、CNN-LSTM、LSTM、CNN6模型多变量时序预测一键对比研究(Matlab代码)
基于WOA-CNN-LSTM-Attention、CNN-LSTM-Attention、WOA-CNN-LSTM、CNN-LSTM、LSTM、CNN6模型多变量时序预测一键对比研究(Matlab代码)
237 0
|
10月前
|
机器学习/深度学习 人工智能 前端开发
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
Meta最新开源的SWEET-RL框架通过优化多轮交互任务的信用分配机制,使Llama-3.1-8B模型在协作推理任务中的表现提升6%,性能达到顶尖大模型水平。
542 33
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%

热门文章

最新文章

相关产品

  • 智能语音交互