语音识别(ASR)基础介绍第二篇——万金油特征MFCC
上一章提到了整个发声与拾音及存储的原理。但是在了解ASR的过程中,发现基本上遇到的资料都避不开MFCC特征。
整个ASR的处理流程大致可以分为下图:
左侧是经典的处理流程,右侧是近期流行的流程。发生的变化是,将语言模型以下的部分变成端到端的了。 我们将语言模型以下的部分统一看成是声学模型就好。
而MFCC主要用在左侧的处理流程中,即“特征处
【详解】智能语音交互@阿里巴巴
本文来自阿里云iDST初敏博士,从我们表面上看到的语音交互,到背后的三个层次技术(语音技术、智能化技术、大数据技术),从语音、自然语言、对话及基础建设等等关键环节都做了非常系统化的介绍!
阿里云双11访谈之视频云
近期阿里云在云栖大会上发布了很多ECS新产品。在阿里云双11访谈之视频云中,阿里云视频云产品经理沐暄和阿里云视频云产品经理王利军跟大家一起探讨如何更轻松的构建视频的全面能力。他们从视频生产、分发、消费三个环节来分享开发者更关注哪些技术点,以及阿里云能够为开发者提供怎样的计算能力。
语音识别(ASR)基础介绍第三篇——经典做法及术语概念
上一章介绍了万金油特征MFCC,相当于数据的输入已经确定了。 本章尽可能的介绍经典asr做法。其中涉及到的各种概念和思考,了解了之后,和相关专业的人交流,大概就不再迷茫了:D
传统方法也可以按 声学模型 和 语言学模型 的方式来划分。
声学模型主要的职责是,把一段音频处理成类似拼音的形式, 然后交给语言模型来猜: 能够发这些音的单词,怎么组合起来更常见一些。然后找到最可能的组合,便是asr的结