modelscope-funasr的ASR模型是不是都是对token训练的?有没有对phone训练的呢?
ModelScope-Funasr的ASR模型主要是对token进行训练的,目前没有明确信息表明提供对phone训练的ASR模型。
在语音识别领域,token是指语音识别模型在进行语音转文本时的基本处理单元。这些token可以是字、词或者子词(subword)级别的单元。对于中文而言,由于其书写特性,通常采用拼音或者字符作为基本单元。而phone则是指语音中的最小区分单位,即音素。不同的语言有不同的音素体系,比如英语有44个音素。
ModelScope-Funasr作为一个由阿里达摩院开源的基础语音识别工具包,依托于Paraformer非自回归端到端语音识别模型,提供了包括语音识别在内的多种功能。这个框架支持了社区开源的工业级语音识别模型的训练和微调,使得研究人员和开发者可以更加便捷地进行相关研究和开发工作。
至于是否有基于phone训练的ASR模型,虽然ModelScope-Funasr提供了丰富的预训练模型以及相关的脚本和教程,但是根据现有资料并未明确指出是否包含基于phone训练的模型。通常来说,现有的大多数端到端模型更倾向于使用token作为训练单元,因为这样能够更好地适应各种自然语言处理任务,并且能够利用大量的文本数据进行预训练。
总的来说,如果您需要特定于音素级别训练的ASR模型,可能需要查看具体的模型说明直接咨询ModelScope-Funasr的维护者以获取更准确的信息。
这类模型直接将语音信号映射到词汇表中的单词(word-level tokens)或者子词单元(如字符、字节对编码BPE、词语片段WordPiece等)。这种设计简化了模型与实际应用的对接,因为输出可以直接对应到可读的文字,无需额外的解码步骤。由于ModelScope-FunASR通常面向实际应用,提供直接可用的语音转文本服务,其ASR模型很可能主要是基于token训练的。