开源上新|FunASR英文离线文件转写软件包发布

简介: 开源上新|FunASR英文离线文件转写软件包发布

文章来自 阿里语音AI公众号

FunASR是由阿里巴巴智能计算研究院语音实验室开源的语音识别框架,集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署,吸引了众多开发者参与体验和开发。

今年7月初,FunASR开源社区发布了离线文件转写软件包,实现了高精度、高效率、高并发的长音频离线文件转写,并在8月份发布了支持实时语音听写软件包,既可以实时地进行语音转文字,而且能够在说话句尾用高精度的转写文字修正输出。

本月,应社区用户的需求与反馈,FunASR特推出英文离线文件转写软件包该软件包结合了阿里巴巴智能计算研究院语音实验室在Modelscope社区开源的语音端点检测、语音识别、标点断句等模型,支持模型的ONNX导出与量化,并提供了可方便快捷的部署到本地或者云端服务器的一键化部署脚本。开发者可以基于该软件包,便捷地构建高精度、高并发、高效率的英文离线文件转写服务。

图1 FunASR英文离线文件转写服务架构图


最新发布,体验下载👉FunASR英文离线文件转写软件包:

https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_en_zh.md


(8月发布)FunASR实时语音听写软件包:https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_online_zh.md
(7月发布)FunASR离线文件转写软件包:https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_zh.md


英文离线文件转写软件包

>>>便捷部署


FunASR社区提供了英文离线文件转写软件包一键部署方案,开发者可以通过funasr-runtime-deploy-offline-cpu-en.sh一键完成docker安装、镜像启动、服务部署,详见英文离线文件转写服务便捷部署教程:https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_en_zh.md


>>>高精度

FunASR软件包集成了阿里巴巴智能计算研究院语音实验室在ModelScope开源的,采用海量数据训练的工业级语音识别模型Paraformer-en,保证了端到端转写效果的精度。下方表格对比了Paraformer-en模型与Whisper模型的识别效果与推理效率:

表1 Paraformer-en与Whisper推理速度与识别效果对比

Paraformer-en模型与Whisper-small-en模型相比,参数量相近,Whisper受益于68+万小时训练数据,相比于Paraformer-en模型5万小时训练数据,识别效果有一定优势(学术集差距在相对10%左右,工业集差距相对4%)。Paraformer模型受益于其非自回归结构,计算效率优势较大,相比于同参数量的Whisper-small-en模型,推理速度提升10倍以上,对于服务部署更加友好。

注:1.RTF测试GPU机器V100,CPU机器为Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz;

2.funasr已经支持whisper模型,上述表格可以通过funasr快速进行测试。

>>>高推理效率

FunASR软件包中的语音端点检测(VAD)、语音识别(ASR)、标点断句(PUNC)模型均通过onnx 量化导出实现推理加速,其中ASR模型为基于Paraformer的非自回归模型,相比于目前普遍采用的自回归模型具有明显的推理效率优势,可同时支持多线并发,可以准确、高效的对音频进行转写。我们采用Librispeech test_clean测试集测试了软件包的转写加速比,CPU8369B上的吞吐率为448,即每小时可以推理448小时音频

不同配置下的详细吞吐率指标如下表:

表2 FunASR英文离线文件转写软件包性能测试

注:测试机器为 Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz 16core-32processor with avx512_vnni

更多详细结果详见benchmark👇:

https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/benchmark_onnx_cpp.md

>>>长音频链路

FunASR软件包提供了一套完整的语音识别链路,包括语音端点检测(VAD)、语音识别(ASR)、标点断句(PUNC),可用于高效转写长音频,无需用户进行二次开发。我们在一个长音频测试集上(时长为0~24min)分别对asr链路、vad+asr+punc链路进行了测试,asr链路在并发32线时会OOM,vad+asr+punc链路的吞吐率为334,相比asr链路有明显优势。

不同配置下的详细吞吐率指标如下表:

表3 FunASR英文离线文件转写软件包长音频输入性能测试

注:测试机器为 Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz 16core-32processor with avx512_vnni
软件包安装使用指南

精简操作,即刻安装,FunASR软件包当前已开源

开源软件包包地址👇:https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/readme_cn.md


>>>步骤:

第一步:下载安装部署工具

    curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/funasr-runtime-deploy-offline-cpu-en.sh


    第二步:安装部署

      sudo bash funasr-runtime-deploy-offline-cpu-en.sh install --workspace ./funasr-runtime-resources

      第三步:测试与使用

      运行上面安装指令后,会在./funasr-runtime-resources下载samples, 为客户端测试工具,支持python/c++/java/html网页等语言。支持多种音频格式输入(.wav, .pcm, .mp3等),也支持视频输入(.mp4等)。我们以html网页版本client为例,进行说明:在浏览器中打开samples/html/static/index.html,出现如下页面,输入部署服务器ip与端口号后,可以直接进行体验。

      图2 html网页客户端体验

      同时我们在云端部署了FunASR实时语音转写服务,用户可以直接在浏览器中进行体验:

      英文离线文件转写https://101.37.77.25:1332/static/index.html

      离线文件转写(热词模型)https://101.37.77.25:1335/static/index.html

      离线文件转写(时间戳模型)https://101.37.77.25:1334/static/index.html

      实时语音听写https://101.37.77.25:1336/static/index.html

      相关实践学习
      达摩院智能语音交互 - 声纹识别技术
      声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
      相关文章
      |
      4月前
      |
      自然语言处理 语音技术 开发者
      开源上新|FunASR多语言离线文件转写软件包
      开源上新|FunASR多语言离线文件转写软件包
      |
      6月前
      |
      测试技术 语音技术 开发者
      FunASR英文离线文件转写软件包问题之推理加速如何解决
      FunASR英文离线文件转写软件包问题之推理加速如何解决
      72 0
      |
      9月前
      |
      API 语音技术
      ModelScope-FunASR**有支持热词又支持时间戳的模型**。
      【2月更文挑战第30天】ModelScope-FunASR**有支持热词又支持时间戳的模型**。
      258 2
      |
      达摩院 Java 大数据
      达摩院FunASR实时语音转写服务软件包发布
      达摩院FunASR实时语音转写服务软件包发布
      1033 0
      达摩院FunASR实时语音转写服务软件包发布
      |
      达摩院 Java 测试技术
      最新迭代|FunASR离线文件转写软件包2.0
      最新迭代|FunASR离线文件转写软件包2.0
      762 0
      |
      2月前
      |
      人工智能 物联网 PyTorch
      ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本
      ChatTTSPlus 是一个开源的文本转语音工具,是 ChatTTS 的扩展版本,支持语音克隆、TensorRT 加速和移动模型部署等功能,极大地提升了语音合成的性能和灵活性。
      165 5
      ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本
      |
      2月前
      |
      人工智能 自然语言处理 算法
      开源更新|语音生成大模型CosyVoice升级2.0版本
      开源更新|语音生成大模型CosyVoice升级2.0版本
      |
      6月前
      |
      语音技术
      FunASR英文离线文件转写软件包问题之实时语音听写软件包功能如何解决
      FunASR英文离线文件转写软件包问题之实时语音听写软件包功能如何解决
      51 0
      |
      6月前
      |
      测试技术 语音技术
      FunASR英文离线文件转写软件包问题之性能测试详细结果查看如何解决
      FunASR英文离线文件转写软件包问题之性能测试详细结果查看如何解决
      97 0
      |
      6月前
      |
      人工智能 Java 语音技术
      开源上新|FunASR离线文件转写GPU软件包1.0
      开源上新|FunASR离线文件转写GPU软件包1.0