备案控制台

开发者社区 > ModelScope模型即服务 > 计算机视觉 > 正文

在ModelScope中，想问问有没有实时语言识别的好用的模型

想问问有没有实时语言识别的好用的模型

展开

收起

崔问问 2023-12-03 22:46:04 117 0

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

在ModelScope中，存在几款优秀的实时语言识别模型。例如，UniASR模型是一种两遍刷新的端到端语音识别模型，它能够以高精准度实时进行语音识别。另一个值得推荐的模型是Paraformer中文通用语音识别模型，它是通过工业级数万小时的标注音频进行训练的，具有很好的通用识别效果，可以广泛应用于语音输入法、语音导航、智能会议纪要等场景。此外，WeNet中采用的U2模型也是一款性能出色的实时语言识别模型，它使用Joint CTC/AED的结构进行训练，并通过dynamic chunk的训练技巧使Shared Encoder能够处理长序列。你可以根据自己的实际需求和应用场景，选择最适合的模型。

2023-12-04 15:53:47

赞同展开评论打赏
sunrr

在ModelScope中，存在一些优秀的实时语言识别模型。例如，UniASR模型是一种两遍刷新的端到端语音识别模型，它不仅识别精度高，而且能实时进行语音识别。另一个值得推荐的模型是Paraformer中文通用语音识别模型，这个模型使用了工业级数万小时的标注音频进行训练，具有很好的通用识别效果，可以应用于语音输入法、语音导航、智能会议纪要等场景。此外，阿里还在ModelScope上开放了涉及不同模型结构（如UniASR，Paraformer）、不同模型大小（如small，large）以及不同语种（如中文，英文，中英自由说，日语，俄语，印尼语等）的阿里工业级的语音识别模型。因此，你可以根据你的具体需求和场景来选择合适的模型。

2023-12-04 14:25:17

赞同展开评论打赏

相关问答

modelscope-funasr能识别传入语言的语种吗？

44

0

0

modelscope-funasr的sensevoice我看写的支持50中语言，具体在哪可以看到？

42

0

0

modelscope-funasr内网环境（连不了公网）下，自己下载了模型权重的pt文件，怎么使用？

65

0

0

ModelScope模型能不能对训练结果进行微调？

59

1

0

modelscope本地模型为什么会报错？

45

1

0

modelscope-funasr指定不了语言种类为什么？

31

1

0

ModelScope模型运行报错，除了降级有其他解决方案吗？

42

0

0

ModelScope中模型在之前就已经下载好了，应该不是下载的问题，怎么解决？

29

1

0

modelscope-funasr的SenseVoice模型支不支持实时听写吗？

94

1

0

怎么设置可以实现合并￥量化后的ModelScope模型的group_size=64呢？

46

2

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

热门讨论

热门文章

com/action/joingroup?code=v1是什么意思

ModelScope中，模型下载默认路径在哪个路径？

我希望通过damo-YOLO训练1500*1500的图片

请问在 ModelScope 上的模型断网使用报这个错误啥原因了?

ModelScope有没有人知道windows安装ttsfrd的方法或者ttsfrd源码？

服务器上onnxruntime-gpu 调用结束，如何释放显存

ModelScope下载速度慢怎么解决？

ModelScope中，大佬们4卡跑lora时，遇到这样的错，怎么解决？

ModelScope中，请问Qwen-14B-Chat-Int4运行最少需要多少内存？

如何下载modelscope模型？

展开全部

EchoMimicV2：阿里推出的开源数字人项目，能生成完整数字人半身动画

Cobalt：开源的流媒体下载工具，支持解析和下载全平台的视频、音频和图片，支持多种视频质量和格式，自动提取视频字幕

AddressCLIP：一张照片就能准确定位！中科院联合阿里云推出街道级图像地理定位模型

LatentSync：根据音频生成高分辨率、动态逼真的唇形同步视频

VITRON：开源像素级视觉大模型，同时满足图像与视频理解、生成、分割和编辑等视觉任务

Inf-DiT：清华联合智谱AI推出超高分辨率图像生成模型，生成的空间复杂度从 O(N^2) 降低到 O(N)

PersonaMagic：人像与风格融合！快速生成个性化的头像

InvSR：开源图像超分辨率生成模型，提升分辨率，修复老旧照片为超清图像

MagicMirror：一键 AI 换脸、换发型和换穿搭，拖放照片就能实现换脸和形象变换，本地运行无需配置

CreatiLayout：复旦与字节联合推出布局到图像生成技术，支持高质量图像生成与布局优化

展开全部

相关课程

更多

个性化语音合成模型微调

259

1

去学习

ModelScope社区Library技术架构介绍

229

1

去学习

相关电子书

更多

视觉AI能力的开放现状及ModelScope实战 立即下载

ModelScope助力语音AI模型创新与应用 立即下载

低代码开发师（初级）实战教程 立即下载