文档备案控制台

开发者社区 ModelScope模型即服务计算机视觉正文

ModelScope语音识别模型可以传入二进制数据传入返回数据不对应，怎么偶尔也有单个字的返回？

ModelScope语音识别模型可以传入二进制数据传入返回数据不对应，怎么偶尔也有单个字的返回？
https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-online/comment!
iwEcAqNwbmcDAQTRBq4F0QFCBrAqxc9vCZvZcATTfYSegN8BB9IWM05jCAAJomltCgAL0gAGhes.png_720x720q90.jpg
iwEcAqNwbmcDAQTRAkQF0QDQBrBbOvuMlipQPgTTfYSegN8AB9IWM05jCAAJomltCgAL0gABa8A.png_720x720q90.jpg

展开

收起

青城山下庄文杰 2023-08-19 08:53:26 230 版权

1 条回答

写回答

取消提交回答

清风拂袖

您好，ModelScope 的语音识别模型能够对音频文件进行识别，并将其转换为文本。如果您在输入二进制数据时遇到问题，请尝试以下方法：

确保您使用的是正确的二进制格式。语音识别模型只支持 wav 格式的数据。
确保您使用的是正确的音频采样率。语音识别模型只支持 16KHz 的音频采样率。
确保您使用的是正确的音频编码。语音识别模型只支持 16 位线性 PCM 编码。
尝试使用其他语音识别模型。如果您仍然遇到问题，请尝试使用其他语音识别模型。
如果您还有其他问题，请随时联系我们。

2023-09-21 10:21:21

赞同展开评论

相关问答

modelscope-funasr的实时语音识别支持的并发数在哪里可以看？

607

1

0

在modelscope-funasr用的paraformer的一个语音识别模型，怎么加上热词？

500

0

0

modelscope-funasr的多说话人语音识别模型支持实时听写吗？

359

0

0

我使用modelscope进行语音识别时很慢。

818

0

0

在modelscope-funasr中官方实例语音识别pcm报错是什么问题?

235

0

0

阿里云语音AI智能语音交互中录音文件识别的customization_id定制模型还是不能区分热词。

253

1

0

如何让modelscope-funasr语音识别出来的“一二三四”转换“1234”是需要微调吗？

248

1

0

智能语音交互，文档上面有动态变量示例，为什么售后说只支持语音文件？

205

0

0

在阿里语音AI中，语音交互的私有化部署怎么操作？

296

1

0

阿里巴巴语音实验室提出的SAN-M网络结构和流式Attention机制在语音识别中起到了什么作用？

381

1

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

相关文章

阿里云百炼Token Plan深度解析：Credits规则、AI模型矩阵及免费Tokens获取攻略

一线城市呼叫中心系统架构设计与集成实践：从延迟优化到混合云落地

AI智能体的开发流程

AI 技术在英语教育中的应用

AI英语教育产品的开发与上线

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

高效存储和处理多媒体数据

热门讨论

热门文章

ModelScope中，模型下载默认路径在哪个路径？

com/action/joingroup?code=v1是什么意思

ModelScope镜像地址是什么？

ModelScope下载速度慢怎么解决？

ModelScope中，灵积模型服务怎么看账单比如如何看我的免费token额度还剩下多少?

ModelScope这个免费额度可以在哪里查询啊？

modelscope cache 环境变量是啥？

【DCT-Net人像卡通化】生成图像颜色诡异暗青色

在ModelScope中，下载模型时的ssl问题怎么解决？!

请问去哪里找ModelScope里面各个模型的id？

展开全部

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

极致的显存管理！6G显存运行混元Video模型

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

CogVideoX-Flash：智谱首个免费AI视频生成模型，支持文生视频、图生视频，分辨率最高可达4K

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

EchoMimicV2：阿里推出的开源数字人项目，能生成完整数字人半身动画

Step-Video-TI2V：开源视频生成核弹！300亿参数+102帧电影运镜

CogView-3-Flash：智谱首个免费AI图像生成模型，支持多种分辨率，快速生成创意图像

AniDoc：蚂蚁集团开源 2D 动画上色 AI 模型，基于视频扩散模型自动将草图序列转换成彩色动画，保持动画的连贯性

展开全部

还有其他疑问?