文档备案控制台

开发者社区 ModelScope模型即服务语音正文

语音合成--语音读取文本语义错误？

请教一下，语音合成的问题

举例，哈
'-' 这个斜杠在不同句子里面读不同的音调。但是sambert模型大部分都读错了

附:德荷大赛对决一览2012年欧洲杯小组赛德国2-1荷兰2004年欧洲杯小组赛（2-1 读成 zhi 应该读bi）
隶属于VX-23测试中队的F-35C“闪电II”舰载隐身战机与DDG-1000隐身战舰合影。（- 读成 gang 应该不读）
堪萨斯州的彩票玩家密苏里曾于2009年9月9日投注了号码“9-9-9”，（- 读成 gang 应该不读）
2001年8月-2002年:协助宾利欧陆GT轿跑车的设计工作，（- 读成 fu 应该读dao）

类似于这种读错的符号，或者其他字母符号

这个通过sambert模型，训练新的定向数据，能解决吗？
将以上的参数变成正确的输出

还是说，语音合成模型只能训练音色，不能改变语义
请教一下，语音合成的问题

举例，哈
'-' 这个斜杠在不同句子里面读不同的音调。但是sambert模型大部分都读错了

附:德荷大赛对决一览2012年欧洲杯小组赛德国2-1荷兰2004年欧洲杯小组赛（2-1 读成 zhi 应该读bi）
隶属于VX-23测试中队的F-35C“闪电II”舰载隐身战机与DDG-1000隐身战舰合影。（- 读成 gang 应该不读）
堪萨斯州的彩票玩家密苏里曾于2009年9月9日投注了号码“9-9-9”，（- 读成 gang 应该不读）
2001年8月-2002年:协助宾利欧陆GT轿跑车的设计工作，（- 读成 fu 应该读dao）

类似于这种读错的符号，或者其他字母符号

这个通过sambert模型，训练新的定向数据，能解决吗？
将以上的参数变成正确的输出

还是说，语音合成模型只能训练音色，不能改变语义

展开

收起

语音合成-中文-多情感领域-16k-多发音人

aliyun6117793064 2024-01-24 12:46:05 306 版权

0 条回答

写回答

取消提交回答

相关问答

智能语音交互的长文本语音合成生成的二进制字节流能否存储在第三方平台

147

1

0

智能语音交互如何查看长文本语音合成的my_device_id

124

1

0

阿里平台哪个语音合成的语音比较自然，还是说要配置什么？

270

1

0

在阿里语音AI中，使用流式文本语音合成，运行后如何保持长连接避免10秒后被自动断开连接？

505

1

0

如何使用阿里云的语音合成服务(TTS)将文本转换为语音？

2851

1

0

如何测试阿里云的长文本语音合成功能？

191

0

0

阿里云语音AI 语音合成CosyVoice大模型和长文本语音合成有什么区别？

522

1

0

阿里云语音AI 语音合成CosyVoice大模型支持流式输出吗？

523

1

0

在阿里云语音AI中有实时语音合成的python代码吗？

223

3

0

在阿里云语音AI中今天的短语音合成接口服务异常吗，一直报5000000?

163

1

0

ModelScope模型即服务

语音

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

我要提问

相关文章

电话+在线+售后全场景：客服Agent岗位化落地经验，AI客服机器人厂商推荐

少儿AI英语背单词APP的开发

少儿AI 英语背单词 APP的开发

【开源】龙虾人工智能 —— 完全本地化的机器人大脑！不联网、不付 API 费、能看能说能理解！

热门讨论

热门文章

语音识别端到端模型解读：FSMN及其变体模型

在Windows平台上关于 ModelScorpe Audio 安装涉及 kwsbp 的问题

iic/speech_sambert-hifigan_tts_zh-cn_16k模型实时合成

modelscope报错

linux系统运行TTS语音合成报错 Could not initialize NNPACK

Paraformer语音识别-中文-通用-16k-离线-large-pytorch如何训练

七大模型最新开源，推理速度升级，几行代码可实现微调

SamberHifigan搞了一下午才跑通，先说结论...

目录空间都删的只剩2G了，还报OSError: [Errno 122] Disk quota exc

tts 多音字可以在生成文本中标明吗？

展开全部

docker安装部署FunASR

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

Voice-Pro：开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

覆盖16省方言的老人语音数据集！SeniorTalk：智源研究院开源全球首个超高龄老年人中文语音数据集

Step-Audio：开源语音交互新标杆！这个国产AI能说方言会rap，1个模型搞定ASR+TTS+角色扮演

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

展开全部

还有其他疑问?