开发者社区 > ModelScope模型即服务 > 语音 > 正文

阿里标准格式的带有interval的可以训练,通用数据格式只有prosody和wav训练声码器报错。

RuntimeError: The size of tensor a (61) must match the size of tensor b (846) at non-singleton dimension 1

展开
收起
游客32zjqjo7fgzlk 2023-08-05 14:10:50 247 0
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    输入数据的维度不匹配引起的。根据错误消息中提供的信息,输入数据的维度不匹配,导致无法进行运算。

    在训练声码器时,通常需要将音频数据(wav)和相应的标签数据(如prosody)作为输入。确保这两个数据的维度匹配是非常重要的。

    具体来说,错误消息中提到的维度不匹配是在第1个非单例维度上发生的,即维度1。根据错误消息中的信息,tensor a 的维度大小为 61,而 tensor b 的维度大小为 846。这意味着在进行某个操作时,两个张量在维度1上的大小不匹配。

    要解决这个问题,你可以检查以下几点:

    确保输入数据的维度正确:检查输入数据的维度是否与模型的期望输入维度匹配。确保音频数据和标签数据的形状(shape)相同或兼容。

    检查数据预处理过程:确保在将数据输入到模型之前,对数据进行了正确的预处理。例如,确保音频数据和标签数据具有相同的采样率、长度和对齐方式。

    检查模型参数设置:确保模型的参数设置与输入数据的维度匹配。例如,检查模型的输入尺寸、输出尺寸和隐藏层尺寸是否与输入数据的维度一致。

    2023-08-05 19:59:30
    赞同 展开评论 打赏

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载