开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

modelscope-funasr微调时 我遇到一个问题,怎么解决?

modelscope-funasr微调时 我遇到一个问题,怎么解决? 就是 我在tokens.json文件增加了一个 符号,然后 用了一个小训练集进行微调。我debug了一下 代码 确定 训练的文字 其实 不会用到这个 新的符号,(生成的tokenId 不变),但是 不知道为什么 使用微调后的模型 模型语音识别能力 非常差。如果 不改tokens.json 微调后 就没有问题,只是在tokens.json文件增加了一个 “+”,并且 训练集、验证集、测试集也都没有 “+”相关文本, 使得模型语音识别能力基本就是胡说八道了

展开
收起
三分钟热度的鱼 2024-03-27 17:07:15 72 0
1 条回答
写回答
取消 提交回答
  • 在微调ModelScope-FunASR时遇到问题,特别是添加了新的符号到tokens.json文件后模型性能下降,可能的原因和解决方法包括:

    1. 检查数据预处理:确保您的训练集、验证集和测试集中的数据都经过了正确的预处理步骤。如果新加的符号“+”需要特殊处理(如转义),则需要在预处理中加入相应逻辑。

    2. 符号冲突:检查新加入的符号是否与现有符号产生冲突或混淆。即使是不常用的符号,也可能影响模型的内部表示。

    3. 学习率调整:微调时,可能需要调整学习率。如果学习率过高,模型可能会快速偏离正确路径;过低则可能导致模型更新缓慢,无法适应新的符号。

    4. 损失函数和评估指标:检查损失函数是否仍然适用于新的任务,以及是否需要更新评估指标以反映新符号的重要性。

    5. 模型结构:考虑是否需要修改模型结构来适应新的符号。有时候,增加新的符号需要增加模型的容量或修改架构。

    6. 训练时间:如果只进行了少量的训练,模型可能还没有足够学习到新符号的特征。确保模型有足够的时间来学习新的符号表示。

    7. Debugging:继续调试代码,确保没有其他隐藏的错误影响模型的训练和预测。

    8. 版本控制:确认使用的tokens.json版本与微调模型时使用的版本一致。

    9. 实验记录:记录每次实验的设置和结果,以便进行对比分析,找出性能下降的具体原因。

    10. 寻求帮助:如果问题仍然无法解决,可以在ModelScope-FunASR的社区论坛或相关技术交流群中寻求帮助,分享您的实验设置和遇到的问题,可能会有经验丰富的开发者或研究人员提供解决方案。

    综上所述,通过上述步骤,您应该能够定位并解决微调ModelScope-FunASR时遇到的问题。

    2024-03-28 22:28:45
    赞同 展开评论 打赏

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载