modelscope-funasr中finetune的时候怎么去添加其他语种的词汇表？

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

在modelscope-funasr中进行finetune时，可以通过以下步骤添加其他语种的词汇表：

准备其他语种的文本数据：首先，你需要收集包含该语种词汇的文本数据。这些数据可以是训练集、验证集或测试集。确保文本数据已经进行了预处理，例如分词、去除标点符号等。
创建词汇表文件：将收集到的文本数据转换为词汇表文件。可以使用现有的工具或编写自定义脚本来完成这个任务。词汇表文件应该包含每个单词及其对应的ID。
修改配置文件：打开modelscope-funasr的配置文件（通常是config.yaml），找到与词汇表相关的部分。通常，这包括vocab_file参数，用于指定词汇表文件的路径。将该参数的值更改为新创建的词汇表文件的路径。
重新训练模型：保存并关闭配置文件后，使用新的词汇表重新训练模型。modelscope-funasr会自动加载新的词汇表，并在训练过程中使用它。
评估和测试：完成训练后，可以使用新的模型对测试集进行评估和测试，以确保模型的性能没有受到影响。

请注意，添加其他语种的词汇表可能需要一些额外的工作，例如处理多语言数据、调整模型架构等。在进行这些操作之前，建议仔细阅读modelscope-funasr的文档和相关教程，以了解如何正确地配置和使用该工具。

2024-01-13 14:24:28

赞同展开评论

sunrr

在ModelScope-FunASR中进行finetune时，可以通过以下步骤添加其他语种的词汇表：

准备其他语种的文本数据：首先，您需要收集包含该语种词汇的文本数据。这些数据可以是训练集、验证集或测试集。确保文本数据已经进行了适当的预处理，例如分词、去除标点符号等。
创建词汇表文件：将收集到的文本数据转换为词汇表文件。可以使用现有的工具或库来生成词汇表，例如使用Python的collections.Counter类统计文本中的单词频率。然后，根据需要对词汇表进行排序和过滤，以保留最常见的单词。
修改配置文件：打开ModelScope-FunASR的配置文件（通常是config.yaml），找到与词汇表相关的部分。通常，这包括vocab_file参数，用于指定预训练模型使用的词汇表文件路径。将其更改为新生成的词汇表文件的路径。
加载新的词汇表：在代码中加载新的词汇表文件。这通常涉及到读取文件内容并将其转换为一个词汇表对象。具体实现方式取决于您使用的编程语言和框架。
更新模型配置：将新的词汇表应用于模型的配置。这可能包括更新模型的输入层、嵌入层或其他相关组件，以便它们使用新的词汇表进行词汇查找。
重新训练模型：使用新的词汇表重新训练模型。确保在训练过程中使用正确的数据集，并监控模型的性能指标，如准确率、召回率等。

通过以上步骤，您可以在ModelScope-FunASR中添加其他语种的词汇表并进行finetune。请注意，具体的实现细节可能会因您使用的编程语言、框架和ModelScope-FunASR的版本而有所不同。建议参考ModelScope-FunASR的官方文档以获取更详细的指导。

2024-01-12 10:05:24

赞同展开评论

圆不溜秋的小猫猫

vocab和seg_dict里面增加新词汇，然后对模型的layer做一些更改即可。此回答整理自钉群“modelscope-funasr社区交流”

2024-01-10 17:19:51

赞同展开评论

ModelScope模型即服务