备案控制台

开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

训练nlp 翻译模型，如何让较长的中英文药品名不自动分词

训练nlp 翻译模型nlp_csanmt_translation_en2zh，有比较长的英文药品名，对应中文名也比较长
结果给中文自动分词了，这个怎么解决

展开

收起

CSANMT连续语义增强机器翻译-英中-通用领域-large

1696268512718304 2023-08-15 10:35:32 270 0

1 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

中英文药品名自动进行了分词，你可以尝试以下方法来解决这个问题：

添加特殊标记：在训练数据中，为较长的中英文药品名添加特殊标记，以防止模型自动进行分词。你可以在药品名的开头或结尾添加一些特殊字符，例如"##"，以指示模型不应该将其分割为多个单词。在预测时，你需要在输入的药品名中同样添加这些特殊标记。

调整分词器：如果模型使用了分词器（tokenizer），你可以尝试使用不同的分词模式或配置参数来处理较长的药品名。一些分词器可能会根据空格或标点符号进行分词，你可以尝试设置分词器的最大词长度，以确保较长的药品名不会被分割。

预处理输入数据：在输入数据传递给模型之前，你可以对较长的药品名进行预处理。例如，你可以将药品名中的空格替换为特殊字符，或者使用连字符将多个单词连接起来，以确保药品名被视为一个整体。

后处理输出结果：如果模型输出的中文翻译结果出现了错误的分词，你可以使用中文分词工具对结果进行后处理，将错误的分词进行修正。常见的中文分词工具包括jieba和pkuseg等。

2023-08-16 07:54:17

赞同展开评论打赏

相关问答

NLP自学习平台 Structbert模型用了500个数据训练出来准确率等结果仍然为零是怎么回事呢？

58

1

0

NLP自学习平台如何在分词的时候自定义停顿词？

63

10

0

NLP自学习平台分词停顿词接口在哪？

35

1

0

NLP自学习平台阿里云nlp的分词功能中支持上传停顿词的操作嘛，请问相关接口参数是什么呢？

37

1

0

NLP自学习平台项目模型发布已经20多分钟了，还是没有显示发布成功，请问这是正常的吗？

31

0

0

NLP自学习平台这个报错，模型预测结果为空是什么意思呢？

31

1

0

NLP自学习平台测试模型用到的测试集有格式要求吗？

42

1

0

NLP自学习平台像这样训练完成的模型发布不了一直显示加速中，取消发布显示部署失败是怎么回事呢？

48

0

0

NLP自学习平台非融合类型的文本分类模型这个使用文档有吗？

30

0

0

NLP自学习平台在训练文本实体抽取的模型时训练失败了，训练日志报错是这样，怎么解决？

52

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关产品

自然语言处理

文档详情产品详情

热门讨论

热门文章

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

如何下载llama模型到本地？

ollama+open-webui的一个小问题

modelscope-funasr的FunClip怎么安装的？

llamaindex整合modelscope本地模型，启动报错

关于通义千问Qwen-7B-Chat模型下载问题

Unichat - qwen2.5 - 32B - c1 模型已经下载下来在运行python报错

modelscope-funasr的 sense voice和funasr的底层asr能力是一样吗？

gpt3,加载数据时，MsDataset.load报错

怎么抽取GPT-3 预训练模型的emb向量？

展开全部

DeepSeek-V2.5-1210 在线开放使用！支持联网搜索，在各大领域的表现得到全面提升

PsycoLLM：开源的中文心理大模型，免费 AI 心理医生，支持心理健康评估与多轮对话

DeepSeek V3：DeepSeek 开源的最新多模态 AI 模型，编程能力超越Claude，生成速度提升至 60 TPS

DeepSeek 开源 R1 系列推理模型，性能对标 OpenAI o1，基于纯强化学习完成自我进化，无需监督微调

SoulChat2.0：低成本构建 AI 心理咨询师，华南理工开源心理咨询师数字孪生大语言模型

DeepSeek Artifacts：在线实时预览的前端 AI 编程工具，基于DeepSeek V3快速生成React App

微软开源课程！21节课程教你开发生成式 AI 应用所需了解的一切

DeepSeek Engineer：集成 DeepSeek API 的开源 AI 编程助手，支持文件读取、编辑并生成结构化响应

Baichuan-M1-14B：AI 助力医疗推理，为患者提供专业的建议！百川智能开源业内首个医疗增强大模型，普及医学的新渠道！

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

展开全部

相关课程

更多

达摩院NLP（自然语言处理）技术和应用

3247

7

去学习

达摩院自然语言处理NLP技术和应用

898

7

去学习

相关电子书

更多

自然语言处理得十个发展趋势 立即下载

自然语言处理的十个发展趋势 立即下载

深度学习与自然语言处理 立即下载

相关实验场景

更多