1、我准备好了train.en和train.zh,然后按照预处理步骤
预处理
训练数据预处理流程如下:
Tokenization
英文通过mosesdecoder进行Tokenization
perl tokenizer.perl -l en < train.en > train.en.tok
中文通过jieba进行中文分词
import jieba
fR = open('train.zh', 'r', encoding='UTF-8')
fW = open('train.zh.tok', 'w', encoding='UTF-8')
for sent in fR:
sent = fR.read()
sent_list = jieba.cut(sent)
fW.write(' '.join(sent_list))
fR.close()
fW.close()
Byte-Pair-Encoding
subword-nmt apply-bpe -c bpe.en < train.en.tok > train.en.tok.bpe
subword-nmt apply-bpe -c bpe.zh < train.zh.tok > train.zh.tok.bpe
处理完后还需要做什么操作吗,这时候直接进行训练,好像训练后的模型没有任何变化,文件大小没变化,测试数据的结果也没变化
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352