我要在ModelScope自有的数据上finetune CoROM模型,cfg中dataset部分修改如下:
代码执行到train_loop的位置发现其使用了TextRankingDataset
我看了dataset部分的代码,没有发现与“first_sequence、second_sequence”适配的dataset。
目前看来我需根据自己的数据格式实现一个类似TextRankingDataset的Dataset。
我的问题是:这个理解正确吗?
可以参考ds = MsDataset.load('msmarco-passage-ranking', 'zyznull') 这个数据集的格式自己上传一个数据集训练。
此回答整理自“魔搭ModelScope开发者联盟群 ①”。