测试数据集问题是否出现训练集没有的uid或bid(附样例)
Re询问关于测试数据集问题,是否出现训练集没有的uid或bid
而且之前说有1000多个用户,后面改成的1000左右用户,因为train中远不到1000人,不会是多出来那些用户只在test中才有吧?
-------------------------
回2楼穿林越海的帖子
当然有影响啊,比如如果test和train的uid,bid完全一致
一个算法a能得到80%的pre,100%的recall,
另一个算法b能得到100%pre,80%recall,
那么两个算法的f1值应该是一样的,都是88.9%
但如果test多了很多uid和bid没出现过,导致用train推荐recall最大值只能到80%,那就变成了
a有80%的pre,80%的recall,
b用100%pre,64%recall,
这样就变成f1值a是80%,b是78%,也就是本来应该排名一样的算法结果a比b好了。
-------------------------
回3楼亚娟的帖子
官网给出的召回率每个变量解释:
M 为实际产生成交的用户数量
bBrandsi为用户i 真实购买的品牌个数
hitBrandsi预测的品牌列表与用户i真实购买的品牌交集的个数
这里根本没提bBrandsi一定只有train出现过的brandid,完全没有您说的那个解释
-------------------------
Re测试数据集问题是否出现训练集没有的uid或bid(附样例)
看现在的结果真的让人怀疑是否真有没在训练集出现的uid和bid,比赛支持赛后rejudge吗?让我们检查数据是否有错误
-------------------------
Re测试数据集问题是否出现训练集没有的uid或bid(附样例)
我也想这么尝试的,但这个网站限制提交文件大小为4.9兆,全部输出要近50兆,所以我上传的也是个子集
赞0
踩0