给Season2评测方式的建议

想了下还是单独再发一贴。

原帖地址：
http://bbs.aliyun.com/read.php?tid=156595&displayMode=1&page=3&toread=1#481932

这里面楼主说出了大部分参赛者的心声。

作为一个比赛，最重要的就是公平，公平可以让参赛者感觉到自己的付出是有意义的，更专注于比赛的内容，而不是钻规则的漏洞。要保证公平的话，只能用严密的规则。想靠道德约束参赛队是不可能的。

S2最大的问题就是，最后六天换数据，这会导致一些队伍“合(zuo)作(bi)”进行过拟合 。
这也不是什么秘密了，交流群里面，很多人有表示出想这样做的趋势，甚至有人鼓动大家这么干。

比赛发展到这样，我觉得阿里也该反省下自己举办这个比赛的初心了。
比赛目的的话，离不开以下两个点，一是为了招聘，另一个是为了寻找更好的推荐解决方案。
但S2很可能演变成队伍间联合的过拟合大赛，对于以上两点几乎都是无法达到。

个人认为楼主提出的Private Set 的评测方法比较可行，也在很多赛事上应用并取得较大的成功。
但最后再放出在Private Set的结果的话，可能不太好，有种瞎子摸象的感觉。

有一种比较折中的办法：
可以 两周或一个月左右更新一次在Private Set 上的成绩和排行（取这段时间内的最优结果） ，平时还是每天更新在正常测试集的排行。
最后排名以Private Set 中的最优结果为准。

用以上方法的话，参赛队除非每天都交一样的结果，否则无法确定自己哪一次的结果在Private Set最优。
这样想进行过拟合或者队伍间合作的话，就要牺牲较多的提交机会，就很少会有队伍这么做。
注意力就会放在专心得到一个泛化能力好的模型上。

以上是个人拙见，非常感谢阿里给我们提供这次的比赛机会，让我们可以接触到真实的工业界数据，也希望阿里能把这个比赛办好，再次感谢阿里！

展开

收起

insulator 2014-04-22 15:43:26 6909 版权

5 条回答

写回答

取消提交回答

数据分析

Re给Season2评测方式的建议
我对你这个说法，有不同的意见
" 但最后再放出在Private Set的结果的话，可能不太好，有种瞎子摸象的感觉。"

public test 好比是平时实验的开发集，Private set是测试集。在严格标准的定义中，Private set就不应该让别人知道，只能在你系统完全成熟，不再做任何更改的情况，做测试给出最终的score。

所以Private set只要是准备好了，最后时刻拿出来测试一下就可以了。

2014-04-22 20:12:03

赞同展开评论
^_^

回1楼一婷的帖子
为啥不参考参赛者的意见呢？
理由是什么？

2014-04-22 19:40:12

赞同展开评论
bazinga!

回1楼一婷的帖子
傲慢，无知，对组织者非常失望

楼主的建议很好

2014-04-22 19:30:52

赞同展开评论
insulator

回1楼一婷的帖子
“既定”是指无法改动了吗？

2014-04-22 16:01:44

赞同展开评论
一婷

既定的规则：
Season 2 4月25日-7月30日
参赛者需登录阿里巴巴天池平台，访问海量天猫数据。利用天池平台的集成工具与算法，建模与提交结果。
评审规则：每天提供1次算法提交机会，每天更新排行榜，按照F1分从高到低排序。(排行榜将选择选手在本阶段的历史最优成绩进行排名展示，选手每日的成绩请至个人中心查询)
7.24将重新抽样一批相同量级的数据(保证抽样方式一致),7.30零点截止算法的提交，并取7.24-7.30最优成绩前Top10的参赛队进入最终评审。
Top10的参赛队，需要准备评审材料，在8月20日来杭州参加答辩，根据参赛队的算法原理、season2的成绩，决出最终的冠亚季军。

2014-04-22 16:00:08

赞同展开评论

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

给Season2评测方式的建议

相关文章