关于昨天群内有实验室多号测试融合数据事件(标题已改)
Re关于昨天群内有实验室多号测试融合数据事件(标题已改)
如果是真的,港科大队伍的融合和别的比赛如Netflix中所用到的ensemble learning有本质区别。
简单说就是有没有private set的问题,Netflix和KDD Cup这么多届的比赛办下来,使用private set的一个原因就是防止这种情况发生。内部赛的时候没有这种情况发生,我觉得是各个小组分布在公司工位上,比赛是在一个封闭的空间里进行的,加上阿里的员工比较自律,都是按照玩数据第一,比赛第二的精神来的,所以一直没有出事。
如果第二赛季还是没有private set的话,大家都不考虑泛化能力(@天猫_德福把这个叫做运气,但我觉得运气也有科学,而非玄学),那么多个队伍之间的串通(或者叫伪小号?)根本无解。就算安全团队出动,反作弊手段全上也没有办法。查相似度?本来总有人用近似的算法,相似也很合理。。。查log,查IP?本来就是不同团队分散提交的,怎么可能相同。。。
事到如今,无非两种做法,一是期待参赛团队的自律精神(如我前面所说,我觉得这种对于反作弊的期待实在是太高了);二是改成private set的评测机制。我比较倾向于后者,并非不相信大家,而是因为,法立于上则俗成于下。
之前老师不推荐我参加这个比赛,他觉得比赛的评测漏洞太多,事到如今,我玩着玩着停不下来了,才有点明白老师的意思。愿主办方三思。
赞0
踩0