【机器学习圈子里的裙带关系】学术“朋友圈”罪与罚

简介: 或许你以为搞学术做研究可以不受世俗干扰,殊不知有人在的地方就有江湖。在学术圈,跟对人或许跟做好事情一样重要。但是,这样做的同时,我们是否背离科学的本质,渐行渐远呢?

机器学习领域的裙带关系:不知名大学的好论文 VS 顶级实验室的好论文

今天Reddit发出了一个讨论,有用户指出他观察到的奇怪现象:

这可能是个带点争议性的话题。我最近注意到领域里存在很多裙带关系,我觉得需要指出一下。

今年NIPS的深度强化学习研讨会(Deep RL Symposium),12个演讲中有7个都来自伯克利的两个研究组。虽然这个研讨会上确实有这两个组的很多篇论文,但这个研讨会一共接收了80多篇论文,来自不同的研究组,这些论文原本也该得到关注。论文的选择过程是双盲的,但我忍不住怀疑演讲的选择不是。尤其是研讨会组的织者中,有一半(6人中的3人)与前面说的那两个实验室有着某种关联。

我很高兴强化学习终于有了比较高的认知度,但我也认为我们应该在研究传播的过程中保持谨慎。

对此,用户duh_cats表示,正是因为机器学习现在火了,这种学术圈早已普遍存在的现象也开始在机器学习领域凸显。“WELCOME!热烈欢迎来到一个蓬勃发展的学科,这里还有更多趣事等你来体验。”

用户metacurse给出了如下总结:

  • 不知名大学的好论文:只有审稿人看过,仔细评分,然后发表
  • 顶级实验室(Bengio/DeepMind/etc)的好论文审稿人看过,适度评一评。作者,往往在Twitter上拥有几千乃至几万粉丝,在Twitter上把文章一发,论文在Twitter上得到更多关注。大家从论文的表述而非实际贡献来判断工作是否具有原创性(Novelty)。MIT科技评论、纽约时报等媒体,从最简单的概念里推导出最泛泛(generic)的功能,然而写标题党文章。论文作者成了领域中很小一处地盘的“思想领袖”,然后受邀到世界各地发表演讲。

metacurse甚至指名道姓地举出两个Twitter大V,说不知怎的他们如今成了元学习(meta-learning)的领袖,实际上两人的研究并不是很具原创性。

metacurse的评论显然将问题过分简化,并且描述了极端情况。同时,考虑到Reddit社区论坛的特性,这里更多是在闲聊。但是,不可否认,他确实戳到了一个痛点。

而且在这里,我们都甚至不需要展开去谈双盲评审的有效性。

知名学者和大V在论文传播中的“影响因子”

讨论中还引出了前不久谷歌大脑的一项工作。出身于谷歌大脑,并且还有GAN发明人,也是Twitter大V的Ian Goodfellow转发评述,这篇文章很快获得了很多关注。

谷歌大脑团队的研究者在ArXiv上传了题为“Are GANs Created Equal? A Large-Scale Study”的论文,对MM GAN、NS GAN、WGAN、WGAN GP、LS GAN、DRAGAN、BEGAN等近期出现的优秀GAN模型进行了比较,然后在摘要中写道:“我们没有发现本研究所测试的任何一个算法一直优于原始算法的证据。”

GAN的发明人Ian Goodfellow(他本人并没有参与这项工作)在Twitter评论称:ML的研究人员、审稿人和有关ML的新闻报道,需要对结果的统计稳健性和超参数的效果进行更认真的研究。这项研究表明,过去一年多的很多论文只是观察抽样误差,而不是真正的改进。论文:https://arxiv.org/pdf/1711.10337.pdf

但是,有人很快就指出了这篇文章的缺点。

Reddit用户NichG评论:

“这篇论文宣称要纠察GAN研究方法中的不足,也即专门挑选好的结果来展示(cherry-picking),然而自己在方法上恰恰就犯了这样的错误。”

NichG评论说,广泛的超参数搜索要查找包括学习率在内的很多东西的值。这导致论文中Frechet Inception Distance(FID)分数看起来令人绝望。狭义搜索的结果更为合理,也能显示出系统性的差异,但是这个数字被淹没在附录D中。

在分析实际数字的时候,第6.2节末尾有一个表格,用来比较模型和数据集。尽管论文的摘要声称没有找到证据表明任何测试的算法“总是胜过”原始数据,但该表显示平均FID得分实际上相差好几个标准偏差,而且最高排名也并不稳定。除MNIST外,每个数据集的最高排名都是WGAN或WGAN-GP,与下一个排名的差异在5到10个标准差之间。对于MNIST,WGAN和WGAN-GP也在最高排名的NS GAN的误差范围内。看平均排名,结果也一样。WGAN-GP的平均值比WGAN的平均值低了一个标准差,而WGAN的平均值比DRAGAN低一个多标准差。

f4ab6c46725f8c99b408d967466c34a28cc43c0c

这样看,谷歌大脑论文摘要中所说的“没有证据”就很奇怪了。我猜这是因为这总比说,“我们发现了系统性差异的证据,但这些差异取决于可用的计算资源”(WGAN收敛的速度明显要慢)要好。

这篇论文真正展示的是,不同的GAN在不同的情况下需要权衡,如果作者得出这个结论,那我不会有任何问题。然而,这篇论文却把自己定位成对GAN研究方法标准的批评,而这些标准并没有被它实际发现的东西所支持。就这一点而言,这有点像是有人先写出了结论,然后试图通过数据呈现的方式来支持这些结论。

这实在令人遗憾,因为本文中的实验对这些GAN进行了彻底的描述,这对研究社区来说是切实有用的。但它却被掩埋在了过分夸大的声明下面。我原本并不会这么恼火,但是有太多的人,在看完摘要后说“我就知道是这样!”也不去检查实际的结果,实在忍不住才写下这段话。

结语

裙带关系任何一个研究领域都有,依靠论文发表数量和引用的时候这种情况尤甚。“吸引人”和“真实可靠”之间难免存在权衡。而科学传播就更是一门科学,欢迎留下评论,说说你的看法。


原文发布时间为:2017-12-4

本文作者:闻菲

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:【机器学习圈子里的裙带关系】学术“朋友圈”罪与罚

相关文章
|
DataWorks 大数据 数据库
云上一指禅:大数据产品DataWorks最佳实践
每天,阿里巴巴集团数万名数据/算法开发工程师正在使用DataWorks,承载阿里巴巴集团99%数据业务构建。
11898 0
云上一指禅:大数据产品DataWorks最佳实践
|
5月前
|
消息中间件 人工智能 安全
企业级AI应用需要系统工程支撑,如何通过MCP大模型架构实现全链路实战解构?
本文三桥君深入探讨了MCP大模型架构在企业级AI应用中的全链路实战解构。从事件驱动、统一中台、多端接入、API网关、AI Agent核心引擎等九个核心模块出发,系统阐述了该架构如何实现低耦合高弹性的智能系统构建。AI专家三桥君提出从技术、内容、业务三个维度构建评估体系,为企业级AI应用提供了从架构设计到落地优化的完整解决方案。
302 0
|
Kubernetes jenkins 持续交付
Jenkins 插件生态:提升自动化能力
【8月更文第31天】Jenkins 是一个开源的持续集成/持续交付(CI/CD)平台,广泛应用于软件开发的各个阶段。Jenkins 的一大特色就是其丰富的插件生态系统,这些插件极大地扩展了 Jenkins 的功能,使其能够适应各种各样的应用场景。本文将深入探讨 Jenkins 的插件生态系统,并指导如何选择和配置插件以满足特定需求。
634 1
|
JavaScript Java 测试技术
基于SpringBoot+Vue的大学生家教服务管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue的大学生家教服务管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
252 7
|
运维 Devops Shell
云效产品使用报错问题之在codeup上创建的代码分支或者代码变动,同步到gitlab失败如何解决
本合集将整理呈现用户在使用过程中遇到的报错及其对应的解决办法,包括但不限于账户权限设置错误、项目配置不正确、代码提交冲突、构建任务执行失败、测试环境异常、需求流转阻塞等问题。阿里云云效是一站式企业级研发协同和DevOps平台,为企业提供从需求规划、开发、测试、发布到运维、运营的全流程端到端服务和工具支撑,致力于提升企业的研发效能和创新能力。
|
网络协议 安全 数据安全/隐私保护
交换机访问控制列表(ACL)详解
交换机访问控制列表(ACL)详解
1369 0
|
SQL 存储 数据挖掘
快速入门:利用AnalyticDB构建实时数据分析平台
【10月更文挑战第22天】在大数据时代,实时数据分析成为了企业和开发者们关注的焦点。传统的数据仓库和分析工具往往无法满足实时性要求,而AnalyticDB(ADB)作为阿里巴巴推出的一款实时数据仓库服务,凭借其强大的实时处理能力和易用性,成为了众多企业的首选。作为一名数据分析师,我将在本文中分享如何快速入门AnalyticDB,帮助初学者在短时间内掌握使用AnalyticDB进行简单数据分析的能力。
596 2
|
Python
Python 中的 spell checker 库
Python 中的 spell checker 库
434 1
|
机器学习/深度学习 人工智能 供应链
工业互联网平台
工业互联网平台
906 3
|
XML Java 数据库连接
Hibernate与Spring整合实践实例
Hibernate与Spring整合实践实例
307 0