不避嫌、不遮丑!陈天琦导师自批NeurIPS2018最佳论文:没那么神,问题很多

简介: 近日,陈天琦的导师David Duvenaud在NeurIPS 2019上回顾了此前获NeurIPS 2018最佳论文的研究。他表示,这篇论文从写作动机上是为了讨好前辈,在数据处理上没有对基线方法进行调参,导致结果的确定性没那么高,并对一些科技媒体的夸大和不实报道做了澄清。他不避嫌、不遮丑的坦诚态度赢得了网友的好感和敬佩。

微信图片_20220107182345.jpg


近日,多伦多大学助理教授、著名的Neural ODE论文通讯作者、陈天琦的导师David Duvenaud在NeurIPS 2019上分享了对于此前研究“Neural Ordinary Differential Equations”的回顾。


微信图片_20220107182348.jpg


David Duvenaud


Duvenaud表示,这篇论文从写作动机上是为了讨好前辈,在数据处理上没有对基线方法进行调参,导致结果的确定性没那么高,并对一些科技媒体的夸大和不实报道做了澄清。他不避嫌、不遮丑的坦诚态度赢得了网友的好感和敬佩。


陈天琦一作获NeurIPS 2018最佳论文


和大家分享Differential Equations做的报告之前,我们先来回顾一下这里提到的那篇论文。其实就是一作陈天琦、通讯作者为David Duvenaud的一篇名为“Neural Ordinary Differential Equations”的论文,这篇论文获NeurIPS 2018最佳论文。


微信图片_20220107182350.png


题目:Neural Ordinary Differential Equations

作者:Tian Qi Chen · Yulia Rubanova · Jesse Bettencourt · David Duvenaud

链接:https://papers.nips.cc/paper/7892-neural-ordinary-differential-equations.pdf


摘要:我们提出一种新的深度神经网络模型。我们使用神经网络参数化隐藏状态的导数,而不是指定一个离散的隐藏层序列。利用黑盒微分方程求解器计算网络的输出。这些连续深度模型具有恒定的存储成本,可以根据每个输入调整其评估策略,并且可以显式地以数值精度换取速度。我们在连续深度残差网络和连续时间潜在变量模型中证明了这些性质。我们还构建了continuous normalizing flows,这是一个可以通过最大似然进行训练、而无需对数据维度进行分区或排序的生成模型。对于训练,我们展示了如何在不访问任何ODE求解器内部操作的情况下,可扩展地反向传播。这允许在更大的模型中对ODE进行端到端训练。


Duvenaud:我说过的胡话和媒体说过的胡话


对论文有了初步了解,接下来和大家分享Differential Equations做的报告。


QQ图片20220107182553.png

查看原视频链接


微信图片_20220107182352.jpg



David Duvenaud这个报告题为“Bullshit that I and others have said about Neural ODEs”,他在开始时表示:大家对于这篇论文的喜爱程度超乎他的意料。


微信图片_20220107182354.png


他谈到了这篇论文的诞生:其实这是当年他们提交的8篇NeurIPS论文之一,只有两篇被录取了;这篇论文刚开始的名字并不是这样,而是一个更准确但没那么吸引人的标题,但最后选择了一个短小精悍、sexy的题目;为了能在截稿之前按时提交,大家经常通宵。下面讲到了一些可能具有误导性的语言或者数据。


我说过的胡话#1:动机


微信图片_20220107182358.jpg微信图片_20220107182356.jpg


David Duvenaud谈到做这项研究的动机是为了讨好Dougal Maclaurin 、Matthew Johnson这些同行前辈。


我说过的胡话#2:参数效能(parameter efficiency)


微信图片_20220107182358.jpg


在数据处理上没有对基线方法进行调参,这是不对的,所以他们对论文进行了更新;即便可能是正确的,但他们也没有进行演示。


我说过的胡话#3:可以交给ODE求解器


微信图片_20220107182400.jpg


ODE求解器很棒,可以自动达到容错性的要求,但研究ODE的人说:我们领域研究的意义在于,它不能总是达到。深度学习顾问说:把你的数据发给AI吧,它可以解决一切。


微信图片_20220107182402.jpg


这是Resnets的简单替代品:同样的优化算法,同样的测试表现。


MIT科技评论说的胡话


微信图片_20220107182405.jpg


David Duvenaud说当自己第一次看到MIT科技评论的报道说他发明了常微分方程、使用的是ODE求解器时,Duvenaud吓坏了,他怕有些人会以为是他自己说的。Duvenaud表示和对方最大的分歧在于,对方的报道通篇只说了他,而没有说论文的合著者,好像整个研究是他一个人完成的
Duvenaud表示这是不对的,应该把学生们也写出来,但对方拒绝了,理由是“这不是读者喜欢看的”。最后的折衷方案是写成“Duvenaud和他的合作者“。这也让Duvenaud理解这样可能会有好的阅读效果,但同时他也意识到,自己和媒体的利益有重叠部分,但并不是完全一样


微信图片_20220107182408.jpg


所谓树大招风,当你获得了很多关注,免不了会惹到谁。原始论文会给人一种Duvenaud团队找到了ODE的solution的错觉,其实并没有,原始论文在这点上没有很清楚的说明。


神经微分方程到底有什么用?


微信图片_20220107182410.png


那么问题来了,论文中的神经微分方程到底有什么用?Duvenaud解释到大概有3种用途:


  • 作为resnets的替代品
  • 时间序列模型
  • 可逆正则化流


Reddit网友热议引本人亲自回复:已与记者充分沟通并致歉


David Duvenaud作为通讯作者亲自下场解释自己论文中的不足之处,这篇论文还是去年NeurIPS的最佳论文,获得了网友的理解与肯定,甚至还有意外。有网友表示,对他的演讲感到耳目一新,实在佩服。


作为一个研究人员,我真的很敬佩David的发言。对于绝大多数学术论文来说,其内容和结论都是为了能说服他人。一般作者都会对实验过程和原理进行详细的解释,往往导致对结论夸大陈述。这对论文读者是会有误导的,当你读了一篇又一篇文章,满篇到处都是“重要结论”时,就容易分不清真假,不知道哪些结论是真正重要的。我就曾经深受其害,David的发言内容令我耳目一新,而且他的类似感受比我还强烈,并且还愿意公开直面这些问题,着实令人敬佩。


讲得好!现在很少能听到有研究人员这么诚实地分析自己的研究了。


不过,也有人对演讲中对媒体报道中的异议之处提出了不同意见:

微信图片_20220107182412.jpg


如果原文章说David Duvenaud“发明了ODE”或“常微分方程”这个名字需要重新起,因为“常”一词听起来不够带劲,那么看起来TR这篇文章最初发出前没有进行任何事实核查。


实际上,写这篇文章的记者提都没提实际从事这项研究的研究生陈天琦,这完全是不对的。Duvenaud同意以某种方式模糊这一点上的是非,这令我感到震惊。这篇文章不是高能物理学论文,有三十多个作者。这种行为会纵容现在不良的风气,导致机器学习社区内部的纷争(至少在此这个话题上面是如此)。


这让人想起那些抱怨自己的论文没人引用的研究人员,而这些人常常拒绝与参与研究的学生分享credit。这些研究人员似乎认为,仅提出一个想法就足以赢得好评,而将这个想法付诸实践的艰巨工作反倒不那么重要了。



此回复也引来David Duvenaud本人的亲自回应:


微信图片_20220107182415.jpg微信图片_20220107182417.jpg



我刚收到MIT Tech Review上撰写此报道的记者Karen Hao的电邮。她解释说我对原报道的理解有误。她说:“原文旨在说明一个事实,即您只是把这个新神经网络起名叫ODE,而没有选择一个更简单、也许更具比喻意义的名称。(有点类似于我发明了一种切苹果的新设备,然后起个名字叫“切苹果的设备”,你懂的)。我现在明白了,原文读起来感觉像是说,您是第一个将“常微分方程”几个字组成一个新的词一样。所以我根据您的要求进行了更正。”


她的这封电邮也使我感到,她其实并不是要说我们团队发明了ODE和ODE求解器,只是最初发出的文章在我读来是这个意思。最后一句的意思其实只是“请记住,如果ODE求解器以后火了,您是在我们这儿先看到的报道”。但是她今天对我解释说,她实际上已经对ODE熟悉了,并且已经学习了ODE。我在此向她道歉,因为我的演讲中听起来好像她一点不懂ODE。


关于您认为我对论文合作者的名字未对读者完全反映一点:我认为准确地讲述研究过程是至关重要的,我也对Ricky(陈天琦),Yulia和Jesse在这篇报道中没有得到应有的评价感到不安。但我极力试图说服自己理解Karen Hao的观点,即对于大众传播的新闻报道,论文合作的细节可不会引起普通读者的兴趣。


而且,演讲者本人对新闻报道亲自发出评论意见,也使得这篇报道本身被更多人关注。有网友在读过这篇报道之后,改变了自己原有的态度,认为Karen Hao这篇报道写的其实非常有质量。而且,现在经过修正后的文章也已经修正了David Duvenaud在演讲中提到的一些表述问题。


David Duvenaud是谁:陈天琦导师,NeurIPS 2018最佳论文通讯作者


微信图片_20220107182419.jpg


根据其个人主页上的信息,David Duvenaud现任多伦多大学助理教授,主要研究领域为面向预测、解释和设计任务的深度概率模型的构建。主要研究成果就包括去年获得NeurIPS最佳论文的Neural Ordinary DifferentialEquations。他是这篇文章的通讯作者,此文一作为他的学生陈天琦,新智元去年曾对这篇文章和陈天琦做过报道。


reddit热议:


https://www.reddit.com/r/MachineLearning/comments/eayp99/r_neuips_2019_david_duvenaud_bullsht_that_i_and/

相关文章
|
XML 数据安全/隐私保护 数据格式
PyMuPDF 1.24.4 中文文档(七)(3)
PyMuPDF 1.24.4 中文文档(七)
390 0
|
8月前
|
安全 开发工具 数据安全/隐私保护
HarmonyOS应用安全全攻略:从系统到代码的全面防护
本文全面解析HarmonyOS应用安全开发,涵盖系统到代码的防护策略。首先介绍HarmonyOS三层安全体系:系统安全层、开发工具层与应用生态层。接着详解设备与数据安全等级划分,提供分级加密实战代码,包括文件读写与HUKS高级加密案例。最后总结开发最佳实践,强调数据分类、最小权限、加密常态及传输安全保障,助你构建更安全的应用。保护用户数据不仅是功能需求,更是开发者责任!
|
9月前
|
运维 监控 数据可视化
基于 UptimeRobot 的开源站点监控面板——快速上手与部署指南
基于 UptimeRobot API 的站点监控面板,采用 PHP + Material Design 构建,支持 HTTP、Ping、TCP 等多种监控方式,具备多站点管理、数据可视化图表、响应式设计等功能。项目提供 Vercel 一键部署与手动部署两种方式,操作简便,适合快速集成到生产环境。开源地址:https://github.com/miloce/uptime-monitor,欢迎 Star 和反馈!
251 22
基于 UptimeRobot 的开源站点监控面板——快速上手与部署指南
|
7月前
|
监控 安全 Devops
如何编写部署和支持需求---SRS软件需求规格指南系列
本文深入解析部署与支持需求的定义、关键要素及最佳实践,涵盖基础设施、安装配置、数据迁移、系统监控、维护升级、备份恢复及用户支持等方面。通过真实案例,如云应用部署、CI/CD 管道构建与高可用架构设计,为企业提供实用指导。强调在整个开发生命周期中与 DevOps 团队协作、建立统一文档标准与版本控制机制,助力组织优化部署流程,提升系统稳定性、可扩展性与用户满意度,实现高质量软件交付。
185 0
|
机器学习/深度学习 数据可视化 算法框架/工具
【深度学习】Generative Adversarial Networks ,GAN生成对抗网络分类
文章概述了生成对抗网络(GANs)的不同变体,并对几种经典GAN模型进行了简介,包括它们的结构特点和应用场景。此外,文章还提供了一个GitHub项目链接,该项目汇总了使用Keras实现的各种GAN模型的代码。
1027 0
|
数据采集 机器学习/深度学习 人工智能
Python爬虫入门指南探索AI的无限可能:深度学习与神经网络的魅力
【8月更文挑战第27天】本文将带你走进Python爬虫的世界,从基础的爬虫概念到实战操作,你将学会如何利用Python进行网页数据的抓取。我们将一起探索requests库和BeautifulSoup库的使用,以及反爬策略的应对方法。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你打开一扇通往数据抓取世界的大门。
|
机器学习/深度学习 自然语言处理 知识图谱
预训练模型(Pre-trained Models)
预训练模型是在大量文本数据上训练的模型,能捕捉语言的通用特征,通过微调适用于各种NLP任务。它们具备迁移学习能力,减少训练时间和资源需求,支持多任务学习,但需注意模型偏见和可解释性问题。常见模型有BERT、GPT等,广泛应用于文本分类、情感分析等领域。
1598 2
|
机器学习/深度学习 数据库 数据格式
深度学习之化学反应预测
基于深度学习的化学反应预测是通过深度神经网络模型来分析和预测化学反应的过程及其产物。传统的化学反应预测依赖于专家知识和实验验证,而深度学习的引入使得可以从大规模的化学数据中自动学习复杂的反应规律,提升预测的精度与效率。
605 3
|
JSON Go 数据库
Golang微服务框架居然可以开发单体应用?—— Kratos单体架构实践
微服务框架也是可以用于开发单体架构(monolith architecture)的应用。并且,单体应用也是最小的、最原始的、最初的项目状态,经过渐进式的开发演进,单体应用能够逐步的演变成微服务架构,并且不断的细分服务粒度。微服务框架开发的单体架构应用,既然是一个最小化的实施,那么它只需要使用到微服务框架最小的技术,也就意味着它只需要用到微服务框架最少的知识点,拿它来学习微服务框架是极佳的。
1710 0
|
XML 前端开发 JavaScript
HTML、CSS、JavaScript有什么区别
HTML、CSS、JavaScript有什么区别

热门文章

最新文章