不避嫌、不遮丑！陈天琦导师自批NeurIPS2018最佳论文：没那么神，问题很多-阿里云开发者社区

不避嫌、不遮丑！陈天琦导师自批NeurIPS2018最佳论文：没那么神，问题很多

2022-01-07 619

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 近日，陈天琦的导师David Duvenaud在NeurIPS 2019上回顾了此前获NeurIPS 2018最佳论文的研究。他表示，这篇论文从写作动机上是为了讨好前辈，在数据处理上没有对基线方法进行调参，导致结果的确定性没那么高，并对一些科技媒体的夸大和不实报道做了澄清。他不避嫌、不遮丑的坦诚态度赢得了网友的好感和敬佩。

微信图片_20220107182345.jpg

近日，多伦多大学助理教授、著名的Neural ODE论文通讯作者、陈天琦的导师David Duvenaud在NeurIPS 2019上分享了对于此前研究“Neural Ordinary Differential Equations”的回顾。

微信图片_20220107182348.jpg

David Duvenaud

Duvenaud表示，这篇论文从写作动机上是为了讨好前辈，在数据处理上没有对基线方法进行调参，导致结果的确定性没那么高，并对一些科技媒体的夸大和不实报道做了澄清。他不避嫌、不遮丑的坦诚态度赢得了网友的好感和敬佩。

陈天琦一作获NeurIPS 2018最佳论文

和大家分享Differential Equations做的报告之前，我们先来回顾一下这里提到的那篇论文。其实就是一作陈天琦、通讯作者为David Duvenaud的一篇名为“Neural Ordinary Differential Equations”的论文，这篇论文获NeurIPS 2018最佳论文。

微信图片_20220107182350.png

题目：Neural Ordinary Differential Equations

作者：Tian Qi Chen · Yulia Rubanova · Jesse Bettencourt · David Duvenaud

链接：https://papers.nips.cc/paper/7892-neural-ordinary-differential-equations.pdf

摘要：我们提出一种新的深度神经网络模型。我们使用神经网络参数化隐藏状态的导数，而不是指定一个离散的隐藏层序列。利用黑盒微分方程求解器计算网络的输出。这些连续深度模型具有恒定的存储成本，可以根据每个输入调整其评估策略，并且可以显式地以数值精度换取速度。我们在连续深度残差网络和连续时间潜在变量模型中证明了这些性质。我们还构建了continuous normalizing flows，这是一个可以通过最大似然进行训练、而无需对数据维度进行分区或排序的生成模型。对于训练，我们展示了如何在不访问任何ODE求解器内部操作的情况下，可扩展地反向传播。这允许在更大的模型中对ODE进行端到端训练。

Duvenaud：我说过的胡话和媒体说过的胡话

对论文有了初步了解，接下来和大家分享Differential Equations做的报告。

QQ图片20220107182553.png

查看原视频链接

微信图片_20220107182352.jpg

David Duvenaud这个报告题为“Bullshit that I and others have said about Neural ODEs”，他在开始时表示：大家对于这篇论文的喜爱程度超乎他的意料。

微信图片_20220107182354.png

他谈到了这篇论文的诞生：其实这是当年他们提交的8篇NeurIPS论文之一，只有两篇被录取了；这篇论文刚开始的名字并不是这样，而是一个更准确但没那么吸引人的标题，但最后选择了一个短小精悍、sexy的题目；为了能在截稿之前按时提交，大家经常通宵。下面讲到了一些可能具有误导性的语言或者数据。

我说过的胡话#1：动机

微信图片_20220107182358.jpg 微信图片_20220107182356.jpg

David Duvenaud谈到做这项研究的动机是为了讨好Dougal Maclaurin 、Matthew Johnson这些同行前辈。

我说过的胡话#2：参数效能（parameter efficiency）

微信图片_20220107182358.jpg

在数据处理上没有对基线方法进行调参，这是不对的，所以他们对论文进行了更新；即便可能是正确的，但他们也没有进行演示。

我说过的胡话#3：可以交给ODE求解器

微信图片_20220107182400.jpg

ODE求解器很棒，可以自动达到容错性的要求，但研究ODE的人说：我们领域研究的意义在于，它不能总是达到。深度学习顾问说：把你的数据发给AI吧，它可以解决一切。

微信图片_20220107182402.jpg

这是Resnets的简单替代品：同样的优化算法，同样的测试表现。

MIT科技评论说的胡话

微信图片_20220107182405.jpg

David Duvenaud说当自己第一次看到MIT科技评论的报道说他发明了常微分方程、使用的是ODE求解器时，Duvenaud吓坏了，他怕有些人会以为是他自己说的。Duvenaud表示和对方最大的分歧在于，对方的报道通篇只说了他，而没有说论文的合著者，好像整个研究是他一个人完成的。
Duvenaud表示这是不对的，应该把学生们也写出来，但对方拒绝了，理由是“这不是读者喜欢看的”。最后的折衷方案是写成“Duvenaud和他的合作者“。这也让Duvenaud理解这样可能会有好的阅读效果，但同时他也意识到，自己和媒体的利益有重叠部分，但并不是完全一样。

微信图片_20220107182408.jpg

所谓树大招风，当你获得了很多关注，免不了会惹到谁。原始论文会给人一种Duvenaud团队找到了ODE的solution的错觉，其实并没有，原始论文在这点上没有很清楚的说明。

神经微分方程到底有什么用？

微信图片_20220107182410.png

那么问题来了，论文中的神经微分方程到底有什么用？Duvenaud解释到大概有3种用途：

作为resnets的替代品
时间序列模型
可逆正则化流

Reddit网友热议引本人亲自回复：已与记者充分沟通并致歉

David Duvenaud作为通讯作者亲自下场解释自己论文中的不足之处，这篇论文还是去年NeurIPS的最佳论文，获得了网友的理解与肯定，甚至还有意外。有网友表示，对他的演讲感到耳目一新，实在佩服。

作为一个研究人员，我真的很敬佩David的发言。对于绝大多数学术论文来说，其内容和结论都是为了能说服他人。一般作者都会对实验过程和原理进行详细的解释，往往导致对结论夸大陈述。这对论文读者是会有误导的，当你读了一篇又一篇文章，满篇到处都是“重要结论”时，就容易分不清真假，不知道哪些结论是真正重要的。我就曾经深受其害，David的发言内容令我耳目一新，而且他的类似感受比我还强烈，并且还愿意公开直面这些问题，着实令人敬佩。

讲得好！现在很少能听到有研究人员这么诚实地分析自己的研究了。

不过，也有人对演讲中对媒体报道中的异议之处提出了不同意见：

微信图片_20220107182412.jpg

如果原文章说David Duvenaud“发明了ODE”或“常微分方程”这个名字需要重新起，因为“常”一词听起来不够带劲，那么看起来TR这篇文章最初发出前没有进行任何事实核查。

实际上，写这篇文章的记者提都没提实际从事这项研究的研究生陈天琦，这完全是不对的。Duvenaud同意以某种方式模糊这一点上的是非，这令我感到震惊。这篇文章不是高能物理学论文，有三十多个作者。这种行为会纵容现在不良的风气，导致机器学习社区内部的纷争（至少在此这个话题上面是如此）。

这让人想起那些抱怨自己的论文没人引用的研究人员，而这些人常常拒绝与参与研究的学生分享credit。这些研究人员似乎认为，仅提出一个想法就足以赢得好评，而将这个想法付诸实践的艰巨工作反倒不那么重要了。

此回复也引来David Duvenaud本人的亲自回应：

微信图片_20220107182415.jpg 微信图片_20220107182417.jpg

我刚收到MIT Tech Review上撰写此报道的记者Karen Hao的电邮。她解释说我对原报道的理解有误。她说：“原文旨在说明一个事实，即您只是把这个新神经网络起名叫ODE，而没有选择一个更简单、也许更具比喻意义的名称。（有点类似于我发明了一种切苹果的新设备，然后起个名字叫“切苹果的设备”，你懂的）。我现在明白了，原文读起来感觉像是说，您是第一个将“常微分方程”几个字组成一个新的词一样。所以我根据您的要求进行了更正。”

她的这封电邮也使我感到，她其实并不是要说我们团队发明了ODE和ODE求解器，只是最初发出的文章在我读来是这个意思。最后一句的意思其实只是“请记住，如果ODE求解器以后火了，您是在我们这儿先看到的报道”。但是她今天对我解释说，她实际上已经对ODE熟悉了，并且已经学习了ODE。我在此向她道歉，因为我的演讲中听起来好像她一点不懂ODE。

关于您认为我对论文合作者的名字未对读者完全反映一点：我认为准确地讲述研究过程是至关重要的，我也对Ricky（陈天琦），Yulia和Jesse在这篇报道中没有得到应有的评价感到不安。但我极力试图说服自己理解Karen Hao的观点，即对于大众传播的新闻报道，论文合作的细节可不会引起普通读者的兴趣。

而且，演讲者本人对新闻报道亲自发出评论意见，也使得这篇报道本身被更多人关注。有网友在读过这篇报道之后，改变了自己原有的态度，认为Karen Hao这篇报道写的其实非常有质量。而且，现在经过修正后的文章也已经修正了David Duvenaud在演讲中提到的一些表述问题。

David Duvenaud是谁：陈天琦导师，NeurIPS 2018最佳论文通讯作者

微信图片_20220107182419.jpg

根据其个人主页上的信息，David Duvenaud现任多伦多大学助理教授，主要研究领域为面向预测、解释和设计任务的深度概率模型的构建。主要研究成果就包括去年获得NeurIPS最佳论文的Neural Ordinary DifferentialEquations。他是这篇文章的通讯作者，此文一作为他的学生陈天琦，新智元去年曾对这篇文章和陈天琦做过报道。

reddit热议：

https://www.reddit.com/r/MachineLearning/comments/eayp99/r_neuips_2019_david_duvenaud_bullsht_that_i_and/