【Ian Goodfellow亲授】GAN论文投稿指南,从了解评审要点开始

简介: 每年在机器学习相关的顶会中,有关生成对抗网络GAN的理论和实证研究论文非常多,如何评估这些论文的新颖性,如何评估模型是否有真正的突破,以及如何避免埋没好论文,是值得关注的问题。GAN的提出人、谷歌工程师Ian Goodfellow近日发表一系列推文,谈论这些问题的解决方法,以及他对目前GAN进展的一些忧虑。

有许多关于 GAN 如何工作的理论或实证研究论文,关于如何用 GAN 做新奇而有趣的事情的论文(例如关于应用在无监督翻译的第一篇论文),新的度量标准等等。但这个主题不是关于那些。

还有很多关于 GAN 的文章作为更大系统的一部分,比如半监督学习的 GAN,差分隐私,数据集增强等等。这个帖子也不是关于那些 --- 因为他们可以以更大的系统的评测标准来衡量。

这个主题是关于一些新的方法,这些方法一般会使 GAN 更可靠地训练或生产更好的样本。

如何评估GAN论文的新颖性

8481c8f592b7f349aa84a1de5c171db681516edf 我的第一个建议是,GAN 论文的审稿人应该阅读 “ Are GANs Created Equal? ” 这篇文章,它解释为什么这方面的实证工作很难以及如何正确的进行研究。
8481c8f592b7f349aa84a1de5c171db681516edf 另一篇关于背景知识的好文章是 “ A note on the evaluation of generative models ”,它解释了为什么模型可能生成很好的样本但是却有较差的 likelihood,反之亦然,以及其他衡量生成模型指标的问题 。
8481c8f592b7f349aa84a1de5c171db681516edf GAN 论文的一个难点是评估新颖性。 有很多论文提出了 GAN 的改进,但很难跟踪所有这些改进,并区分一种新方法是否真的创新。 试着用 4-5 种方式来重新阐述这个想法,并用谷歌搜索,看它是否已经被提出。
8481c8f592b7f349aa84a1de5c171db681516edf 网上一个好的资源去跟踪这些 GAN 变体是 GAN zoo:https://github.com/hindupuravinash/the-gan-zoo

参考:Ian Goodfellow 推荐:GAN 动物园——GAN 的各种变体列表(下载)

如果提出的方法不是真正的新方法,那么论文可能还是有价值的,但审稿人应

该确保论文正确地 acknowledge 以前的工作。

评估GAN性能的指标


8481c8f592b7f349aa84a1de5c171db681516edf 就指标而言,Frèchet Inception Distance(或其 intra-class 版本)可能是目前评估通用 GAN 性能的最佳指标。 对于除 ImageNet 以外的数据集,使用 Inception 之外的模型来定义距离也是可以的。
8481c8f592b7f349aa84a1de5c171db681516edf 一些专注于特殊情况的论文可能会包含其他指标(例如,具有 Real NVP generator 的 GAN 可以实际上报告准确的 likelihood),但是如果论文没有报告 FID,我希望它能够很好地说明为什么。
8481c8f592b7f349aa84a1de5c171db681516edf 很多论文都鼓励读者通过查看样本来形成他们对论文方法的看法。 这通常是一个不好的迹象。
8481c8f592b7f349aa84a1de5c171db681516edf 我知道使用样本来证明情况有所改善主要是来说明,当前方法可以从以前的技术无法解决的领域生成样本。
8481c8f592b7f349aa84a1de5c171db681516edf 例如,使用单个 GAN 生成 ImageNet 样本非常困难,许多论文显示的基本上是失败的尝试。 SN-GAN 成功地从所有类别制作可识别的样本。 由此我们知道 SN-GAN 是一项重大改进。
8481c8f592b7f349aa84a1de5c171db681516edf (这种改进仍然有可能来自于除了所提出的方法以外的其他因素,例如新的更大的网络架构等等)
8481c8f592b7f349aa84a1de5c171db681516edf 许多论文展示了来自 CIFAR-10 或 CelebA 等数据集的样本,想要让审稿人留下深刻的印象。对于这些我从来不知道我想要寻找什么。这些任务大都解决了,所以他们大部分都失去了意义。
8481c8f592b7f349aa84a1de5c171db681516edf 我也不知道如何将有一种微小缺陷的图像,和另一种图像质量上有不同的小缺陷进行对照——诸如是有一点摇摆(wobble)好,还是一点点棋盘格(checkerboarding)更好?

8481c8f592b7f349aa84a1de5c171db681516edf因此,我通常只会将 CelebA,CIFAR-10 上生成的样本,视为仅是为了对于方法不会崩的完整性检查(sanity-check)。

baseline和复现模型

8481c8f592b7f349aa84a1de5c171db681516edf 审稿人应该对任何已经复现了 baseline 的人非常怀疑 。有很多微妙的方法来搞砸深度学习算法,而作者有动机不是非常仔细地检查复现的 baseline。
8481c8f592b7f349aa84a1de5c171db681516edf 通常, 至少有一个 baseline 应该是另一篇论文发表的结果 ,因为其他论文的作者有动机来获得好的结果。 这样评估至少是动机相容的(incentive-compatible)。
8481c8f592b7f349aa84a1de5c171db681516edf 审稿人应该检查其他论文复现的模型是否执行了相同任务,并检查他们的 score。因为这种情况非常常见:引用别人论文,然后显示比原论文实际报告的更糟糕的图像 / 分数。

8481c8f592b7f349aa84a1de5c171db681516edf当然,其他领域也会在故意打压(sandbagging)baseline:

074b4f761d1af55927960345e78252c735239fdf

每年当写论文的时候,大家就很方(wu)便(chi)的把 baseline 弄差了

8481c8f592b7f349aa84a1de5c171db681516edf 但我觉得这对 GAN 论文特别不利。
8481c8f592b7f349aa84a1de5c171db681516edf 有时,如果一篇论文研究一项新任务或一项以前研究过的任务中很少评估过的方面,作者有必要实施他们自己的 baseline。 在这种情况下,可能论文的一大半部分应该致力于证明 baseline 是正确的
8481c8f592b7f349aa84a1de5c171db681516edf解释所有超参数来自何处非常重要 。通常新方法看起来像是改进,但其实是因为作者花费了更多时间非正式地优化新方法的超参数
8481c8f592b7f349aa84a1de5c171db681516edf 成就解锁:最大 Twitter 线(thread)长度。 我会另开一贴


原文发布时间为:2018-03-28
本文作者:Ian Goodfellow
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号
相关文章
|
监控
云监控
云监控
334 1
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
Thinking Machines Lab最新研究结果如何复现?On-Policy Distillation让训练成本直降10倍
Thinking Machines Lab提出On-Policy Distillation技术,让小模型高效继承大模型能力。相比传统强化学习,训练成本降低90%,效率提升十倍,支持本地部署、降低成本与延迟。结合vLLM加速与独立DeepSpeed配置,MS-SWIFT框架实现开箱即用的高效蒸馏训练,助力轻量模型具备“会思考、能纠错、可进化”的智能。
418 10
|
10天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
620 12
|
6月前
|
缓存 人工智能 负载均衡
PAI 重磅发布模型权重服务,大幅降低模型推理冷启动与扩容时长
阿里云人工智能平台PAI 平台推出模型权重服务,通过分布式缓存架构、RDMA高速传输、智能分片等技术,显著提升大语言模型部署效率,解决模型加载耗时过长的业界难题。实测显示,Qwen3-32B冷启动时间从953秒降至82秒(降幅91.4%),扩容时间缩短98.2%。
|
8月前
|
供应链 安全 算法
签名不等于可信:详解PE数字签名校验的漏洞与主动规避方案
本文探讨了CVE-2013-3900漏洞的原理及其影响,该漏洞允许攻击者在不破坏数字签名有效性的情况下,向PE文件中添加恶意代码。漏洞源于Windows对签名数据后附加数据的校验缺失,导致恶意软件可伪装成合法软件。文章分析了WinVerifyTrust函数的工作机制及修复方法,包括通过注册表启用严格签名校验(EnableCertPaddingCheck)。同时,提出了通过hook注册表函数主动规避漏洞的方法,确保安全软件在未启用严格校验时仍能检测潜在威胁。此研究对提升PE文件签名安全性具有重要意义。
|
SQL 关系型数据库 数据库连接
ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析
ClickHouse的PostgreSQL引擎允许直接查询和插入远程PostgreSQL服务器的数据。`CREATE TABLE`语句示例展示了如何定义这样的表,包括服务器信息和权限。查询在只读事务中执行,简单筛选在PostgreSQL端处理,复杂操作在ClickHouse端完成。`INSERT`通过`COPY`命令在PostgreSQL事务中进行。注意,数组类型的处理和Nullable列的行为。示例展示了如何从PostgreSQL到ClickHouse同步数据。一系列的文章详细解释了ClickHouse的各种特性和表引擎。
593 0
|
缓存 前端开发 JavaScript
ES6 全部特性详解
ES6 是 JavaScript 语言的一个重要升级,它引入了大量新的功能,极大地增强了 JavaScript 的表达力和可读性。通过了解和掌握这些特性,开发者可以编写出更加简洁、高效、优雅的代码,并轻松应对大型项目的复杂性。
345 7
|
Java Maven 数据安全/隐私保护
Maven私服
Maven私服
622 0
|
编解码 Android开发 iOS开发
「UCD」移动端UI设计尺寸规范详解
【7月更文挑战第2天】
2247 3