有许多关于 GAN 如何工作的理论或实证研究论文,关于如何用 GAN 做新奇而有趣的事情的论文(例如关于应用在无监督翻译的第一篇论文),新的度量标准等等。但这个主题不是关于那些。
还有很多关于 GAN 的文章作为更大系统的一部分,比如半监督学习的 GAN,差分隐私,数据集增强等等。这个帖子也不是关于那些 --- 因为他们可以以更大的系统的评测标准来衡量。
这个主题是关于一些新的方法,这些方法一般会使 GAN 更可靠地训练或生产更好的样本。
如何评估GAN论文的新颖性
参考:Ian Goodfellow 推荐:GAN 动物园——GAN 的各种变体列表(下载)
如果提出的方法不是真正的新方法,那么论文可能还是有价值的,但审稿人应
该确保论文正确地 acknowledge 以前的工作。
评估GAN性能的指标
因此,我通常只会将 CelebA,CIFAR-10 上生成的样本,视为仅是为了对于方法不会崩的完整性检查(sanity-check)。
baseline和复现模型
当然,其他领域也会在故意打压(sandbagging)baseline:

每年当写论文的时候,大家就很方(wu)便(chi)的把 baseline 弄差了
原文发布时间为:2018-03-28
本文作者:Ian Goodfellow
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号