顶会是否应该降低接收门槛?用博弈论探索最优审稿和决策机制

简介: 顶会是否应该降低接收门槛?用博弈论探索最优审稿和决策机制


作者:张亦弛

用博弈论 模型描述作者和学术会议之间的互 动,并论了不同的审稿和决策机制在权衡会议质量和审稿压力中的表现。


近年来,人工智能领域对于大型计算机会议审稿机制的诟病与日俱增,这一切背后的矛盾源于论文作者、会议主办方和审稿人三方并不一致的利益:


  • 论文作者希望他们的论文被会议接收;

  • 会议主办方希望接收更多的优质论文以提高会议的声誉(会议质量);
  • 审稿人则希望避免过多的审稿工作量(审稿压力)。


因此,如何在论文数量大幅增加的大环境下权衡会议质量和审稿压力是达到三方利益均衡的核心问题。去年,来自人工智能领域的学者针对如何改进会议审稿和决策机制这一问题提出了众多看法和建议,这些想法被汇总为一篇 23 页的谷歌文档。其中一条想法十分有趣并得到了多人认同:



文档链接:https://docs.google.com/document/d/1j7Mn2ZkquSzWJ_EzxdXBP3z_JQtrSeUa-CQ0gotAuYw/mobilebasic


这一想法源于这样一个反直觉的现象, 本文称之为重投悖论(resubmission paradox):


每年有大量论文会被拒收(人工智能顶会例如 NeurIPS 接收率常年低于 30%),其中大部分论文会在仅有微调甚至完全没有改动的情况下参与重投,最终总会被同一会议或同级别的会议接收。既然大部分论文终究会被接收,那为什么不降低论文的接收门槛使得更多论文在经过更少次数的重投后就可以被接收?这样就可以避免同一篇论文被审稿人反复阅读进而降低审稿压力。



尽管这一想法看上去十分合理,本文作者提出用博弈论模型描述作者和会议之间的互动,并对这一想法给出了否定的回答,研究论文已被 Economics and Computation (2022) 接收。在这一模型下,本文了讨论不同的审稿和决策机制在权衡会议质量和审稿压力中的表现,比如以下问题:


  • 如何确定最优的接收门槛?

  • 是否应该增加一篇论文的审稿人数量?
  • 提高审稿质量有什么好处?
  • 是否应该作者同时提供论文的以往审稿意见?
  • ……



论文链接:https://arxiv.org/pdf/2303.09020v1.pdf


1. 模型概述


本文将作者向学术会议提交论文并审稿的过程建模为重复博弈,具体流程如下:


首先,每个作者有一篇论文准备提交。在每一轮投稿中,作者进行二选一决策:将论文提交到顶会还是 sure bet(比如声望较低的二类会议)。提交到顶会和 sure bet 的结果取决于审稿机制和论文质量:


  • 顶会有一定概率接收论文,一旦接收,作者会获得较大的收益;
  • sure bet 保证论文一定接收,但带来的收益较小。


其中,顶会的决策完全取决于审稿人的评审意见, 比如设置一个接收阈值,当且仅当平均审稿分数高于阈值时接收该论文,而作者的收益随着重投次数指数折减。

顶会承诺一个审稿 / 决策机制,作者针对该机制做出最佳策略;而顶会则需要在考虑作者最佳回应策略的前提下,设计出能权衡会议质量和审稿压力的最优机制。



2. 主要结论


利用上述建模方法,本文得出一些重要结论,包括:


1)作者的最优策略


在一个简化的模型中(更复杂的模型详见原文),本文做出如下假设:作者知道其论文的真实质量,会议的决策是无记忆的(每轮审稿的决策仅取决于该轮审稿人的意见),并且作者有无穷次重投机会。在这种情况下,作者存在一个阈值最优策略:


  • 如果论文质量高于阈值,作者将选择投稿顶会,并且无论经历多少次拒稿,作者都会选择重投,直到中稿;
  • 如果论文质量低于阈值,作者将立即选择 sure bet。


通常情况下作者的提交阈值 Θ 低于会议的接收阈值 τ,如下图所示。



以上结论可以用来解释重投悖论:为什么接收更多论文不能从本质上降低审稿压力?这是因为降低会议的接收阈值 τ 会同时降低作者的提交阈值 Θ,进而吸引更多低质量论文的提交。如下图所示,如果接收阈值降低,一部分从前选择投稿二类会议的论文(紫色区域)如今选择投稿顶会。



2)会议质量和审稿压力


顶会的审稿 / 决策机制需要权衡会议质量和审稿压力,二者不可兼得。


  • 会议质量 = 所有被接收论文的质量之和
  • 审稿压力 = 一篇论文从投稿到最终被接收被审稿次数的期望值


改变接收阈值会同时改变会议质量和审稿压力(如下图)。



图为会议质量(纵坐标)和审稿压力(横坐标)关于接收阈值的变化曲线,σ 为审稿人噪音的标准差。


以下三种情况可以得到会议质量和审稿压力之间更优的权衡(达到相同的会议质量只需更小的审稿压力):


  • 更好的审稿质量 ——— 审稿人噪音更低;
  • 更低的顶会声誉 ——— 相比 sure bet,顶会带来的收益更低;
  • 更短见的作者 ——— 作者收益在多轮重投下有更大的折减。


3. 结语


本文旨在呼吁学术会议改进审稿和决策机制时应考虑不同机制对论文作者带来的激励,更多有趣的结论详见论文原文,比如论文接收率主要受什么因素影响?作者在不能准确知道自己论文质量的情况下的最优策略是什么?要求作者提供论文的以往审稿意见对会议有什么样的影响?


当然,本文的理论模型在不同层面上存在很多局限性:比如本文没有考虑审稿压力对审稿质量的负反馈效应,以及会议质量对作者收益的正反馈效应,并且认为论文质量不会在拒稿过程中得到提高等等。对于会议同行评审系统的讨论和改进不会止步于此,从博弈的角度理解会议审稿机制尤为重要,欢迎感兴趣的读者查看论文原文或致信文章作者,以讨论更多研究细节。

相关文章
|
存储 缓存 算法
淘宝购物车扩容与性能优化(下)
淘宝购物车扩容与性能优化(下)
469 3
|
Linux
如何在 Linux 中创建带有特殊字符的文件?
如何在 Linux 中创建带有特殊字符的文件?
339 0
|
分布式计算 Java Linux
【深入浅出Docker原理及实战】「原理实战体系」零基础+全方位带你学习探索Docker容器开发实战指南(Dockerfile使用手册)
Docker 是一套构建在 Linux 内核之上的高级工具,旨在帮助开发人员和运维人员更轻松地交付应用程序和依赖关系,实现跨系统和跨主机的部署。使用安全且轻量级的容器环境来实现这一目标。容器可以手动创建,也可以通过编写 Dockerfile 自动创建。开发人员和运维人员可以将应用程序及其依赖打包到容器中,实现应用程序的可移植性和环境一致性。
492 5
【深入浅出Docker原理及实战】「原理实战体系」零基础+全方位带你学习探索Docker容器开发实战指南(Dockerfile使用手册)
|
2月前
|
机器学习/深度学习 人工智能 算法
AI可以做电商主图了:技术原理,AI电商图生成工具对比及技术解析
双十一临近,电商主图需求激增。AI技术凭借多图融合、扩散模型等,实现高效智能设计,30秒生成高质量主图,远超传统PS效率。支持风格迁移、背景替换、文案生成,助力商家快速打造吸睛商品图,提升转化率。
860 0
|
2月前
|
机器学习/深度学习 人工智能
AI重塑电商拍摄:技术驱动的商业变革——5款AI模特图生成工具技术分析
AI技术正重塑电商拍摄:低成本、高效率生成逼真模特图,支持批量换装、换背景,助力商家快速上架、灵活试错。燕雀光年、Kaiber等工具实测好用,未来AI与实拍将互补共存。
325 0
|
机器学习/深度学习 存储 人工智能
用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构
【10月更文挑战第2天】近年来,深度学习(DL)与大型语言模型(LLMs)的发展推动了AI的进步,但也带来了计算资源的极大需求。为此,DeepSeek团队提出了Fire-Flyer AI-HPC架构,通过创新的软硬件协同设计,利用10,000个PCIe A100 GPU,实现了高性能且低成本的深度学习训练。相比NVIDIA的DGX-A100,其成本减半,能耗降低40%,并在网络设计、通信优化、并行计算和文件系统等方面进行了全面优化,确保系统的高效与稳定。[论文地址](https://arxiv.org/pdf/2408.14158)
707 5
|
存储 SQL 缓存
数据库存储选型经验总结
工作中总是遇到数据存储相关的Bug工单,新需求开发设计中也多多少少会有数据模型设计和存储相关的问题
3019 0
数据库存储选型经验总结
|
SQL 分布式计算 数据处理
奇思妙想的SQL|兼顾性能的数据倾斜处理新姿势
文章分享了在支付宝支付数据链路改造升级过程中,针对数据倾斜的优化实践新方法,在解决数据倾斜问题的同时,还能兼顾更优的计算性能!
|
存储 NoSQL 数据库
为什么要用 Tair 来服务低延时场景 - 从购物车升级说起
“购物车升级”是今年双十一期间提升用户体验的关键项目,展示了大淘宝技术团队致力于通过技术突破消费者和商家体验的天花板。低延迟是这些挑战中的核心,内存数据库Tair因其高吞吐、大连接数、热点请求处理、异常流量管理和复杂计算逻辑优化等特点,在低延迟场景下表现出色。Tair使用内存/SCM混合存储和各种索引来提供低延迟服务,并通过无锁并发、水平扩展分区等技术应对高并发。此外,Tair还通过热点策略、流控和执行流程优化等手段确保在大促时的稳定性和性能。Tair在双十一期间支持了购物车、销量统计、卖家优惠券召回和互动场景等多种业务,展现其低延迟和高并发的能力。
77406 11
|
SQL 缓存 数据库
淘宝购物车扩容与性能优化(上)
淘宝购物车扩容与性能优化(上)
810 2