高引用量并不靠谱!MIT开发科研「星探」识别「高影响力论文」

简介: MIT发现新的科研「星探」DELPHI,识别高影响力的论文数量是高引的2倍,且其中有60%都是被「高引」忽略的「科研新星」。

MIT的研究人员建立了一个「人工智能框架」——从发表过的论文登出版物中收集模式,通过学习,识别出对未来将会产生巨大影响的技术,并发出「早期提醒」。

 

这一框架叫DELPHI,全称Dynamic Early-warning by Learning to Predict High Impact(通过学习来预测高影响力的动态预警)。 


DELPHI的表现怎么样呢?

 

在一次对其能力的回顾试验中,DELPHI识别出了一个专家列表中所有具有开创性的重大生物技术论文,有的论文仅仅发表了一年。

 

麻省理工媒体实验室(MIT Media Lab)附属研究机构的James W. Weis和Media Lab分子机器研究小组负责人、媒体艺术与科学教授Joseph Jacobson用DELPHI挑选了50篇他们认为到2023年会产生重大影响的论文。

 40.jpg

            James W. Weis


41.jpg

 Joseph Jacobson


这50篇论文主题涵盖用于癌症治疗的DNA纳米机器人、高能量密度的锂氧电池、使用深层神经网络的化学合成等等。

 

DELPHI对研究人员来说是一种有效的工具,可以帮助他们更好地利用科研基金,发现众多技术中可能被搁置的 「璞玉」。

 

政府、慈善机构和风投也可以根据DELPHI做出更有效的决定,支持科学事业。

 

根据James W. Weis的介绍,从本质上讲,DELPHI的算法通过从科学史中学习模式,然后在新出版物上进行模式匹配,从而发现蕴藏高影响力但发表时间不长的论文,通过跟踪观点的早期传播,DELPHI可以预测这些观点会在多大程度上快速或以一种有意义的方式扩散到更广泛的学术界。

 

该研究的相关论文已经在Nature Biotechnology上发表。

42.jpg


科研「星探」,发现科研中被搁置的「璞玉」

 

20世纪80年代以来,美国科学出版物呈指数型增长,这为DELPHI的建立提供了大量数据信息。

 

不过,DELPHI并没有局限在单一维度的衡量标准,如引用量来判断论文的影响力,而是利用期刊文章元数据的全时间序列网络,来揭示其在科学生态系统中传播的更高维度模式。

 

其结果是一个知识图谱,其中包含代表论文、作者、机构和其他数据的节点之间的连接。这些节点之间复杂连接的强度和类型决定了它们在框架中使用的属性。

 

这些节点和边界定义了一个基于时间的图表,DELPHI 使用这个图表来学习可以预测未来影响的模式。

43.jpg

这些网络特征一起被用来预测科学影响,在论文发表五年后落入时间尺度节点中心度前5%的论文被认为是DELPHI旨在识别的 「高影响力」目标集。

 

这些前5%的论文占图中总影响的35%,DELPHI还可以使用时间尺度节点中心度前1%、10%和15%的截止点。

 

DELPHI的结果表明,高影响力的论文传播速度会非常快,而且会跨越本身学科,传播到其他的学科和学术团体。

 

两篇论文的引用量也许一样,但高影响力论文会收获更多更深入的关注,而影响力低的论文就算在不断传播,但并没有获得真正的关注和利用。

 

DELPHI有助于激励团队成员相互协作,即使彼此不认识,通过提供科研基金让这些人一起解决跨学科问题。

 

DELPHI识别的论文数是凭「引用量」识别的论文数的「2倍」,而且其中有「60%」都是此前被忽略的科研「璞玉」。

 

推动基础研究就要大量尝试,并能够快速利用这些想法中最好的部分。

44.jpg

MIT Media Lab


这一研究就是要测试能否以更大的规模完成这项任务——利用整个科学界,因为它也是整个学术图谱的一部分,这样在发现高影响力论文的过程中会更具包容性。

 

不过为了让DELPHI更准确地预测,研究人员正在使用机器学习来提取和量化隐藏在已有数据的维度和动态中的信号。

 

DELPHI做更公平的「星探」

 

研究人员表示,他们希望利用DELPHI降低评估论文时的偏见。

 

毕竟,过去的研究显示,引用和期刊影响因子数等其他指标也可以被操纵。

 

「我们希望可以利用这一点找到最值得研究的研究人员,不管他们隶属于哪个机构,也不管他们之间有多少联系」,Weis表示。

 

然而,和所有的ML框架一样,框架设计者和使用者都应该警惕偏见,对此,Weis表示,

 

「我们需要不断意识到我们的数据和模型中潜在的偏差。我们希望 DELPHI 能够以一种不那么偏颇的方式帮助我们找到最好的研究,因此我们需要注意,我们的模型不会仅仅根据H指数、作者引用量或机构关系等次优指标来预测未来的影响。」

 

DELPHI可以成为一个强大的工具,帮助科学资金变得更加高效和有效,也许还可以用来创造与科学投资有关的新的金融产品。

 

很多极具天赋的人和令人惊叹的技术都因为各种原因被忽略了,而机器学习可以帮助开发有效工具,发现这些「璞玉」,这不管对投资者还是科研事业都是极具意义和价值的。



相关文章
|
网络协议
ip 地址哪些是保留地址?
ip 地址哪些是保留地址?
6148 1
|
消息中间件 NoSQL Java
Redis监听Key的过期事件
在redis.conf配置文件中有个配置项:notify-keyspace-events " " ,默认是没有key的过期监听的,我们需要将其开启
2416 0
|
存储 分布式计算 Hadoop
impala入门(一篇就够了)
impala入门(一篇就够了)
592 0
|
4月前
|
存储 缓存 固态存储
固态硬盘为什么会出现故障?
近年来,固态硬盘(SSD)因速度快广受用户青睐,但使用中也出现故障频发的问题,如开机异常、数据丢失、系统卡顿等。本文解析SSD故障原因,包括寿命限制、主控设计缺陷、电压波动、固件问题等,并提供数据抢救方法与延长SSD寿命的实用技巧,助你避免数据丢失风险。
|
NoSQL Java 程序员
秒解答题系统的头号难题:防止重复提交的终极指南!
小米,29岁技术爱好者,分享如何用Redis解决重复答题问题。在线考试系统常遇用户重复提交答案,导致数据异常。本文介绍利用Redis分布式锁特性防止重复提交,包括SETNX命令及Lua脚本实现方法,确保高并发下系统稳定可靠。适合线上考试或答题系统开发者参考。
256 13
秒解答题系统的头号难题:防止重复提交的终极指南!
【verilog】同步复位,异步复位以及异步复位同步释放
该文讨论了数字电路设计中触发器复位机制的三种类型:同步复位、异步复位和异步复位同步释放。同步复位在时钟边沿确保稳定性,但对复位脉冲宽度有要求;异步复位响应快速,但可能受干扰且时序不确定;异步复位同步释放则结合两者的优点。设计时需根据需求权衡选择。文中还给出了Verilog代码示例。
|
10月前
|
开发框架 移动开发 前端开发
如何选择适合的网站模版制作网站?
选择模板时需要考虑行业匹配度、设计美观性、功能性、响应式设计、易于编辑以及SEO优化等因素。 PageAdmin网站模版是推荐的,拥有丰富的模版资源、高度可自定义性、良好的兼容性与响应式设计、强大的安全性与技术支持,性价比高。
219 4
|
数据采集 网络安全 UED
揭秘豆瓣网站爬虫:利用lua-resty-request库获取图片链接
本文探讨了如何使用Lua的lua-resty-request库和爬虫代理IP技术从豆瓣网站高效获取图片链接。通过定制请求头部和代理服务,可以应对反爬虫机制,提高爬虫的稳定性和匿名性。示例代码展示了一种方法,但实际应用需考虑版权和法律法规。
369 2
揭秘豆瓣网站爬虫:利用lua-resty-request库获取图片链接
|
UED 开发者
鸿蒙next版开发:ArkTS组件通用属性(多态样式)
在HarmonyOS 5.0中,ArkTS的多态样式(stateStyles)功能允许开发者根据不同状态(如正常、按压、禁用、聚焦、选中等)为组件设置不同的样式,从而提供更丰富的用户体验。通过stateStyles属性,可以动态改变组件样式,提升用户交互的直观性和界面美观性。示例代码展示了如何为文本组件设置正常和按压状态的样式。
660 1
|
NoSQL Java Redis
Redlock分布式锁高并发下有什么问题
Redlock分布式锁在高并发场景下可能面临的问题主要包括:网络延迟、时钟偏移、单点故障、宕机重启问题、脑裂问题以及效率低等。接下来,我将使用Java代码示例来说明其中一些问题。
419 12