高引用量并不靠谱!MIT开发科研「星探」识别「高影响力论文」

简介: MIT发现新的科研「星探」DELPHI,识别高影响力的论文数量是高引的2倍,且其中有60%都是被「高引」忽略的「科研新星」。

MIT的研究人员建立了一个「人工智能框架」——从发表过的论文登出版物中收集模式,通过学习,识别出对未来将会产生巨大影响的技术,并发出「早期提醒」。

 

这一框架叫DELPHI,全称Dynamic Early-warning by Learning to Predict High Impact(通过学习来预测高影响力的动态预警)。 


DELPHI的表现怎么样呢?

 

在一次对其能力的回顾试验中,DELPHI识别出了一个专家列表中所有具有开创性的重大生物技术论文,有的论文仅仅发表了一年。

 

麻省理工媒体实验室(MIT Media Lab)附属研究机构的James W. Weis和Media Lab分子机器研究小组负责人、媒体艺术与科学教授Joseph Jacobson用DELPHI挑选了50篇他们认为到2023年会产生重大影响的论文。

 40.jpg

            James W. Weis


41.jpg

 Joseph Jacobson


这50篇论文主题涵盖用于癌症治疗的DNA纳米机器人、高能量密度的锂氧电池、使用深层神经网络的化学合成等等。

 

DELPHI对研究人员来说是一种有效的工具,可以帮助他们更好地利用科研基金,发现众多技术中可能被搁置的 「璞玉」。

 

政府、慈善机构和风投也可以根据DELPHI做出更有效的决定,支持科学事业。

 

根据James W. Weis的介绍,从本质上讲,DELPHI的算法通过从科学史中学习模式,然后在新出版物上进行模式匹配,从而发现蕴藏高影响力但发表时间不长的论文,通过跟踪观点的早期传播,DELPHI可以预测这些观点会在多大程度上快速或以一种有意义的方式扩散到更广泛的学术界。

 

该研究的相关论文已经在Nature Biotechnology上发表。

42.jpg


科研「星探」,发现科研中被搁置的「璞玉」

 

20世纪80年代以来,美国科学出版物呈指数型增长,这为DELPHI的建立提供了大量数据信息。

 

不过,DELPHI并没有局限在单一维度的衡量标准,如引用量来判断论文的影响力,而是利用期刊文章元数据的全时间序列网络,来揭示其在科学生态系统中传播的更高维度模式。

 

其结果是一个知识图谱,其中包含代表论文、作者、机构和其他数据的节点之间的连接。这些节点之间复杂连接的强度和类型决定了它们在框架中使用的属性。

 

这些节点和边界定义了一个基于时间的图表,DELPHI 使用这个图表来学习可以预测未来影响的模式。

43.jpg

这些网络特征一起被用来预测科学影响,在论文发表五年后落入时间尺度节点中心度前5%的论文被认为是DELPHI旨在识别的 「高影响力」目标集。

 

这些前5%的论文占图中总影响的35%,DELPHI还可以使用时间尺度节点中心度前1%、10%和15%的截止点。

 

DELPHI的结果表明,高影响力的论文传播速度会非常快,而且会跨越本身学科,传播到其他的学科和学术团体。

 

两篇论文的引用量也许一样,但高影响力论文会收获更多更深入的关注,而影响力低的论文就算在不断传播,但并没有获得真正的关注和利用。

 

DELPHI有助于激励团队成员相互协作,即使彼此不认识,通过提供科研基金让这些人一起解决跨学科问题。

 

DELPHI识别的论文数是凭「引用量」识别的论文数的「2倍」,而且其中有「60%」都是此前被忽略的科研「璞玉」。

 

推动基础研究就要大量尝试,并能够快速利用这些想法中最好的部分。

44.jpg

MIT Media Lab


这一研究就是要测试能否以更大的规模完成这项任务——利用整个科学界,因为它也是整个学术图谱的一部分,这样在发现高影响力论文的过程中会更具包容性。

 

不过为了让DELPHI更准确地预测,研究人员正在使用机器学习来提取和量化隐藏在已有数据的维度和动态中的信号。

 

DELPHI做更公平的「星探」

 

研究人员表示,他们希望利用DELPHI降低评估论文时的偏见。

 

毕竟,过去的研究显示,引用和期刊影响因子数等其他指标也可以被操纵。

 

「我们希望可以利用这一点找到最值得研究的研究人员,不管他们隶属于哪个机构,也不管他们之间有多少联系」,Weis表示。

 

然而,和所有的ML框架一样,框架设计者和使用者都应该警惕偏见,对此,Weis表示,

 

「我们需要不断意识到我们的数据和模型中潜在的偏差。我们希望 DELPHI 能够以一种不那么偏颇的方式帮助我们找到最好的研究,因此我们需要注意,我们的模型不会仅仅根据H指数、作者引用量或机构关系等次优指标来预测未来的影响。」

 

DELPHI可以成为一个强大的工具,帮助科学资金变得更加高效和有效,也许还可以用来创造与科学投资有关的新的金融产品。

 

很多极具天赋的人和令人惊叹的技术都因为各种原因被忽略了,而机器学习可以帮助开发有效工具,发现这些「璞玉」,这不管对投资者还是科研事业都是极具意义和价值的。



相关文章
|
存储 容器
科普:如果电容器阻断直流电,为什么还要在直流电路中使用电容器?
如果电容器阻止直流,那么为什么它用于直流电路?问题不应该是为什么,而是如何!电容器在直流电路中有许多应用,如旁路、滤波、耦合和去耦。因此,利用这种阻隔直流和通过交流的特性,电容器可用于不同的应用。这取决于它连接到电路的方式、电容值、信号频率、电压和其他几个因素。
2890 0
科普:如果电容器阻断直流电,为什么还要在直流电路中使用电容器?
|
JavaScript 前端开发 安全
【JavaScript】深入理解 let、var 和 const
掌握这些关键字的使用可以提高代码的可读性和可维护性,避免潜在的变量提升和作用域问题。希望本文能帮助您更好地理解和应用 JavaScript 中的变量声明方式,编写出更高质量的代码。
642 20
|
UED 开发者
鸿蒙next版开发:ArkTS组件通用属性(多态样式)
在HarmonyOS 5.0中,ArkTS的多态样式(stateStyles)功能允许开发者根据不同状态(如正常、按压、禁用、聚焦、选中等)为组件设置不同的样式,从而提供更丰富的用户体验。通过stateStyles属性,可以动态改变组件样式,提升用户交互的直观性和界面美观性。示例代码展示了如何为文本组件设置正常和按压状态的样式。
754 1
|
Linux 开发工具 Perl
Linux命令替换目录下所有文件里有"\n"的字符为""如何操作?
【10月更文挑战第20天】Linux命令替换目录下所有文件里有"\n"的字符为""如何操作?
453 4
|
NoSQL Java Redis
Redlock分布式锁高并发下有什么问题
Redlock分布式锁在高并发场景下可能面临的问题主要包括:网络延迟、时钟偏移、单点故障、宕机重启问题、脑裂问题以及效率低等。接下来,我将使用Java代码示例来说明其中一些问题。
515 12
|
Java Android开发 开发者
【编程进阶知识】精细调控:掌握Eclipse JVM参数配置的艺术
本文详细介绍了如何在Eclipse中配置JVM参数,包括内存的初始和最大值设置。通过具体步骤和截图演示,帮助开发者掌握JVM参数的精细调控,以适应不同的开发和测试需求。
405 1
|
监控 JavaScript 安全
DOM Based XSS的防范措施有哪些
【8月更文挑战第25天】DOM Based XSS的防范措施有哪些
415 3
|
存储 JSON Kubernetes
云原生|kubernetes|搭建部署一个稳定高效的EFK日志系统(一)
云原生|kubernetes|搭建部署一个稳定高效的EFK日志系统
833 0
|
域名解析 JavaScript 前端开发
5分钟快速上线Web应用和API(Vercel)
上周有个童鞋问我如何快速搭建一个Web应用,想拿来练手,就不考虑购置服务器。我推荐了前段时间很火的Vercel,接下来我带你5分钟上手!
|
存储 安全
☻ 我见我思之hvv偷师学艺——目录遍历/路径遍历/文件遍历 漏洞
介绍了网络告警信息的价值,特别是与目录遍历漏洞相关。目录遍历漏洞允许攻击者访问非预期的文件和目录。关键点包括: - 源IP可能是代理,可查威胁情报以了解历史攻击。 - 目的IP和端口用于识别受影响的资产。 - 响应码(如200或4XX/5XX)指示攻击是否成功。 - HTTP信息中的"../"是攻击特征,用于尝试遍历目录。 - 攻击者利用"../"构造请求,试图访问系统敏感文件。 - 防守方应警惕含有"../"的请求,可能是目录遍历尝试。 - 攻击方则利用路径参数尝试遍历,若未过滤"../",则可能成功利用漏洞。
495 3

热门文章

最新文章