MIT切割大量文本黑科技!数十亿选择中“海底捞”出一本好书

简介: MIT和IBM的研究人员结合了三种流行的文本分析工具——主题建模、词嵌入和最优传输——来每秒比较数千个文档。而且可以更快、更准确对文档分类,轻轻松松从数十亿选择中更快找到更相关的读物。

微信图片_20220107222357.jpg


在线有数以十亿计的书籍、新闻故事和文档,如果你有时间浏览所有选项,现在正是阅读的最佳时机!MIT助理教授Justin Solomon说:“互联网上有大量文本,任何有助于切割这些材料的东西都是非常有用的。”


微信图片_20220107222354.gif


在线本文的数量比这还多得多


在MIT-IBM沃森人工智能实验室和MIT几何数据处理小组的帮助下,Solomon最近在NeurIPS会议上提出了一种切割大量文本的新技术。该技术结合了三种流行的文本分析工具——主题建模(Topic Modeling)、词嵌入(Word Embeddings)和最优传输(Optimal Transport),这比流行的文档分类基准的竞争方法提供更好、更快的结果。


如果一个算法知道你过去喜欢什么,它可以扫描出数百万个类似的可能性。随着自然语言处理技术的改进,那些“你可能也喜欢”的建议正变得越来越快,也越来越相关。


在NeurIPS提出的这种方法,是一种算法根据集合中的常用词将一种集合(比如说书)归纳成主题。然后将每本书分成5-15个最重要的主题,并估算每个主题对整本书的贡献。


微信图片_20220107222351.jpg

NeurIPS 现场,热闹非凡,人潮涌动


为了比较书籍,研究人员使用了另外两种工具:词嵌入(一种将词转换成数字列表的技术,以反映词在流行用法中的相似性)与最优传输(一种计算在多个目的地之间的移动对象或数据点的最有效方式的框架)。

 

词嵌入使得两次利用最优传输成为可能:首先将集合中的主题作为一个整体进行比较,然后在任意两本书中比较常见主题的重叠程度。


该技术在扫描大量书籍和冗长的文档时特别有效。在这项研究中,研究人员提供了Frank Stockton的《战争辛迪加》(The Great War Syndicate)的例子,这本19世纪的美国小说,预言了核武器的兴起。如果你正在寻找一本类似的书,那么主题模型将有助于识别与其他书共享的主要主题——在这种情况下,是航海、元素和军事。


微信图片_20220107222349.jpg

战争辛迪加


但是仅仅是一个主题模型并不能将Thomas Huxley在1863年的演讲《有机自然过去的环境》(The Past Condition of Organic Nature)确定为一个很好的匹配。这位作家是Charles Darwin进化论的拥护者,他的演讲中充斥着化石和沉积作用,反映了关于地质学的新观点。当Huxley演讲中的主题与Stockton的小说通过最优传输相匹配时,出现了一些交叉主题:Huxley的地理、动植物、知识主题 ,分别与Stockton的航海、元素和军事主题紧密相关。


微信图片_20220107222346.jpg

有机自然过去的环境

根据书籍的代表性主题(而不是单个词)对书籍进行建模,使高层次比较成为可能。该研究的主要作者、IBM研究员Mikhail Yurochkin说:“如果你让某人比较两本书,他们会把每本书分解成易于理解的概念,然后比较这些概念。”


研究表明,结果是更快、更准确。研究人员在一秒钟内对比了Gutenberg Project数据集的1720对书籍,比次佳方法快800多倍。


微信图片_20220107222342.jpg

Gutenberg Project数据集


与其它方法相比,该技术还可以更准确地对文档进行分类:例如,按作者对Gutenberg Project数据集中的书籍进行分组,按部门对亚马逊的产品评论分类,以及按体育项目对BBC体育报道分类。在一系列的可视化中,作者展示了他们的方法可以很好地按类型对文档进行聚类。


除了快速和更准确地对文档进行分类之外,该方法还提供了一个窗口来了解模型的决策过程(想想就很厉害~~)。通过出现的主题列表,用户可以看到模型推荐文档的原因。


您觉得这项技术厉不厉害?欢迎来小程序里跟我们交流、探讨哦~

参考资料:

http://news.mit.edu/2019/finding-good-read-among-billions-of-choices-1220

相关文章
|
弹性计算 负载均衡 容灾
阿里云服务器地域和可用区之间是什么关系?地域和可用区的区别与选择参考
不管是选择阿里云的国内云服务器还是国外云服务器,都有多个地域及可用区选择,目前国内地域有北京、青岛、甚至等13个地域可选,国外地域有韩国、新加坡、悉尼等15个地域可选,每个地域又有多个可用区可选,那么阿里云服务器地域和可用区之间是什么关系?作为用户的我们又改如何选择呢?本文介绍阿里云地域和可用区的概念、选择指导、两者的关系以及阿里云支持的地域和可用区列表。
1138 0
阿里云服务器地域和可用区之间是什么关系?地域和可用区的区别与选择参考
【Leetcode -441.排列硬币 -448.找到所有数组中消失的数字】
【Leetcode -441.排列硬币 -448.找到所有数组中消失的数字】
105 0
|
编解码 UED
Qt侧边栏的动态切换:隐藏与显示技术详解
在现代用户界面设计中,侧边栏(Sidebar)是一个常见的组件,它为用户提供了导航和工具面板的功能。在某些应用场景下,我们可能需要动态地隐藏或显示侧边栏,以优化界面布局或提供更灵活的用户体验。本文将分享如何在Qt框架下实现侧边栏的隐藏与呈现,包括技术细节和代码示例。
1292 3
|
安全 数据挖掘 API
快手小店详情API接口的获取与应用
在数字化时代,电商平台竞争激烈,API接口作为连接不同系统和服务的桥梁,已成为电商生态中不可或缺的一部分。本文详细介绍快手小店详情API接口的获取与应用,帮助开发者和企业提升业务效率和用户体验。涵盖API接口定义、主要应用场景、注册与认证流程、调用方法及实际应用案例,提供最佳实践建议。
591 1
tasks.json、launch.json、c_cpp_properties.json配置
tasks.json、launch.json、c_cpp_properties.json配置
580 0
|
设计模式 JavaScript 前端开发
深入探索JavaScript的继承机制
【10月更文挑战第13天】深入探索JavaScript的继承机制
150 0
|
JavaScript Java 测试技术
基于微信小程序的企业职工薪资查询系统的设计与实现(源码+lw+部署文档+讲解等)
基于微信小程序的企业职工薪资查询系统的设计与实现(源码+lw+部署文档+讲解等)
272 1
|
分布式计算 Hadoop 大数据
大数据 | Hadoop HA高可用搭建保姆级教程(大二学长的万字笔记)(下)
大数据 | Hadoop HA高可用搭建保姆级教程(大二学长的万字笔记)(下)
456 0
|
存储 算法 安全
【数据结构之旅】「线程锁算法专项」引领你走进CLH队列锁机制原理世界
【数据结构之旅】「线程锁算法专项」引领你走进CLH队列锁机制原理世界
419 0
【数据结构之旅】「线程锁算法专项」引领你走进CLH队列锁机制原理世界
|
JavaScript 安全
Vue_Study入门一
Get新知识: vue 的基本使用步骤需要提供标签用于填充数据引入vue.js 库文件可以使用vue 的语法做功能实现将vue 提供的数据填充标签中入门案例:插值表达式的简单使用。形如 {{ xxx }}<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <meta http-equiv="X-UA-Comp...
191 0

热门文章

最新文章