MIT切割大量文本黑科技!数十亿选择中“海底捞”出一本好书

简介: MIT和IBM的研究人员结合了三种流行的文本分析工具——主题建模、词嵌入和最优传输——来每秒比较数千个文档。而且可以更快、更准确对文档分类,轻轻松松从数十亿选择中更快找到更相关的读物。

微信图片_20220107222357.jpg


在线有数以十亿计的书籍、新闻故事和文档,如果你有时间浏览所有选项,现在正是阅读的最佳时机!MIT助理教授Justin Solomon说:“互联网上有大量文本,任何有助于切割这些材料的东西都是非常有用的。”


微信图片_20220107222354.gif


在线本文的数量比这还多得多


在MIT-IBM沃森人工智能实验室和MIT几何数据处理小组的帮助下,Solomon最近在NeurIPS会议上提出了一种切割大量文本的新技术。该技术结合了三种流行的文本分析工具——主题建模(Topic Modeling)、词嵌入(Word Embeddings)和最优传输(Optimal Transport),这比流行的文档分类基准的竞争方法提供更好、更快的结果。


如果一个算法知道你过去喜欢什么,它可以扫描出数百万个类似的可能性。随着自然语言处理技术的改进,那些“你可能也喜欢”的建议正变得越来越快,也越来越相关。


在NeurIPS提出的这种方法,是一种算法根据集合中的常用词将一种集合(比如说书)归纳成主题。然后将每本书分成5-15个最重要的主题,并估算每个主题对整本书的贡献。


微信图片_20220107222351.jpg

NeurIPS 现场,热闹非凡,人潮涌动


为了比较书籍,研究人员使用了另外两种工具:词嵌入(一种将词转换成数字列表的技术,以反映词在流行用法中的相似性)与最优传输(一种计算在多个目的地之间的移动对象或数据点的最有效方式的框架)。

 

词嵌入使得两次利用最优传输成为可能:首先将集合中的主题作为一个整体进行比较,然后在任意两本书中比较常见主题的重叠程度。


该技术在扫描大量书籍和冗长的文档时特别有效。在这项研究中,研究人员提供了Frank Stockton的《战争辛迪加》(The Great War Syndicate)的例子,这本19世纪的美国小说,预言了核武器的兴起。如果你正在寻找一本类似的书,那么主题模型将有助于识别与其他书共享的主要主题——在这种情况下,是航海、元素和军事。


微信图片_20220107222349.jpg

战争辛迪加


但是仅仅是一个主题模型并不能将Thomas Huxley在1863年的演讲《有机自然过去的环境》(The Past Condition of Organic Nature)确定为一个很好的匹配。这位作家是Charles Darwin进化论的拥护者,他的演讲中充斥着化石和沉积作用,反映了关于地质学的新观点。当Huxley演讲中的主题与Stockton的小说通过最优传输相匹配时,出现了一些交叉主题:Huxley的地理、动植物、知识主题 ,分别与Stockton的航海、元素和军事主题紧密相关。


微信图片_20220107222346.jpg

有机自然过去的环境

根据书籍的代表性主题(而不是单个词)对书籍进行建模,使高层次比较成为可能。该研究的主要作者、IBM研究员Mikhail Yurochkin说:“如果你让某人比较两本书,他们会把每本书分解成易于理解的概念,然后比较这些概念。”


研究表明,结果是更快、更准确。研究人员在一秒钟内对比了Gutenberg Project数据集的1720对书籍,比次佳方法快800多倍。


微信图片_20220107222342.jpg

Gutenberg Project数据集


与其它方法相比,该技术还可以更准确地对文档进行分类:例如,按作者对Gutenberg Project数据集中的书籍进行分组,按部门对亚马逊的产品评论分类,以及按体育项目对BBC体育报道分类。在一系列的可视化中,作者展示了他们的方法可以很好地按类型对文档进行聚类。


除了快速和更准确地对文档进行分类之外,该方法还提供了一个窗口来了解模型的决策过程(想想就很厉害~~)。通过出现的主题列表,用户可以看到模型推荐文档的原因。


您觉得这项技术厉不厉害?欢迎来小程序里跟我们交流、探讨哦~

参考资料:

http://news.mit.edu/2019/finding-good-read-among-billions-of-choices-1220

相关文章
|
4月前
|
搜索推荐
妙笔生词与网易天音:写歌词的优势对决
妙笔生词(veve522)与网易天音在歌词创作中各具优势。妙笔擅长专业韵律,个性化定制;网易天音倚靠技术与市场资源,创造流行趋势并勇于创新。两者满足不同创作风格与需求。
|
数据采集 SQL 算法
阿里音乐流行趋势预测—亚军答辩(一)|学习笔记
快速学习阿里音乐流行趋势预测—亚军答辩(一)
421 0
|
人工智能 搜索推荐 iOS开发
ChatGPT还在2G冲浪?新模型「youChat」:我已能够解说2022世界杯(2)
ChatGPT还在2G冲浪?新模型「youChat」:我已能够解说2022世界杯
145 0
ChatGPT还在2G冲浪?新模型「youChat」:我已能够解说2022世界杯(2)
|
人工智能 人机交互
田渊栋等原班人马又一新作:AI生成长篇故事,数千字长文也能连贯、有趣
田渊栋等原班人马又一新作:AI生成长篇故事,数千字长文也能连贯、有趣
111 0
|
机器学习/深度学习 存储 人工智能
『程序员对联』抽取你的专属新春对联
新春这个文章说实话,经历了蛮多的,一开始其实我是想用`three.js`做个老虎的,但是呢,失败了。废了好几个小时才搞出来两个`虎爪`,害,都怪我`three.js`的能力连基本上手都算不上,没咋玩明白,下次一定给大家做点好康的~
|
算法 大数据 开发者
阿里音乐流行趋势预测—亚军答辩(二)|学习笔记
快速学习阿里音乐流行趋势预测—亚军答辩(二)
251 0
|
机器学习/深度学习 图形学 计算机视觉
一边动,一边画,自己就变二次元!华人小哥参与的黑科技:实时交互式视频风格化
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 动画,动画,就是你动你的,我画我的。 就像下面这张GIF,左边是张静态图片,随着画者一点一点为其勾勒色彩,右边的动图也在实时地变换颜色。
一边动,一边画,自己就变二次元!华人小哥参与的黑科技:实时交互式视频风格化
|
算法 Python
十年磨一剑,这是一本有声音的算法书
这本书在美亚评分4.7,在作者的在线算法课程的基础之上编写的,是四卷本系列的第1卷。这个在线课程2012年起就定期更新,它建立在作者在斯坦福大学教授多年的本科课程的基础之上。也许你有所耳闻,这本书就是《算法详解(卷1)——算法基础》。
1662 0
为儿童提供中文分级阅读,蜜蜂阅读完成数百万元天使轮融资
蜜蜂阅读主要为5 - 12 岁儿童提供中文分级阅读课程。
373 0
下一篇
无影云桌面