文本相似性实验3｜学习笔记-阿里云开发者社区

文本相似性实验3｜学习笔记

2022-11-22 271

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习文本相似性实验3

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践：文本相似性实验3】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/1067/detail/15506

文本相似性实验3

内容介绍：

一、查询和文档的相似度

二、搜索实验

一、查询和文档的相似度

如果查询和文档的相似度，也可以用上一节的方法，当然也可以用bm25的方法，大家有兴趣可以去看博客文章。

如果要用text2vec的方法，大家需要安装pip3 install text2vec包。

老师建议大家安装包时应该先设一个镜像，目前国内一般是清华大学的一个网站作为镜像网站，这样安装包就很快，去百度搜一下Python怎么设镜像，否则安装包很慢。

上面就是已经安装好的，加载text2vec，实验里面举个例子：先查一个中文的字‘我’，然后再看它的词向量，就是它的编码encode，把它编成一个词向量放在result，我们可以显示一下词向量的类型，再显示词向量本身的形状；再换行一下，显示一下这个词‘我’以及它的词向量。

再看另外一个词和下面一句话，这句话的向量是每一个词的平均值，执行一下这段代码，因为它要去查一查，需要点时间，下面粉颜色的是警告，不用管。接下来看第一个print，它里面要显示第一个结果的type（类型）以及形状；第二个print就是这个字以及它的词向量，然后是第三个、第四个print。

先看第一个print，它的类型是numpy.ndarray——它的周围数组对象，然后看它的形状是200个元素，可以认为是一个200位的词向量，前面并没有设它的大小，默认是两百位。接下来看‘我’的词向量是两百位，我们并没有训练，是用腾讯人工智能实验室提供的语料训练的，再看‘如何’的词向量，和这一句话的词向量，都是200位的。证明它是用了每一个词的词向量再求平均的，有了这个向量化表示后下面要求它的文本相似性就容易了。

text2vec里面自带了一个模块求相似性，这里做一下实验：有两串文本，一个是‘如何更换花呗绑定银行卡’，另一个是‘花呗更改绑定银行卡’，这两句文本相似，然后要用Similarity，import是一个模块，它里面是一个class，所以把这个class进行实例化，实例化之后用这个实例的对象，它里面有一个函数叫get_score，就是看相似性打出分值；然后把（a，b）两个字符串传进去，text2vec把它们变成词向量和它们里面词的平均值，然后print一下score，看一下结果它们的相似性是0.95。

二、搜索实验

接下来再做一个搜索的实验，我们要去查论文、在搜索框里面搜一个文本，它背后有很多文本，然后我们搜的是一个查询文本，要做搜索匹配。现在模拟一下，比如有三篇文章a、b、c，这就是我们的语料，把它们放在列表里面显示一下语料，然后来做一下SearchSimilarity，把语料传进去构造一个向量化的数据；接下来print的时候要注意，比如先插a这句话和这一批语料里面哪些更相似，以及它的排序，主要是这样的实验。

运行一下它就显示结果了，因为这个语料很少，只有三句话。如果我们要做图书馆里面学术论文查询，可以把学术论文的摘要、关键词、标题放在文本里面，可以直接组织几十万篇文本来做文本的搜索、文本相似性比较的实验。它比关键词搜索更有优势，一般的关键词搜索只是按照词来匹配，而现在这样文本表示以后它就有很强的语义能力了。这就是文本相似性，下面有些参考资料，大家可以再去看一看。

在百度里面有自然语言处理的接口，如下图。

这个技术里面有很多好的功能，等于百度做好了一些功能，我们直接调用可以做文本的一些语义处理；还可以做分词、词性标注、专名识别、词向量、词的相似度，还可以做一些深度训练、依存句法分析、短文本的相似度。

这就是第一个实验——词和文本相似度的认识。