推荐一个强大的自然语言处理库—snownlp

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 上次在跟大家分享用Python在本地进行文本情感分析的时候,给大家介绍了一个Snownlp库,当时只跟大家介绍了一下它的情感分析功能,这次来跟大家详细的介绍一下它其它的强大的功能。

01定义和安装


我们先来看看官方对它的介绍:


SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。


它的安装命令如下:


pip install snownlp


02功能介绍


它主要有九个功能,我们分别来给大家介绍一下这九个功能都是干什么的。


01

分词功能


SnowNLP的分词功能,可以将文本内容对照着字典划分一个个词语字符串,如果不是词语的就单独成为一个字符串。代码如下:


a = SnowNLP('我非常的热爱学习!')
print(a.words)



16.png



词性标注


SnowNLP的词性标注功能,可以对各个词语进行标注,让我们能够知道这个词语属于名词还是动词,或者其它词性。代码如下:

a = SnowNLP('我非常的热爱学习!')
for i in a.tags:
   print(i)


17.png


情感分析


在之前的文章我们已经详细的介绍过了SnowNLP的情感分析功能,这里就不在过多介绍,用兴趣的小伙伴,可以看看这篇文章两种文本情感分析方式,你更pick哪一种?


04

拼音标注


SnowNLP的拼音标准功能,可以给文本中所有文字进行拼音标注,这样以后再也不担心遇到生僻字不会读啦~~ 代码如下:


a = SnowNLP('我非常的热爱学习!')
print(a.pinyin)


18.png


05

提取关键字和摘要


SnowNLP可以将文本中出现的关键字和文本摘要给提取出来,从而让我们可以更快速的了解文本讲述的内容。代码如下:

text = '''计算机网络系统就是利用通信设备和线路将地理位置不同、功能独立的多个计算机系统互联起来,以功能完善的网络软件实现网络中资源共享和信息传递的系统。
通过计算机的互联,实现计算机之间的通信,从而实现计算机系统之间的信息、软件和设备资源的共享以及协同工作等功能,
其本质特征在于提供计算机之间的各类资源的高度共享,实现便捷地交流信息和交换思想。'''
b=SnowNLP(text)
key_word = b.keywords(5)   #()中的数字,代表提取关键字数量
abs_word = b.summary(1)    #()中的数字,代表提取摘要数量
print(key_word)
print(abs_word)


19.png


计算词频和逆文档频率


关键字的先后顺序是由TF-IDF值的大小来决定的,其中TF就是词频、IDF就是逆文档频率、词频很好理解就是一个词在文本中出现的频率,逆文档频率是在词频的基础上,给每个词分配一个“重要性”的权重,越常见的词分配的权重越低,越稀少的词,权重越高,这个权重就成为逆文档频率,它的大小和词语的常见性成反比。代码如下:


c = SnowNLP([['计算机'], ['资源'], ['系统'], ['信息'], ['功能']])
print(c.tf)
print(c.idf)



20.png


08

断句功能


SnowNLP可以按照","和“。”对文本进行断句处理。代码如下:

b=SnowNLP(text)
print(b.sentences)


21.png


09

文本相似度


SnowNLP还可以计算文本的相似度。(感觉论文查重可能就是用的类似这种方式)代码如下:

e = SnowNLP([['计算机','资源'],
            ['系统'],
            ['信息','功能']
            ])
print(e.sim(['系统']))
print(e.sim(['计算机']))
print(e.sim(['功能']))



22.png


相关文章
|
6月前
|
数据采集 自然语言处理 算法
如何使用Python的Gensim库进行自然语言处理和主题建模?
使用Gensim库进行Python自然语言处理和主题建模,包括:1) 安装Gensim;2) 导入`corpora`, `models`, `nltk`等相关模块;3) 对文本数据进行预处理,如分词和去除停用词;4) 创建字典和语料库;5) 使用LDA算法训练模型;6) 查看每个主题的主要关键词。代码示例展示了从数据预处理到主题提取的完整流程。
157 3
|
6月前
|
数据采集 自然语言处理 算法
如何使用Python的Gensim库进行自然语言处理和主题建模?
使用Gensim库进行自然语言处理和主题建模,首先通过`pip install gensim`安装库,然后导入`corpora`, `models`等模块。对数据进行预处理,包括分词和去除停用词。接着,创建字典和语料库,使用`Dictionary`和`doc2bow`。之后,应用LDA算法训练模型,设置主题数量并创建`LdaModel`。最后,打印每个主题的主要关键词。可以根据需求调整参数和选择不同算法。
88 0
|
8天前
|
自然语言处理 Python
如何使用自然语言处理库`nltk`进行文本的基本处理
这段Python代码展示了如何使用`nltk`库进行文本的基本处理,包括分词和词频统计。首先需要安装`nltk`库,然后通过`word_tokenize`方法将文本拆分为单词,并使用`FreqDist`类统计每个单词的出现频率。运行代码后,会输出每个词的出现次数,帮助理解文本的结构和常用词。
|
4月前
|
自然语言处理 PyTorch API
`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。
`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。
|
6月前
|
缓存 自然语言处理 数据处理
Python自然语言处理面试:NLTK、SpaCy与Hugging Face库详解
【4月更文挑战第16天】本文介绍了Python NLP面试中NLTK、SpaCy和Hugging Face库的常见问题和易错点。通过示例代码展示了如何进行分词、词性标注、命名实体识别、相似度计算、依存关系分析、文本分类及预训练模型调用等任务。重点强调了理解库功能、预处理、模型选择、性能优化和模型解释性的重要性,帮助面试者提升NLP技术展示。
105 5
|
机器学习/深度学习 自然语言处理 算法
深入NLTK:Python自然语言处理库高级教程
在前面的初级和中级教程中,我们了解了NLTK库中的基本和进阶功能,如词干提取、词形还原、n-gram模型和词云的绘制等。在本篇高级教程中,我们将深入探索NLTK的更多高级功能,包括句法解析、命名实体识别、情感分析以及文本分类。
|
6月前
|
自然语言处理 算法 API
在Python中进行自然语言处理,安装必要的库
在Python中进行自然语言处理,安装必要的库
50 1
|
机器学习/深度学习 人工智能 自然语言处理
如何使用NLP库解析Python中的文本
如何使用NLP库解析Python中的文本
|
自然语言处理 Python
入门NLTK:Python自然语言处理库初级教程
NLTK(Natural Language Toolkit)是一个Python库,用于实现自然语言处理(NLP)的许多任务。NLTK包括一些有用的工具和资源,如文本语料库、词性标注器、语法分析器等。在这篇初级教程中,我们将了解NLTK的基础功能。
|
机器学习/深度学习 数据采集 自然语言处理
2022年必须要了解的20个开源NLP 库(一)
2022年必须要了解的20个开源NLP 库(一)
1319 0
2022年必须要了解的20个开源NLP 库(一)