利用sklearn计算词频

简介: python机器学习库sklearn提供了文本数据处理的函数,其中可以借助计算tfidf的函数计算词频,具体代码如下# encoding=utf-8# python 3.

python机器学习库sklearn提供了文本数据处理的函数,其中可以借助计算tfidf的函数计算词频,具体代码如下

# encoding=utf-8
# python 3.5
# 计算词频示例
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

corpus = ["我 来到 北京 清华大学",
        "他 来到 了 网易 杭研 大厦",
        "小明 硕士 毕业 与 中国 科学院",
        "我 爱 北京 天安门"]

# token_pattern指定统计词频的模式, 不指定, 默认如英文, 不统计单字
vectorizer = CountVectorizer(token_pattern='\\b\\w+\\b')
# norm=None对词频结果不归一化
# use_idf=False, 因为使用的是计算tfidf的函数, 所以要忽略idf的计算
transformer = TfidfTransformer(norm=None, use_idf=False)
tf = transformer.fit_transform(vectorizer.fit_transform(corpus))
word = vectorizer.get_feature_names()
weight = tf.toarray()

for i in range(len(weight)):
    for j in range(len(word)):
        print(word[j], ':', weight[i][j], end=' ', sep='')

    print()
结果如图



目录
相关文章
|
4月前
|
机器学习/深度学习 存储 算法
sklearn应用线性回归算法
sklearn应用线性回归算法
63 0
|
4月前
|
算法
sklearn算法
sklearn算法
38 0
一、线性回归的两种实现方式:(二)sklearn实现
一、线性回归的两种实现方式:(二)sklearn实现
|
4月前
TF-IDF 怎样将用单词权重的向量表示一个文档
TF-IDF 怎样将用单词权重的向量表示一个文档
44 1
|
4月前
|
机器学习/深度学习 自然语言处理 算法
使用sklearn+jieba完成一个文档分类器
使用sklearn+jieba完成一个文档分类器
|
自然语言处理 算法 数据可视化
基于 sklearn 的鸢尾花分类
基于 sklearn 的鸢尾花分类
233 0
基于 sklearn 的鸢尾花分类
|
机器学习/深度学习 并行计算 算法
基于sklearn随机森林算法对鸢尾花数据进行分类
基于sklearn随机森林算法对鸢尾花数据进行分类
525 0
基于sklearn随机森林算法对鸢尾花数据进行分类
|
机器学习/深度学习 人工智能 算法
基于sklearn决策树算法对鸢尾花数据进行分类
基于sklearn决策树算法对鸢尾花数据进行分类
337 0
基于sklearn决策树算法对鸢尾花数据进行分类
sklearn.preprocessing.PolynomialFeatures多项式特征
sklearn.preprocessing.PolynomialFeatures多项式特征
92 0
TF-IDF及相似度计算
TF-IDF:衡量某个词对文章的重要性由TF和IDF组成 TF:词频(因素:某词在同一文章中出现次数) IDF:反文档频率(因素:某词是否在不同文章中出现) TF-IDF = TF*IDF TF :一个单词在一篇文章出现次数越多越重要 IDF: 每篇文章都出现的单词(如的,你,我,他) ,越不重要
345 0
TF-IDF及相似度计算