1. 离散表示(列出一些常用的方法) :
词袋模型( Bag of Words),缩写是BOW;TF-IDF (Term Frequency - Inverse Document Frequency);One-hot编码( 独热编码 );Bi-gram和N-gram;词-文档矩阵(单元格是词的权重)
2. 分布式表示:
对词-文档矩阵降维(例如使用PCA降维);神经网络语言模型(例如word2vec),语言模型是用来计算一个句子出现概率的模型。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。