中文分词

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 中文分词

中文分词介绍

【Task简介】

给定连续输入文本内容,分词模型会将给出分词结果

【说明视频】

image.png

点击链接查看视频:

https://www.yuque.com/modelscope/rdum8e/vyysdb?inner=LKXh0

【输入与输出】

Input就是一段文字,StructBERT+softmax序列标注模型,序列标注标签体系(B、I、E、S),四个标签分别表示单字处理单词的起始、中间、终止位置或者该单字独立成词,output就是根据输出标签确定的分词结果

image.png

【场景应用】

中文数据词云展示、需要先将数据进行分词

【数据集链接】

数据集:

https://modelscope.cn/datasets/dingkun/chinese_word_segmentation_pku/summary

https://modelscope.cn/datasets/dingkun/chinese_word_segmentation_pku/summary

模型文件:

https://modelscope.cn/models/damo/nlp_structbert_word-segmentation_chinese-base/file

相关文章
|
5月前
|
自然语言处理 Rust 搜索推荐
jieba分词-Python中文分词领域的佼佼者
jieba分词-Python中文分词领域的佼佼者
40 1
|
自然语言处理 搜索推荐 算法
中文分词利器-jieba
中文分词利器-jieba
|
自然语言处理 搜索推荐 索引
白话Elasticsearch28-IK中文分词之IK中文分词器的安装和使用
白话Elasticsearch28-IK中文分词之IK中文分词器的安装和使用
118 0
|
自然语言处理 BI
分词
中文分词介绍
分词
|
机器学习/深度学习 人工智能 自然语言处理
分词的那些事
使用阿里云学习分词,分词就是指将连续的自然语言文本切分成具有语义合理性和完整性的词汇序列的过程。
分词的那些事
|
自然语言处理
关于分词
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文围绕分词作一些入门资源信息介绍,偏分词应用。内容10年前的,不代表最新的内容啊。
153 0
|
自然语言处理 搜索推荐 Java
Hanlp等七种优秀的开源中文分词库推荐
中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。
3917 0
Hanlp等七种优秀的开源中文分词库推荐
|
自然语言处理
Ansj与hanlp分词工具对比
一、Ansj1、利用DicAnalysis可以自定义词库: 2、但是自定义词库存在局限性,导致有些情况无效:比如:“不好用“的正常分词结果:“不好,用”。 (1)当自定义词库”好用“时,词库无效,分词结果不变。
1139 0
|
自然语言处理
HanLP-实词分词器详解
在进行文本分类(非情感分类)时,我们经常只保留实词(名、动、形)等词,为了文本分类的分词方便,HanLP专门提供了实词分词器类NotionalTokenizer,同时在分类数据集加载处理时,默认使用了NotionalTokenizer分词器。
1860 0
|
自然语言处理 Java Maven
HanLP中文分词Lucene插件
基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统。
2022 0

热门文章

最新文章

下一篇
开通oss服务