备案控制台

开发者社区人工智能文章正文

语料准备

2018-09-14 1347

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 之前查找了很多资料，发现语料准备这块的方法论很有限，在我看来如果说AI是个学生，语料其实是教科书，是知识的海洋，是AI的粮食，非常重要。本文主要探讨有充分的语料基础后对语料进行预处理的办法。

之前查找了很多资料，发现语料准备这块的方法论很有限，在我看来如果说AI是个学生，语料其实是教科书，是知识的海洋，是AI的粮食，非常重要。
本文主要探讨有充分的语料基础后对语料进行预处理的办法。
1，众包打标签
2，手工规则提取
关键词特征，使用数据库进行批量标记。
实体识别后特征选取，使用分词工具根据词性来标记。
词频统计，对高频特殊词单独标记。
### Dialogflow 边标记边训练，不断校正测试效果。
Explosion.ai 的 Prodigy ，快速手工标记，后台学习，提供预判，个人觉得并不好用。
3, 专家手工打标签
推荐Excel，可以与数据库互传数据，可以指定标签词汇范围，进行快速输入。
我总觉得语料工具应该有更大的发展空间，需要做的更好！

文章标签：

数据库

自然语言处理

人工智能

ebxinxi

目录

相关文章

小Lee

|

6月前

|

机器学习/深度学习自然语言处理

机器翻译中的词性标注

机器翻译中的词性标注

小Lee

71 2 2

小Lee

|

6月前

|

机器学习/深度学习自然语言处理算法

机器翻译中的分词

机器翻译中的分词

小Lee

86 2 2

183王德发

lda模型和bert模型的文本主题情感分类实战

lda模型和bert模型的文本主题情感分类实战

183王德发

215 0 0

致Great_VIP

|

数据可视化数据挖掘

基于Bert的文本聚类工具：BERTopic

基于Bert的文本聚类工具：BERTopic

致Great_VIP

1774 0 0

基于Bert的文本聚类工具：BERTopic

人物我非-32022

|

30天前

|

自然语言处理索引

使用BERT进行情感分析

【10月更文挑战第2天】

人物我非-32022

38 0 0

小詹小詹

|

4月前

|

测试技术

千问文本分类任务微调

这段代码定义了一个`predict`函数，它使用Hugging Face的`AutoModelForCausalLM`和`AutoTokenizer`来生成对话回复。模型和tokenizer分别从指定路径加载，然后对输入的`messages`（包含指令和用户输入）进行处理，通过模型生成响应。代码最后展示了一个测试用例，其中讨论了历史人物的评价。模型的输出被打印出来。整个流程涉及预处理、模型推理和后处理，用于生成与历史相关的内容。

小詹小詹

176 6 7

vohelon

|

6月前

|

数据采集自然语言处理

在ModelScope中进行情感分析模型的微调

在ModelScope中进行情感分析模型的微调

vohelon

140 4 6

致Great_VIP

Bert可以提取关键词了：KeyBERT的介绍与使用

Bert可以提取关键词了：KeyBERT的介绍与使用

致Great_VIP

1920 1 1

Bert可以提取关键词了：KeyBERT的介绍与使用

vohelon

|

PyTorch TensorFlow 算法框架/工具

抽取GPT-3预训练模型的emb向量

抽取GPT-3预训练模型的emb向量

vohelon

218 1 1

ModelScope运营小助手

预训练对话

预训练对话

ModelScope运营小助手

84 0 0

热门文章

最新文章

常见浏览器User-Agent大全

未来已来！阿里小蜜AI技术揭秘

Flink: 实时规则引擎助力新零售发展

Apache Flink 进阶（三）：Checkpoint 原理解析与应用实践

weex-html5 组件进阶

群智能算法：灰狼优化算法（GWO）的详细解读

Amazon 的IoT之路

hp M1530一体机无法在OEM系统下安装驱动

NumPy Cookbook 带注释源码十、Scikit 中的乐趣

潮流设计：15个创意的 3D 字体版式作品欣赏

springboot配置hosts文件

maven项目的pom.xml文件常用标签使用介绍

天气预报-腾讯天气-7天-地址查询版免费API接口

第四届人文，智慧教育与服务管理国际学术会议（HWESM 2025） 2025 4th International Conference on Humanities, Wisdom Education and Service Management

2025电气自动化与电机系统国际学术会议（EAMS 2025） 2025 International Conference on Electrical Automation and Motor System

大厂面试高频：什么是自旋锁？Java 实现自旋锁的原理？

C++ 之 perf+火焰图分析与调试

面试高频：Synchronized 原理，建议收藏备用！

SQL 中，通配符

鸿蒙next版开发：相机开发-适配不同折叠状态的摄像头变更(ArkTS)

相关课程

更多

个性化语音合成模型微调

相关电子书

更多

基于视觉推理的视频理解

机器学习中，使用Scikit-Leam简单处理文本数据

低代码开发师（初级）实战教程

相关实验场景

更多

如何快速训练大模型

下一篇

无影云桌面