开发者学堂课程【3节课带你走进云小蜜产品 :高级能力和算法效果优化(二)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/739/detail/13117
高级能力和算法效果优化(二)
三、机器人训练
机器人训练为了更好的保障机器人的理解水平。引入机器学习算法,首先需要有大量的标注数据来让模型进行学习,模型如果没有数据是无法进行学习的。如果数据量标注每条意图指标都在10条左右,比较适合用系统内置的模型识别。如果意图标注的样本量比较多,比如达到了百级别或者更多,就可以直接训练大小本的监督学习模型,这样意图识别效果也会更加的好一些。
机器人训练目前包括两条链路,第一条链路用户标注部分少量的数据依赖于平台预置通用fsl意图识别模型进行话术的理解泛化,发布到机器人中即刻生效,第二条链路是当标注的数据量比较大,比较充分的时候就可以进行深度训练,用户可以自己在平台上进行模型的创建,模型的训练,模型效果评测,对结果进行分析,如果发现模型的效果,要优于旧版模型,可以进行模型的部署和更新,第二条链路对数据量有比较大的要求,要求意图话术平均达到一百条左右,但是效果也是有保障的,一般交付的项目会走这条链路,通过标注大量的数据能把模型效果做到90%以上。
1、机器人训练-数据筛选标注
数据源提取:创建训练任务、选择数据来源、定义提取维度。
数据预处理(自动):去重、相似度计算。
聚类(自动):聚类。
摘要(自动):摘要。
数据标注:添加到现有知识点、新建知识点。
完结(自动):自动回流、只是生效。
(1)数据闭环:充分利用真实的线上反馈数据进行智能训练及评测,优化效果真实可靠、可感知。
(2)智能辅助处理:通过数据清洗、聚类、推荐等智能辅助手段,提升训练的科学合理性。
(3)线上化一体操作:无线下流程,保障数据安全及数据准确性。
2、演示数据筛选标注流程
(1)点击机器人训练页面,新建任务,任务类型,意图拓展主要用于多轮对话机器人,意图话术的拓展,云小蜜正向循环主要用于 feq 问答机器人知识点的标注,首先进行数据类型的筛选,是否有答案还是低于某个阈值,如果最终系统给出结果,发现置信度很低,不太能确定是否是准确的,可以推荐出来,再进行一次标注。除此以外,还可以进行时间范围的筛选,点击确定,它自动会在日志里面把选定的时间段拉出来做预处理,包括像预算、聚类、意图以及知识点的推荐等。
(2)点击待处理任务,可以看到任务,云小蜜正向循环是知识点的标注,意图拓展是意图的标注。
(3)点击云小蜜正向循环详情,预处理、聚类、摘要是平台会自动化操作,日志拉出后,用户可以直接进行标注,可以选择机器人对应的知识点,可以选或者自己创建,确定,显示已标注。
点击下一步,把标完的话术对应的发布到机器人的知识库里面,相当于机器人的知识点标注。
(3)点击意图拓展详情,意图会被推荐,用户只要确定未解决问法是不是目标意图,是就是通过,反之则不通过。
(4)标注完点击下一步,发布到机器人上生效,进行回流和完结状态。
3、小样本意图识别
(1)冷启动:标注回流样本比较少,通常不足10条,无法使用监督模型,但仍然希望有较好的话术泛化能力。
(2)方案:
平台积累了万级对话意图数据,借助小样本学习深度学习算法,训练行业意图识别 Meta Model。
每个机器人,收到在线请求时,Meta Model 会利用机器人配置话术进行适配得到机器人模型,快速生效。
能够对几条意图话术进行归纳学习出意图表达的语义信息,用户 query 不仅仅是与配置话术进行匹配,而是能够与整个意图所表达的语义信息进行匹配。学出的效果更加精准。
(3)算法创新:
《Induction Networks for Few-Shot Text Classification》EMNLP 2019
学习意图整体的语义信息,这里采用胶囊网络方法,该工作已在 EMNLP2019上发表。
《Dynarmic Memory Induction Networks for Few-Shot Text Classification》ACL 2020
为了解决FSL遗忘的问题引入 Memory 机制,该工作已在 ACL 2020进行发表。
由此可以看出,在小样本学习这一领域在学术界是非常前沿的一个水平。
(1)效果提升:构建了通用、金融、政务行业的 FSL 意图识别模型,对比业界常用的 WordAvg 方法效果提升10%以上。
4、大样本意图识别
(1)业务情况:对于要交付上线的项目,一般都要求 Turn Acc 做到90%以上,需要标注大量样本训练深度学习模型才能保证效果。
(2)如何减少标注量?
(3)迁移学习
通用模型: StructBert 中文预训练语言模型,比 Google Bert 好1个点左右。
行业模型:抓取沉淀千万级行业句子、百万级行业文档,训练 StructBert 行业语言模型,在下游的意图识别、知识点匹配等任务上都有显著效果提升。
企业模型: 利用企业标注数据在行业模型上进行 finetune 训练,会有百分之五十样本量的节省。
(5)私有云已支持完整的模型训练、评测、发布链路,公有云已在计划中,敬请期待。
四、总结
本次课程主要讲解三块内容,第一块系统内置意图、实体,系统内置了大量的实体,有效果保障,并且使用的成本非常低,提倡创建新的机器人、新的业务时首先看内置意图是否满足业务需求,如果不满足的情况下再进行自定义。
第二块是意图话术高级配置方式 LGF,它是一种高效知识归纳的方式,它能大大减少意图话术的数量。
第三块是机器人训练,当对机器人效果要求比较高时并且可以进行一定量的数据标注,建议用模型,进一步细分成小样本模型和大样本模型。