课时3 :高级能力和算法效果优化(三)|学习笔记

简介: 快速学习课时3 :高级能力和算法效果优化

开发者学堂课程【3节课走进云小蜜产品:课时3 :高级能力和算法效果优化】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/298/detail/3497


课时3 :高级能力和算法效果优化(三)


四、机器人训练流程

机器人训练流程如下:

image.png

机器人训练包括两条链路,第一条链路是用户标注部分少量数据,依赖于平台预制的小样本学习识别模型,进行话术的理解泛化。能够快速生效,标注完成,发布到机器人就能够即刻生效。另外一种,当标注数据量较大,较为充分时,就可以进行深度训练的链路。用户可以自己在平台上进行模型的创建、训练、评测。评测完成之后对结果进行分析,如果发现模型效果优于旧版模型,还可以进行模型的部署更新。第二条链路对数据量有较大要求,要求意图要达到100条左右,效果更有保障,要交付的项目都会进行该链路,通过标注大量数据,将模型效果做到90%以上。机器人训练当中最重要的阶段是数据筛选标注。筛选标注流程,形成完整闭环:

image.png

会充分利用线上真实的数据,进行智能机器人的训练和评测,使得优化的效果更加真实可靠,并且在数据处理链路当中加上许多自动化数据处理、摘要等辅助手段,减少用户的标注成本,并且使机器人的效果得到保障。用户做了更少的动作,得到更好的效果,整个操作链路是线上化一体操作,没有线下流程,可以充分保障数据的安全以及数据的准确性。演示数据筛选标注的流程:

进入到具体机器人当中,有机器人训练,点击新建任务,存在两种不同类型,一种是意图拓展,一种是云小蜜:

image.png

意图拓展主要用于多轮对话机器人当中的意图话术拓展,云小蜜正向循环主要用于feq 问答机器人当中的知识点标注。相当于意图拓展进行意图的标注,正向循环进行知识点的标注。首先,可以进行数据类型的筛选,筛选包括是否有答案或低于某个域值,如果最终系统给出结果时,发现置信度较低,不能确定是否准确,就能将其推荐出来,进行再一次标注,除此之外还能够进行时间范围的筛选:

image.png

例如起始是8月1日,结束是8月13日,点击确定之后就会自动在日志当中将该时间段的日志取出,取出之后会自动进行预处理,包括相似度计算,意图以及知识点的推荐等。以下是已经创建好的任务:

image.png

正向循环是知识点的标注,意图拓展是意图的标注。点击之后,预处理、相似度计算、摘要平台会自动化进行操作。当日志取出之后,在此处用户可以直接进行标注:

image.png

可以进行选择,也可以进行行行创建。创建完成知识点,可以将问题对应标注。标注完成之后就会显示已标注:

image.png

标注完成之后,点击下一步,自动将对应的话术发布到机器人知识库当中。相当于是fq 问答机器人的知识点标注。意图话术拓展标注流程较为简单。推荐完成之后,就会将意图推荐,用户只需要标注是否属于该意图。如果通过就证明属于该意图,如果不通过就证明不属于该意图。标注完成之后,就会有下一步操作,没有全部标注完成,也可以发布到机器人当中。点击确定就能够发布到机器人就会生效。标完之后会进入到回流和完结的状态。话术就进行到机器人上了,以上就完成了简单的话术标注以及快速生效流程。

image.png

完成了数据筛选标注之后,剩下的流程就是要将数据送进模型当中。目前会根据标注回流样本的数量,采取两种不同的方案,如果标注回流样本较少,不足10条,无法使用监督模型的,但同时为了保持较好的话术泛化能力,设计开发了小样本识别模型。方案是利用平台积累的万级对话数据,借助小样本学习训练的行业意图,识别原模型。对于每个机器人,当收到三线请求时,原模型会利用机器人配置话术进行适配,得到新的机器人模型,能够对每个机器人进行快速生效,该方法能够对几条意图话术进行学习归纳,归纳出该意图所表达的语义信息。用户 corry 不仅与配置话术进行匹配,而且能够与整个意图所表达的语义信息进行匹配,学习完成的效果会更加精准。学习意图的整体的语音信息,采用了胶囊网络的方法,该工作在 emp 2019上发表,为了解决这个 Few short Learning 当中存在的遗忘问题引用了 memory 机制,该工作在 AC2020 进行了发表。由此得出该工作在小样本学习领域处于非常前沿的水平。

实际业务落地当中构建了通用金融政务行业的 few shot learning 意图识别模型。目前构造的模型比业界常用的方法提升了十个以上的点,提升较为明显。

image.png

对于要交付上线的项目,一般要求单轮意图理解的准确率做到90%以上,需要标注大量的训练样本,训练深度学习模型才能够保障业务效果,实际将模型训练发布流程在线化了,包括如下几步,第1步就是测试级的构建,第2步是训练级的收集管理,第3步是模型训练的测试,第4步是模型评测结果的分析,评测结果分析如果效果达到要求,就会模型发布,如果没有达到要求,要做模型效果的优化,模型效果优化也存在一些辅助功能,例如重度检测。离群样本的提示。在链路基础之上可以较好保证业务效果,但是存在一个美中不足,需要标注大量数据。为了让数据量减少,引入了迁移学习的方法,将模型分为三层,第一层是 Struct burt 的中文育训练员模型,该模型相较于谷歌目前发布的谷歌 burt 有一个点左右的提升。在通用模型基础之上,训练的行业模型通过抓取沉淀了千万级行业句子文档,训练 Struct burt 行业原模型。目前在下游的意图识别和知识点匹配任务上,有较明显的效果提升,企业模型层面,利用企业标注数据,在行业模型上进行反停与训练,会有50%的样板量节省,目前私有云已经支持了上述的完整模型训练评测发布链路,公有云目前也计划支持。

image.png

五、总结

本课程主要介绍了三部分内容。第一部分是系统内置的意图和实体,系统内置了大量的意图和实体,使用内置的意图和实体,有效果保障的,成本非常低,因此提倡用户创建新机器人,有新业务时,首先查看内置意图当中是否满足业务需求,在不满足的情况下再进行自定义。第二部分是意图话术的高级配置方式 LGF,LGF 是高效的知识归纳方式,能够大大减少花费的配置数量。第三部分是机器人训练部分,当用户对机器人效果要求较高的情况下,并且可以进行一定量的数据标注,此时建议上模型,模型进一步细分为小样本模型和大样本模型。

相关实践学习
阿里巴巴智能语音交互技术与应用
智能语音交互,是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等。 本课程主要讲解智能语音相关技术,包括语音识别、人机交互、语音合成等。  
相关文章
|
17天前
|
机器学习/深度学习 算法
基于改进遗传优化的BP神经网络金融序列预测算法matlab仿真
本项目基于改进遗传优化的BP神经网络进行金融序列预测,使用MATLAB2022A实现。通过对比BP神经网络、遗传优化BP神经网络及改进遗传优化BP神经网络,展示了三者的误差和预测曲线差异。核心程序结合遗传算法(GA)与BP神经网络,利用GA优化BP网络的初始权重和阈值,提高预测精度。GA通过选择、交叉、变异操作迭代优化,防止局部收敛,增强模型对金融市场复杂性和不确定性的适应能力。
152 80
|
5天前
|
机器学习/深度学习 数据采集 算法
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
本项目基于MATLAB2022a实现时间序列预测,采用CNN-GRU-SAM网络结构。卷积层提取局部特征,GRU层处理长期依赖,自注意力机制捕捉全局特征。完整代码含中文注释和操作视频,运行效果无水印展示。算法通过数据归一化、种群初始化、适应度计算、个体更新等步骤优化网络参数,最终输出预测结果。适用于金融市场、气象预报等领域。
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
|
7天前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
90 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
3天前
|
移动开发 算法 计算机视觉
基于分块贝叶斯非局部均值优化(OBNLM)的图像去噪算法matlab仿真
本项目基于分块贝叶斯非局部均值优化(OBNLM)算法实现图像去噪,使用MATLAB2022A进行仿真。通过调整块大小和窗口大小等参数,研究其对去噪效果的影响。OBNLM结合了经典NLM算法与贝叶斯统计理论,利用块匹配和概率模型优化相似块的加权融合,提高去噪效率和保真度。实验展示了不同参数设置下的去噪结果,验证了算法的有效性。
|
2天前
|
算法 决策智能
基于SA模拟退火优化算法的TSP问题求解matlab仿真,并对比ACO蚁群优化算法
本项目基于MATLAB2022A,使用模拟退火(SA)和蚁群优化(ACO)算法求解旅行商问题(TSP),对比两者的仿真时间、收敛曲线及最短路径长度。SA源于金属退火过程,允许暂时接受较差解以跳出局部最优;ACO模仿蚂蚁信息素机制,通过正反馈发现最优路径。结果显示SA全局探索能力强,ACO在路径优化类问题中表现优异。
|
10天前
|
机器学习/深度学习 算法
基于遗传优化的双BP神经网络金融序列预测算法matlab仿真
本项目基于遗传优化的双BP神经网络实现金融序列预测,使用MATLAB2022A进行仿真。算法通过两个初始学习率不同的BP神经网络(e1, e2)协同工作,结合遗传算法优化,提高预测精度。实验展示了三个算法的误差对比结果,验证了该方法的有效性。
|
13天前
|
机器学习/深度学习 数据采集 算法
基于PSO粒子群优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
本项目展示了基于PSO优化的CNN-GRU-SAM网络在时间序列预测中的应用。算法通过卷积层、GRU层、自注意力机制层提取特征,结合粒子群优化提升预测准确性。完整程序运行效果无水印,提供Matlab2022a版本代码,含详细中文注释和操作视频。适用于金融市场、气象预报等领域,有效处理非线性数据,提高预测稳定性和效率。
|
14天前
|
机器学习/深度学习 算法 索引
单目标问题的烟花优化算法求解matlab仿真,对比PSO和GA
本项目使用FW烟花优化算法求解单目标问题,并在MATLAB2022A中实现仿真,对比PSO和GA的性能。核心代码展示了适应度计算、火花生成及位置约束等关键步骤。最终通过收敛曲线对比三种算法的优化效果。烟花优化算法模拟烟花爆炸过程,探索搜索空间,寻找全局最优解,适用于复杂非线性问题。PSO和GA则分别适合快速收敛和大解空间的问题。参数调整和算法特性分析显示了各自的优势与局限。
|
7天前
|
传感器 算法
基于GA遗传优化的WSN网络最优节点部署算法matlab仿真
本项目基于遗传算法(GA)优化无线传感器网络(WSN)的节点部署,旨在通过最少的节点数量实现最大覆盖。使用MATLAB2022A进行仿真,展示了不同初始节点数量(15、25、40)下的优化结果。核心程序实现了最佳解获取、节点部署绘制及适应度变化曲线展示。遗传算法通过初始化、选择、交叉和变异步骤,逐步优化节点位置配置,最终达到最优覆盖率。
|
7天前
|
算法
基于RRT优化算法的机械臂路径规划和避障matlab仿真
本课题基于RRT优化算法实现机械臂路径规划与避障。通过MATLAB2022a进行仿真,先利用RRT算法计算避障路径,再将路径平滑处理,并转换为机械臂的关节角度序列,确保机械臂在复杂环境中无碰撞移动。系统原理包括随机生成树结构探索空间、直线扩展与障碍物检测等步骤,最终实现高效路径规划。