多轮问答|学习笔记

简介: 快速学习多轮问答

开发者学堂课程【阿里小蜜中的开放语聊技术:多轮问答】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/44/detail/974


多轮问答


基于关键词识别

现在介绍最后一部分的内容,多轮问答。这里的多轮问答并不是利用模型直接给出答案的结果,而是利用问题重写的方式,结合用户的历史问题以及当前的问题,整体的看用户到底表达什么意思,再根据多轮问题重写的结果,利用文本匹配模型,做单轮的文本匹配,从知识库中得到合理回复。

所以重点在问题重写的这一部分,设计出基于关键词识别和问题重写多任务学习的训练方式。

image.png

看一下训练方式的简图,左下角是对用户历史问题做语义表示的部分。可以采用不同神经网络的结构进行,例如 RNN 或双向的 STM 等。在此语义表示的基础上做关键词识别的词语分类,识别用户问题中哪些词语是比较重要的用词,可以使用常用的分类模型,例如 CNN ,或是利用序列标注模型进行关键词与非关键词的分别标注。

然后使用用户历史问题的语义表示以及关键词抽取结果的关键词,语义信息作为整体的语音输入,用于生成问题改写的结果,也就是考虑了用户当前的问题,以及上文的历史问题,综合来看用户真正问题是什么。实际上是有两个过程,一个是关键词识别,另一个是问题改写。这里将两个任务放在一起做多任务学习的方式进行,希望利用这种方法得到效果比较好的模型结果。

这里和其他常见的问题重写模型做了简单的效果对比。针对问题改写的常见模型,最常规的 six to sequence ,以及 A4L2016 的一篇文章中有人提出 copy night 模型。

设计了一种词语的 copy 机制,把词语从原来的句子中保留下来,这种靠替代的方法最开始是用来做文本摘要,也可以属于一种文本重写的模型,主要和这两种模型做了效果对比。另外自己的模型也尝试了将关键词识别和问题重写这两个任务进行分别训练的方式。最后为了实验结果验证,提出的关键词识别和问题重写相结合的方法比 six to sequence 和 copy night 的两种模型效果都要好。

关键词识别和问题重写进行多任务学习的方式效果,也是比两个任务单独进行的方式效果好。

相关文章
|
人工智能 算法 Java
AI:互联网程序设计竞赛之蓝桥杯大赛的简介、奖项设置、大赛内容以及蓝桥杯与ACM(ICPC)的四个维度对比之详细攻略
AI:互联网程序设计竞赛之蓝桥杯大赛的简介、奖项设置、大赛内容以及蓝桥杯与ACM(ICPC)的四个维度对比之详细攻略
AI:互联网程序设计竞赛之蓝桥杯大赛的简介、奖项设置、大赛内容以及蓝桥杯与ACM(ICPC)的四个维度对比之详细攻略
|
5月前
|
人工智能 JSON 开发工具
解决提示词痛点:用AI智能体自动检测矛盾、优化格式的完整方案
本文介绍了一种基于用户意图的提示词优化系统,利用多智能体架构实现自动化优化,提升少样本学习场景下的提示词质量与模型匹配度。系统通过专用智能体协同工作,识别并修复逻辑矛盾、格式不清及示例不一致等问题,结合Pydantic结构化数据模型与OpenAI评估框架,实现高效、可扩展的提示词优化流程。该方案显著减少了人工干预,增强了系统效率与输出一致性,适用于复杂研究任务与深度AI应用。
648 0
解决提示词痛点:用AI智能体自动检测矛盾、优化格式的完整方案
|
机器学习/深度学习 自然语言处理 达摩院
长文本口语语义理解技术系列①:段落分割实践
数智化浪潮下,越来越多的企业开始将现代信息网络作为数据资源的主要载体,并通过网络通信技术进行数据传输;网络作为主要的信息交流和分享的方式,海量不同源的网络信息,使得企业与个人消化信息的成本越来越高。音视频数据作为其中重要的信息来源之一,也随着远程视频会议、在线课堂、直播教学、电话销售等领域有了爆炸性的增长。
3783 0
长文本口语语义理解技术系列①:段落分割实践
|
8月前
|
存储 弹性计算 测试技术
10分钟私有部署QwQ-32B模型,像购买Ecs实例一样快捷
虽然阿里云提供了基于 IaaS 部署 QwQ-32B 模型的方式,但传统的基于IaaS的部署方式需要用户自行配置环境、安装依赖、优化硬件资源,并解决复杂的网络与存储问题,整个流程不仅耗时耗力,还容易因操作失误导致各种不可预见的问题。 因此,阿里云计算巢提供了基于ECS镜像与VLLM的大模型一键部署方案,通过ECS镜像打包标准环境,通过Ros模版实现云资源与大模型的一键部署,用户无需关心模型部署运行的标准环境与底层云资源编排,10分钟即可部署使用QwQ-32B模型,15分钟即可部署使用Deepseek-R1-70B模型。
|
自然语言处理 开发者
通用文本向量模型全新升级至V3,开通百炼速来体验~~
阿里云新推出通用文本向量模型text-embedding-v3,基于LLM,支持50+语言,包括新增的意大利语等。模型升级亮点:8K长文本支持、可变向量维度、Sparse向量及不分Query/Document类型。现在提供50万免费tokens,有效期180天,计费0.0007元/1000 tokens。体验请访问[阿里云百炼官网](https://bailian.console.aliyun.com/?spm=a2c6h.13046898.publish-article.6.63066ffaL32qHM)
6564 0
|
机器学习/深度学习 人工智能
大模型合成数据机理分析,人大刘勇团队:信息增益影响泛化能力
中国人民大学刘勇团队研究了合成数据对大型语言模型泛化能力的影响,提出逆瓶颈视角,通过“通过互信息的泛化增益”(GGMI)概念,揭示了后训练模型的泛化能力主要取决于从生成模型中获得的信息增益。这一发现为优化合成数据生成和后训练过程提供了重要理论依据。
369 1
|
机器学习/深度学习 算法 安全
【博士每天一篇文献-综述】2024机器遗忘最新综述之一:An overview of machine unlearning
本文提供了机器遗忘的全面定义、问题方程、精确与近似遗忘的概念,并分类总结了机器遗忘方法,讨论了其在联邦学习和终身学习中的应用,提出了未来研究方向,为机器遗忘研究领域奠定了理论基础并指出了实际应用的潜力与挑战。
1029 5
【博士每天一篇文献-综述】2024机器遗忘最新综述之一:An overview of machine unlearning
|
人工智能 算法 数据可视化
DBSCAN密度聚类算法(理论+图解+python代码)
DBSCAN密度聚类算法(理论+图解+python代码)
6443 1
|
机器学习/深度学习 自然语言处理 算法
[大语言模型-工程实践] 手把手教你-基于BERT模型提取商品标题关键词及优化改进
[大语言模型-工程实践] 手把手教你-基于BERT模型提取商品标题关键词及优化改进