专业智能体指导让小模型学会数学推理!微调Mistral-7B实现86.81%准确率

简介: 【5月更文挑战第13天】Orca-Math研究展示如何用小模型解决小学数学题,通过70亿参数的SLM在GSM8K基准测试上达到86.81%准确率。采用合成数据集和迭代学习技术,包括多智能体协作创建问题集及“偏好学习”优化解决方案。虽优于其他大、小模型,但可能不适用于复杂数学问题,且依赖高质量合成数据集的创建。[论文链接](https://arxiv.org/abs/2402.14830)

最近,一项名为Orca-Math的研究引起了广泛关注,该研究展示了如何使用小语言模型(SLM)解决小学数学问题。数学问题解决一直被认为是一项复杂的任务,对于SLM来说尤其具有挑战性。然而,Orca-Math通过使用一种创新的方法,成功地将一个只有70亿参数的SLM在GSM8K基准测试上的准确率提高到了86.81%,而不需要使用任何外部工具或进行多次模型调用。

Orca-Math的核心思想是使用一个高质量的合成数据集和一个迭代学习技术,使SLM能够通过练习解决问题、接收反馈并从解决方案的偏好对中学习。具体来说,Orca-Math使用了一种多智能体设置,其中智能体协作创建一个包含20万个数学问题的合成数据集。然后,使用监督微调技术对SLM进行训练,使其能够解决这些问题。

为了进一步提高SLM的准确率,Orca-Math采用了一种称为“偏好学习”的迭代学习技术。在该技术中,SLM被要求解决一系列问题,并接收关于其解决方案的反馈。然后,SLM使用这些反馈来学习解决方案的偏好对,并根据这些偏好对进行调整。通过这种方式,SLM能够逐渐提高其解决问题的能力,并最终达到很高的准确率。

Orca-Math的结果表明,即使使用相对较小的模型和数据集,也有可能实现高水平的数学问题解决能力。在GSM8K基准测试上,Orca-Math的准确率超过了其他更大的模型,如LLAMA-2-70B、WizardMath-70B和Gemini-Pro,以及更小的模型,如ChatGPT-3.5。此外,Orca-Math的训练数据集比其他模型使用的要小得多,只有几十万个问题,而其他模型则使用了数百万个问题。

然而,Orca-Math的方法也存在一些局限性。首先,尽管Orca-Math在GSM8K基准测试上取得了很高的准确率,但该方法可能不适用于更复杂的数学问题或更高级别的数学教育。其次,Orca-Math的合成数据集的质量对于模型的性能至关重要,因此创建高质量的合成数据集可能需要大量的时间和资源。

论文链接:https://arxiv.org/abs/2402.14830

目录
相关文章
|
1月前
|
前端开发 API 决策智能
多智能体微调实践:α-UMi 开源
近年来,为了加强大型语言模型(Large-Language Models, LLM)实时信息处理、解决专业问题的能力,催生了工具调用智能体(Tool Integrated Agent)概念
|
6月前
|
物联网 测试技术 API
LLM 大模型学习必知必会系列(九):Agent微调最佳实践,用消费级显卡训练属于自己的Agent!
LLM 大模型学习必知必会系列(九):Agent微调最佳实践,用消费级显卡训练属于自己的Agent!
LLM 大模型学习必知必会系列(九):Agent微调最佳实践,用消费级显卡训练属于自己的Agent!
|
1月前
|
人工智能 JSON 自然语言处理
开源模型+Orchestrating Agents多智能体框架,易用、强大且可控
本文采用开源Qwen2.5-14B-instruct-GGUF来体验多智能体编排和交接,希望在体验多智能体编排和交接框架的同时,一起评估中小参数规模的模型(14B)能否较好的完成多智能体任务。
|
2月前
|
人工智能 算法 自动驾驶
用AI自动设计智能体,数学提分25.9%,远超手工设计
【9月更文挑战第18天】《智能体自动设计(ADAS)》是由不列颠哥伦比亚大学等机构的研究者们发布的一篇关于自动化设计智能体系统的最新论文。研究中提出了一种创新算法——“Meta Agent Search”,此算法通过迭代生成并优化智能体设计,从而实现更高效的智能体系统构建。实验表明,相比人工设计的智能体,Meta Agent Search生成的智能体在多个领域均有显著的性能提升。然而,该方法也面临着实际应用中的有效性与鲁棒性等挑战。论文详细内容及实验结果可于以下链接查阅:https://arxiv.org/pdf/2408.08435。
90 12
|
2月前
|
人工智能 搜索推荐
开闭源模型大乱斗:看看哪个智能体最能窥见人类真实意图
【9月更文挑战第3天】在人工智能领域,理解并执行用户意图是一大挑战。现有模型常因用户模糊指令而难以捕捉真实需求。为此,研究人员提出了“Intention-in-Interaction”(IN3)基准,通过显式查询检验隐式意图,引入Mistral-Interact模型评估任务模糊性、询问并细化用户意图,最终执行任务。该方法显著提升了智能体的理解和执行能力,但依然面临评估主观性、用户信息提供不足及复杂任务处理等挑战。论文详情见:https://arxiv.org/abs/2402.09205
42 2
|
4月前
|
人工智能 API 决策智能
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
【7月更文挑战第8天】智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
1556 9
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
|
3月前
|
机器学习/深度学习 人工智能 PyTorch
AI智能体研发之路-模型篇(五):pytorch vs tensorflow框架DNN网络结构源码级对比
AI智能体研发之路-模型篇(五):pytorch vs tensorflow框架DNN网络结构源码级对比
76 1
|
3月前
|
人工智能 安全 搜索推荐
AI智能体研发之路-模型篇(三):中文大模型开、闭源之争
AI智能体研发之路-模型篇(三):中文大模型开、闭源之争
77 1
|
4月前
|
存储 人工智能 前端开发
基于LLM大模型Agent的适用范围和困境
基于LLM大模型Agent的适用范围和困境
142 8
|
3月前
|
机器学习/深度学习 人工智能 缓存
AI智能体研发之路-模型篇(二):DeepSeek-V2-Chat 训练与推理实战
AI智能体研发之路-模型篇(二):DeepSeek-V2-Chat 训练与推理实战
515 0
下一篇
无影云桌面