解决通用LLM「偏科」问题,数学大模型MathGPT要来了!

简介: 解决通用LLM「偏科」问题,数学大模型MathGPT要来了!


作者:蛋酱

数学大模型 MathGPT,专治大语言模型的「偏科」问题。


不做通用 LLM,不基于现有 LLM 做微调和接口调用,学而思自研的数学大模型 MathGPT 要来了。


这对于全世界的数学爱好者来说,都是个值得关注的好消息。


MathGPT 是面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心的大模型。据了解,学而思已将 MathGPT 定位为公司核心项目,由 CTO 田密负责,今年春节前,研发正在进行中,该项目已经启动相应的团队建设、数据、算力准备和技术研发。


进度方面,团队目前已经取得阶段性成果,今年内将推出基于该自研大模型的产品级应用。


此外,学而思已经启动在美国硅谷的团队建设,将成立一支海外算法和工程团队,在全球范围内招募优秀的人工智能专家加入。


大语言模型「偏科」,怎么解?


打造 MathGPT,可以比作「一项绕开大语言模型(LLM)能力短板的工程」。


OpenAI 在今年三月份发布了大语言模型 GPT-4,国内百度、阿里也发布了各自的大模型产品,这些大语言模型在语言翻译、摘要、理解和生成等任务上有出色表现。

但通用语言模型看上去更像一个「文科生」,目前已有的产品在数学问题的解决、讲解、问答和推荐方面还存在明显不足,即使是最先进的大语言模型也难以正确地回答大量数学问题。


一个非常生动的例子是,在 ChatGPT 刚发布之后的测试中,它被问到一个经典「鸡兔同笼」问题(如下图)。ChatGPT 写出的解题过程看上去非常有条理,但仔细一看 —— 答案却是错的?


有点「一本正经胡说八道」的意思。


计算机显然比人类更擅长具体的数学计算,但远没有透彻掌握「推理」这件事。在 AI 语言模型的「脑回路」中,复杂的数学方程式可能被视为了一种语言,而解决方案更像是「翻译问题」。


但「推理问题」恰恰需要许多其他类型问题不涉及的鲁棒性和严谨性。即使过程中的某一步出了一点差错,最终整个答案都将是错误的。尽管模型在更大的数据样本上训练之后往往会变得更加鲁棒并减少错误,但在推理这件事上,模型规模的扩展似乎不那么奏效。


而且,对于有些数学问题,虽然模型能够解决,但方法更偏成年人,无法针对适龄孩子的知识结构和认知水平做适配。


这让研究人员们意识到,训练语言模型解决数学问题和阐述思路似乎需要更有针对性的「定向训练」方法。


「这种不足是由 LLM 模型的自身特点决定的。」学而思 AI 团队负责人介绍,LLM 大模型来自对海量语言文本的训练,因此最擅长语言处理。行业内偏向基于 LLM 大模型做阅读、写作类应用,但如果想要在数学能力上有突破,就需要研发新的大模型。


正因此,学而思决心组建团队专研 MathGPT—— 数学领域大模型,用自己在数学和 AI 上的多年积累,面向全球范围内的数学爱好者和科研机构,做好 AI 大模型时代的数学基础工作。


总体来说,学而思希望通过 MathGPT 弥补和攻克大语言模型的三个问题:


  • 第一,题目要解对,现在 GPT 结果经常出现错误;
  • 第二,解题步骤要稳定、清晰,现在 GPT 的解题步骤每次都不一样,而且生成内容经常很冗余;
  • 第三,解题要讲的有趣、个性化,现在 GPT 的解释过于「学术」和机械,对孩子的学习体验很不友好。


学而思 AI 团队表示,由于大语言模型的推理与计算能力有限,因此 MathGPT 需要结合大语言模型和计算引擎两者的能力,大语言模型需要理解题目、分步解析,并在合适的步骤自行调用计算引擎。


做 MathGPT,学而思有哪些技术储备?


当然,自研数学大模型不能只是一句口号,算法、算力、数据的技术储备缺一不可。对此,学而思也有自身的底气。


「以数学起家」,学而思至今已有 20 年的数学教学经验,积累了庞大的数学相关数据,这些数据为训练 MathGPT 提供了丰富的物料。另外,学而思的海外业务 Think Academy 在全球若干国家和地区深受数学爱好者喜欢,学而思的学生在每年的 IMO 和 AMC 等国际数学竞赛中表现优异,每年都有多位学生在国际奥林匹克数学竞赛中拿到金牌。


作为获国家科技部批准的「智慧教育国家新一代人工智能开放创新平台」建设单位,也是教育行业首批唯一一家人工智能「国家队」成员,学而思在人工智能领域有着多年的深入研究。早在 2017 年,学而思便成立了 AI lab 人工智能实验室。


这些年,在海内外的多个顶级学术会议赛事中,人们都能看到学而思 AI lab 的活跃身影。基于智慧教育人工智能开放创新平台助力,学而思 AI lab 目前已获得各类顶级学术会议比赛冠军 16 项,亚军 6 项。


学而思 AI lab 在各类顶级学术会议比赛获奖情况。


在研究成果上,学而思 AI lab 在计算机视觉顶会以及自然语言顶会中均有多篇论文发表,共有国际期刊和会议高水平学术论文 31 篇,包含光学字符识别、图像、自然语言处理、语音以及多模态等多领域的学术研究。此外已申请专利 220 余项,授权专利 150 余项,软件著作权 60 余项。


「在 ChatGPT 出来之前,我们一直有团队在做自动解题这件事,几年下来已有一些积累,例如已经可以解大多数的计算题和部分应用题了。」在大语言模型火热以后,学而思 AI 团队发现,可以利用大模型提升对常识和题目文本的泛化理解能力。大模型的思维链可以增强对题目的分步推导和互动解答能力,再加上大模型和计算引擎的结合,解题的准确率和召回率可能会有较大提升。


这些技术成果的沉淀,我们也能在学而思已有的落地产品中窥见一二。


今年 2 月,「学而思学习机」上线了基于好未来自研 AI 技术的 AI 讲题机器人「小 π」。小 π 相关技术在 2020 年启动研发,以学而思超 3 亿的专业题库数据作为基础,主打数学等领域的 AI 智能讲题能力,核心优势在于数理逻辑和运算。


面对一道手写或者印刷的数学计算题时,小 π 不仅会对题目进行智能 AI 拆解分析,还能生成逻辑流畅、表达清晰的语言,将题目的解题方法讲解出来。有时,小 π 还会传授一些分数、小数等复杂计算甚至「凑数、组合」的巧妙算法。


在 ChatGPT 相关技术的启发下,学而思希望进一步实现学习机等产品的升级迭代,预期将在题目覆盖率、人机互动性、题目讲解生动性等方面实现大幅提升。比如,学而思学习机还将在不久后上线「AI 助手」。「AI 助手」涵盖作文助手、口语助手、阅读助手、数学助手等相关功能,计划于 5 月 11 日开启内测。


不止于「解题」的探索之路


如何利用大语言模型服务各行各业是当下社会的焦点问题。很多行业都可以直接与 OpenAI 合作,在 GPT 大模型上做微调和接口调用,增强原有的产品体验。


但像数学、医学等领域,对 AI 的需求是准确、清晰、具备强大的逻辑推理能力,且容错率低,通用 LLM 目前的性能表现还无法在上述领域取得突破。


具体到数学领域,目前市场上存在几个主要流派:


一种是利用非 LLM 的传统 AI 技术加上数据库的方式解决数学问题,比如 Google 收购的 Photomath、微软数学、Mathway、专注数学计算的 WolframAlpha 等产品。

还有一种是 AGI 路线,即尝试让通用 LLM「更懂数学」,比如谷歌旗下的 Minerva 模型专门针对数学问题进行调优。此前,用户测试发现 GPT-4 在数学任务上相比其 3.5 版本有了明显的性能提升。尽管这种变化让人一度雀跃,但本质上只是模型接受了更多数据的训练 ——GPT-4 仍然不能保证计算结果的准确或给出清晰易懂的推理过程。


值得注意的是,学而思选择了另一条少有人走的路:不基于现有 LLM 做微调和接口调用、不做通用 LLM,而是自研基于专业领域的「数学大模型」MathGPT,致力于打造自主、稳定、可持续、高质量的学习解决方案。


在大语言模型不断进化的浪潮下,不同流派的技术路线选择孰优孰劣,仍有待讨论和验证。MathGPT 的表现如何,也将成为今年内人们非常关注的大事件之一。


至于未来应用,不难想象,MathGPT 最直接的落地方式之一就是成为 24 小时在线的「AI 教师」。学而思表示,初代版本的 MathGPT 将可以在教研助手、个性化学情分析、课后答疑、组卷助手等几个方面,辅助人类教师工作。从技术和产品的设计上,MathGPT 也会考虑到用户使用场景,通过有监督微调和强化学习的方式,不断改进性能,迭代版本。


再看长远一点,数学是很多应用问题的基础,也是众多科学问题的基础。如果一个大模型擅长于解决数学问题,那么它就有潜力去解决许多其他有用的问题,比如模拟行星轨道、原子运动、信号频率、蛋白质折叠等。


这些未来的探索,既取决于即将到来的 MathGPT,也和一方应用的进化、成熟度相关,更取决于各行各业的开发者如何运用好 MathGPT。


相关文章
|
4月前
|
数据采集 自然语言处理 供应链
LLM安全新威胁:为什么几百个毒样本就能破坏整个模型
数据投毒通过在训练数据中植入恶意样本,将后门永久嵌入大模型,仅需数百份毒样本即可触发数据泄露、越狱等行为,防御需结合溯源、聚类分析与自动化检测。
434 2
LLM安全新威胁:为什么几百个毒样本就能破坏整个模型
|
4月前
|
机器学习/深度学习 缓存 监控
139_剪枝优化:稀疏模型压缩 - 分析结构化剪枝的独特速度提升与LLM部署加速实践
随着大语言模型(LLM)规模的不断增长,模型参数量已从最初的数亿扩展到数千亿甚至万亿级别。这种规模的模型在推理过程中面临着巨大的计算和内存挑战,即使在最先进的硬件上也难以高效部署。剪枝优化作为一种有效的模型压缩技术,通过移除冗余或不重要的参数,在保持模型性能的同时显著减少计算资源需求。
|
4月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
1182 2
|
7月前
|
弹性计算 关系型数据库 API
自建Dify平台与PAI EAS LLM大模型
本文介绍了如何使用阿里云计算巢(ECS)一键部署Dify,并在PAI EAS上搭建LLM、Embedding及重排序模型,实现知识库支持的RAG应用。内容涵盖Dify初始化、PAI模型部署、API配置及RAG知识检索设置。
自建Dify平台与PAI EAS LLM大模型
|
4月前
|
机器学习/深度学习 缓存 PyTorch
131_推理加速:ONNX与TensorRT深度技术解析与LLM模型转换优化实践
在大语言模型(LLM)时代,高效的推理加速已成为部署高性能AI应用的关键挑战。随着模型规模的不断扩大(从BERT的数亿参数到GPT-4的数千亿参数),推理过程的计算成本和延迟问题日益突出。ONNX(开放神经网络交换格式)和TensorRT作为业界领先的推理优化框架,为LLM的高效部署提供了强大的技术支持。本文将深入探讨LLM推理加速的核心原理,详细讲解PyTorch模型转换为ONNX和TensorRT的完整流程,并结合2025年最新优化技术,提供可落地的代码实现与性能调优方案。
|
4月前
|
机器学习/深度学习 PyTorch 算法框架/工具
118_LLM模型量化与压缩:从理论到2025年实践技术详解
大型语言模型(LLM)在自然语言处理领域取得了前所未有的成功,但模型规模的快速增长带来了巨大的计算和存储挑战。一个典型的大型语言模型(如GPT-4或LLaMA 3)可能包含数千亿甚至万亿参数,需要数百GB甚至TB级的存储空间,并且在推理时需要大量的计算资源。这种规模使得这些模型难以在边缘设备、移动设备甚至资源有限的云服务器上部署和使用。
|
4月前
|
机器学习/深度学习 存储 缓存
115_LLM基础模型架构设计:从Transformer到稀疏注意力
大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展望未来架构发展方向。通过数学推导和实践案例,为构建高效、强大的LLM提供全面指导。
|
4月前
|
机器学习/深度学习 人工智能 算法
62_模型融合:ensemble LLM技巧
在2025年的AI生态中,大语言模型(LLM)已成为技术创新的核心引擎,但单一模型在面对复杂任务时往往表现出局限性。不同模型由于训练数据、架构设计和优化目标的差异,在各领域展现出独特优势:模型A可能擅长逻辑推理,模型B在创意写作上更出色,而模型C则在事实性问答中准确率更高。
|
4月前
|
缓存 人工智能 并行计算
59_实时性模型:选择低延迟LLM
在当今快速发展的人工智能领域,大型语言模型(LLM)的应用正迅速渗透到各个行业。随着企业对AI响应速度的要求不断提高,低延迟LLM的选择与优化已成为技术团队面临的关键挑战。实时聊天机器人、智能客服、自动驾驶辅助系统等场景对响应时间提出了极高的要求,毫秒级的延迟差异可能直接影响用户体验和业务效率。2025年,随着推理优化技术的突破性进展,低延迟LLM已不再是难以企及的目标,而是成为实际生产环境中的标准配置。

热门文章

最新文章