开源双语千亿预训练模型GLM-130B 项目原作解读

简介: 开源双语千亿预训练模型GLM-130B 项目原作解读

近年来,以 GPT-3 为代表的千亿规模稠密语言模型展现出了强大的零样本/少样本学习能力,引起了新一轮的研究热潮。然而,GPT-3 的模型参数不开源,仅以付费 API 的形式提供给海外研究者(中国地区不可用),给研究者对模型的深入研究设立了障碍。尽管目前有形如 OPT-175B 和 BLOOM-176B 这类的开源千亿模型,用户也至少需要一台 A100(80G * 8)服务器才能启动推理,大部分普通研究者仍然被挡在门槛之外,这极大的影响了预训练语言模型的普惠性(Inclusivity)。

机器之心最新一期线上分享邀请到了清华大学知识工程实验室一年级博士生、 GLM-130B 项目学生负责人之一曾奥涵,将围绕架构选择、工程实现、训练策略三个方面介绍 GLM-130B 在训练过程中遇到的种种困难以及对应的解决方案及取得的一系列工作成果。以下是 GLM-130B 的介绍:

GLM-130B 是一个开源开放的双语(中文和英文)双向稠密模型,拥有 1300 亿参数,模型架构采用通用语言模型(GLM)。它旨在支持在一台 A100(40G * 8)或 V100(32G * 8)服务器上对千亿规模参数的模型进行推理。在 INT4 量化方案下,GLM-130B 可以几乎不损失模型性能的情况下在 RTX 3090(24G * 4)或 GTX 1080 Ti(11G * 8)服务器上进行高效推理。截至 2022 年 7 月 3 日,GLM-130B 已完成 4000 亿个文本标识符(中文和英文各 2000 亿)的训练,它有以下独特优势:

双语:同时支持中文和英文。

高精度(英文): 在 LAMBADA 上优于 GPT-3 175B(+4.0%)、OPT-175B(+5.5%)和 BLOOM-176B(+13.0%),在 MMLU 上略优于 GPT-3 175B(+0.9%)。

高精度(中文):在 7 个零样本 CLUE 数据集(+24.26%)和 5 个零样本 FewCLUE 数据集(+12.75%)上明显优于 ERNIE TITAN 3.0 260B。

快速推理:支持用一台 A100 服务器使用 SAT 和 FasterTransformer 进行快速推理(提速最高可达 2.5 倍)。

低资源推理:INT4 量化方案下,支持在几乎不损失模型性能的情况下用 RTX 3090(24G * 4)或 GTX 1080 Ti(11G * 8)服务器进行高效推理

可复现性:所有结果(超过 30 个任务)均可通过开源代码和模型参数轻松复现。

跨平台:支持在 NVIDIA、海光 DCU、昇腾 910 和申威处理器上进行训练。

相关文章
|
移动开发 算法 前端开发
|
人工智能 API
【MCP教程系列】上阿里云百炼,5分钟轻松搭建会分析,能推理,还会自动写文档的Agent
本教程介绍如何在阿里云百炼平台上,用5分钟快速搭建一个能分析、推理并自动写文档的智能体(Agent)。通过零代码方式,结合Flomo MCP应用实现AI分析与自动归档功能。主要步骤包括:开通Flomo服务、获取API KEY、创建智能体并添加MCP服务。完成后,Agent可自动提取关键内容并归档至Flomo。附有详细操作视频和效果演示,新手友好,简单易上手。
1593 0
|
7月前
|
人工智能 前端开发 测试技术
如何让AI帮你做前端自动化测试?我们这样落地了
本文介绍了一个基于AI的UI自动化测试框架在专有云质量保障中的工程化实践。
2938 22
如何让AI帮你做前端自动化测试?我们这样落地了
|
11月前
|
SQL 人工智能 算法
TDengine 发布时序数据分析 AI 智能体 TDgpt,核心代码开源
2025 年 3 月 26 日,涛思数据通过线上直播形式正式发布了其新一代时序数据分析 AI 智能体——TDgpt,并同步开源其核心代码(GitHub 地址:https://github.com/taosdata/TDengine)。这一创新功能作为 TDengine 3.3.6.0 的重要组成部分,标志着时序数据库在原生集成 AI 能力方面迈出了关键一步。
707 0
|
10月前
|
JavaScript 前端开发 Go
Wasm Client SDK 架构介绍
Wasm Client SDK 架构介绍
409 13
|
11月前
|
机器学习/深度学习 数据格式
R1-Omni开源!多模态模型+RLVR,让各模态作用清晰可见
随着 DeepSeek R1 的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward (RLVR) 方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体检测任务,RLVR 都展现出了显著优于传统监督微调(SFT)的效果。
770 12
|
12月前
|
人工智能 小程序 API
销售易NeoCRM与纷享销客:功能、体验与价格全解析
销售易NeoCRM和纷享销客是国内知名的CRM解决方案,各有特色。销售易功能全面,涵盖销售、客户、营销管理及AI赋能,适合中大型企业;纷享销客则以强大的连接能力和业务协同见长,用户体验佳,性价比高,更适合中小企业。两者在价格、用户体验和适用场景上有所差异,企业应根据自身需求选择合适的CRM系统。
|
计算机视觉 Python
python利用pyqt5和opencv打开电脑摄像头并进行拍照
本项目使用Python的PyQt5和OpenCV库实现了一个简单的摄像头应用。用户可以通过界面按钮打开或关闭摄像头,并实时预览视频流。点击“拍照”按钮可以捕捉当前画面并保存为图片文件。该应用适用于简单的图像采集和处理任务。
919 0
python利用pyqt5和opencv打开电脑摄像头并进行拍照
WK
|
机器学习/深度学习 算法
什么是Sigmoid函数
Sigmoid函数是在机器学习及统计学中广泛应用的一种数学模型,尤其适用于逻辑回归与神经网络中的激活场景。该函数能将任意实数映射至(0,1)区间,象征概率或事件发生可能性。其S型曲线特性使其在二分类问题中表现出色,同时具备连续平滑与中心对称的特点,利于采用如梯度下降等优化算法。然而,Sigmoid函数在极端输入值下会出现梯度消失的问题,影响模型训练效果。尽管有此局限性,它在特定应用场景中依然重要,例如需要输出概率值的情况。
WK
1581 0
|
机器学习/深度学习 人工智能 搜索推荐
AI在医疗诊断中的应用与未来发展趋势分析
【10月更文挑战第9天】 本文深入探讨了人工智能(AI)在医疗诊断领域的现状及其应用,包括影像识别、临床数据处理及个性化治疗方案的制定。通过具体案例分析,展示了AI技术如何提高诊断准确性、缩短诊断时间,并减轻医生的工作负担。同时,本文还讨论了AI在医疗诊断中面临的伦理问题和法律障碍,以及解决这些问题的可能途径。最后,对AI在未来医疗行业中的发展潜力进行了展望,指出其在提升医疗服务质量和效率方面的巨大潜力。
1221 2

热门文章

最新文章