魔搭中文开源模型社区:模型即服务-GLM-130B:让每个人都能用上千亿模型(上)

简介: 魔搭中文开源模型社区:模型即服务


 

作者:唐杰清华大学计算机系知识工程实验室KEG

 

一、 大模型的发展与瓶颈

 

image.png

 

目前,大模型的发展如火如荼。在深度学习阶段,Al研发成本较高且效率偏低,阻碍了中小企业采用AI技术的意愿,成为Al普惠的障碍。大家需要大规模的标注数据,数据量少、样本较小成为瓶颈。除此之外,模型的调参、调优的手动工作太多,需要大量的Al专业人员来完成。

 

在大模型时代,中小企业不再需要招聘很多AI算法专业人员,可显著降低研发门槛,降低成本。中小企业只需要筒单配置,即可调用大模型的API,获得模型能力,不需要大量Al专业人员。大家只需要利用少量数据进行微调或不微调,即可快速适配应用需求。

 

image.png

 

目前,大模型预训练已经有很多相关模型。如上图所示,达摩院、华为、清华大学、谷歌、百度等,均已推出了自己的大模型。

 

 

在充分训练的情况下,规模越大性能越好是学界的共识。Google的最新研究指出,随着模型规模扩展到千亿规模,模型的少样本/零样本能力会发生质的变化。

 

image.png

 

训练开源开放的高精度千亿中英双语稠密模型,对大模型研究有重大意义。如上图所示,当参数量增大时,它的QA能力、推理能力等等,都逐渐显现出来。

 

image.png

 

上图是一个租房买房的网站,Adapt是一个应用。用户只需要对Adapt说一句话,AI会自动理解用户需要什么。然后在网站上自动搜索,整个流程完全自动化。

 

image.png

 

在上图的Excel文件中,用户只需输入一句自然语言,系统就会自动计算并添加Profit和Profit Margin。

 

image.png

 

接下来,讲一讲模型问答。如上图所示,当用户提问:“夏天穿棉袄会怎么样?”计算机会说:“很热”。当用户提问:“一斤西瓜十块钱,五斤西瓜多少钱呢?”千亿模就会直接输出“5×10=50元”。由此可见,大模型在千亿量级时,会做很多复杂的推理。

 

image.png

 

清华大学训练的GLM-130B同时支持中文和英文。在英文的语言建模和少样本语言理解任务上,其表现基本和GPT-3持平,切优于目前开源的OPT和BLOOM。

 

在中文上的CLUE和FewCLUE数据集上,零样本能力明显优于具有2600亿参数的ERINE Titan 3.0。

 

除此之外,清华大学适配了英伟达的Faster Transformer推理库,相比于常用的Megatron框架,可以在一台A100上实现最高2.5倍的推理加速性能。

 

image.png

 

如上图所示,国产超算的悟道,拥有1.75万亿参数模型。能够适配国产超算的深度学习平台八卦炉和FastMoE,通过系统算法协同设计,具备全机训练百万亿模型的能力。

 

通过智源、清华、国家并行中心、阿里达摩院、青岛海洋科学与技术试点国家实验室五方合作,成功摆脱了对国外企业的硬软件依赖,实现自主可控。

 

image.png

 

然而,训练并开源一个千亿规模的稠密语言模型面临重重挑战。首先,模型本身训练成本及其高昂,据悉,OpenAI训练GPT-3使用了上万块V100,机时费用460万美元,总成本据悉1200万美元;很少有机构能赞助这一比费用

 

其次,数千亿规模模型训练的过程会变得非常不稳定(这一点已经被目前的BLOOM、OPT证实过了),GPT-3这类千亿模型很少公布训练过程和细节,如何成功训练一个高质量的千亿模型也是个难点。

 

最后,千亿模型本身因为参数量巨大,推理的硬件门槛比较高,如GPT3至少需要一台DGX-A100才能推理,大部分用户都被挡在门槛外。

 

二、 GLM-130B大模型详解

 

image.png

 

针对上述挑战,清华大学从去年12月份开始的8个月时间里从零开始解决了无数的难题。

 

在工程方面,如何不同架构集群上高效训练千亿模型是极大的挑战。科研人员前后辗转了海光、昇腾、神威和英伟达在内的多个集群,经过了大量底层的调试工作解决了种种困难才让千亿模型在这些集群上高效训练。

 

在算法方面,千亿模型的混合精度训练本身是非常不稳定的,稍有不慎就可能导致不收敛,而且如此大的模型启动训练需要的资源就不小,调试起来非常困难。最后,科研人员成功解决了这些不稳定性问题并成功训练了GLM-130B模型。

 

image.png

 

目前,GLM-130B具有如下优势。首先,模型同时支持中文和英文。在英文的语言建模和少样本语言理解任务上的表现基本和GPT-3持平,切优于目前开源的OPT和BLOOM。

 

在中文上的CLUE和FewCLUE数据集上的零样本能力明显优于具有2600亿参数的ERINE Titan 3.0。除此之外GLM-130B,模型具有在英伟达,海光,昇腾和神威上训练的能力。

 

image.png

 

在架构方面,目前有两种基于Transformer的经典语言模型GPT和BERT。GPT为单向注意力,预测下一个单词,擅长长文本生成。BERT则为双向注意力,预测被随机遮盖的单词,擅长文本理解。

 

image.png

 

如上图所示,GLM-130B是一种通用的语言模型,通过引入“自回归填空预训练”的方式,能够自回归的预测被遮盖的区间。它可以同时进行长文本生成和文本理解的任务。

 

image.png

 

在多任务预训练时,从X1到X6采样15%作为生成目标,最后采样50-100%作为生成目标,在分类问题取得了突出的效果。

 

image.png

 

除此之外,当GLM用于文本生成时,仅需一个模型即可完成不同个任务。

 

image.png

 

为了模型具有最佳的性能,清华大学充分探索近年来提出的系列Transformer模型架构。科研人员在小规模上,进行了大量的对比实验,并选择DeepNorm,RoPE和门控注意力三个Transformer进行改进,获得最佳性能。

 

image.png

 

 

在常用的混合精度训练场景下,启动1750亿的GPT-3模型训练需要2.8T的显存存放状态,远远超过单卡显存。

 


 


相关文章
|
25天前
|
人工智能 自然语言处理 JavaScript
借助Playwright MCP实现UI自动化测试:全面指南与实战案例
本文介绍了Playwright与MCP协议结合的UI自动化测试新方法。通过自然语言指令替代传统脚本编写,详细讲解了环境搭建、核心工具和实战案例,展示了从登录测试到报告生成的完整流程。这种创新方式显著降低了技术门槛,让非专业人员也能快速创建可靠的自动化测试。
|
2月前
|
人工智能 供应链 安全
智能体开发的学习路径:对标国家职业标准的系统化能力构建
程序员陈凯苦于转型智能体开发,课程零散难入门。直到接触“智能体来了”系统化课程,依《人工智能工程技术人员国家职业标准》分三阶段进阶:1-3月打基础,掌握Python、大模型与数据库;3-6月学架构、意图识别与对话管理,达中级水平;6-12月实战企业级项目,如供应链智能体,契合高级工程师要求。课程融合API开发、安全治理与模型优化,助力从Java开发者成长为AI工程师。
|
Android开发 Java
Android开源DiscreteSeekbar:动画气泡指示当前滑动值
 Android开源DiscreteSeekbar:动画气泡指示当前滑动值 Android本身提供的SeekBar用以调控值以及回调传回当前选择的值。
1604 0
|
11月前
|
机器学习/深度学习 人工智能 运维
人工智能在事件管理中的应用
人工智能在事件管理中的应用
310 21
|
存储 Windows
技术好文共享:(翻译)libusb
技术好文共享:(翻译)libusb
364 0
|
机器学习/深度学习 人工智能 达摩院
|
人工智能 API 开发者
阿里云通义千问向全社会开放!
阿里云通义千问向全社会开放!
64465 37
|
物联网 Android开发
Android Ble蓝牙App(四)UI优化和描述符
Android Ble蓝牙App(四)UI优化和描述符
428 0
|
Kubernetes 安全 测试技术
Docker|kubernetes|本地镜像批量推送到Harbor私有仓库的脚本
Docker|kubernetes|本地镜像批量推送到Harbor私有仓库的脚本
1095 0