5300亿!巨型语言模型参数每年暴涨10倍,新「摩尔定律」要来了?(上)

简介: 近年来,大型语言模型参数量每年暴增10倍,最近的巨无霸模型MT-NLG,参数更是达到了5300亿!关于模型参数的「新摩尔定律」已呼之欲出。不过,这可不一定是好事。

前不久,微软和英伟达推出包含5300亿参数的语言模型MT-NLG,这是一种基于transformer的模型,被誉为「世界上最强,最大的语言生成模型」。 不过,这真的是一件值得欢欣鼓舞的事情吗? 

60.jpg

大脑的深度学习

研究人员估计,人类大脑平均包含860亿个神经元和100万亿个突触。但不是所有的都用于语言。有趣的是,GPT-4预计将有大约100万亿个参数。

61.jpg



两个「100万亿」。


这会是一个巧合吗?我们不禁思考,建立与人脑大小差不多的语言模型是否是一个长期可行的方法?
 当然了,经过数百万年的进化,我们的大脑已经成为了一个非常了不起的设备,而深度学习模型才发展了几十年。诚然,我们的直觉告诉我们,有些东西不能够通过计算来衡量的。 

是深度学习,还是「深度钱包」?

在庞大的文本数据集上训练一个5300亿个参数模型,无疑需要庞大的基础设施。

 事实上,微软和英伟达使用数百台DGX-A100的GPU服务器,每台售价高达19.9万美元,再加上网络设备、主机等成本,任何想要重复这个实验的人都必须花费大约1亿美元。62.jpg


严谨地来看,哪些公司有业务例子可以证明在深度学习基础设备上花费1亿美元是合理的?或者1000万美元?如果设计出来,那这些模型是为谁而设计的呢? 

GPU集群:散热、环保都成问题

实际上,在GPU上训练深度学习模型是一项十分费力的事情。

 据英伟达服务器参数表显示,每台英伟达 DGX A100服务器最高能耗为6.5千瓦。当然,数据中心(或者服务器)也至少需要同样多的散热设备。 63.jpg

除非你是史塔克家族的人,需要拯救临冬城,否则散热将成为一大难题。 而且,随着公众对气候和社会责任问题的意识增强,公司还需要考虑他们的碳足迹问题。 马萨诸塞大学2019年的一项研究「用GPU训练BERT,其碳足迹大致相当于进行一次横跨美国的飞行」。


64.jpg

而BERT-Large的参数数量更是高达3.4亿,训练起来的碳足迹究竟有多大?恐怕只是想想都害怕。 

65.jpg

所以,我们真的应该为MT-NLG模型的5300亿个参数感到兴奋吗?。用这么多参数和算力换来的基准测试性能改进,值得付出这些成本、复杂度和碳足迹吗? 大力推广这些巨型模型,真的有助于公司和个人理解和拥抱机器学习吗? 而如果,我们把重点放在可操作性更高的技术上,就可以用来构建高质量的机器学习解决方案。比如下面这些技术: 

使用预训练模型

绝大多数情况下,并不需要定制模型体系结构。

 一个好的起点是寻找那些已经为能为你解决问题的(比如,总结英语文本)预训练模型。 然后,快速尝试几个模型来预测数据。如果参数表明,某个参数良好,那么就完全可以了。
如果需要更准确的参数,那就尝试微调模型 (下面会有详细介绍)。 

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
存储 分布式计算 安全
Hadoop常见问题
【6月更文挑战第2天】
323 5
|
3月前
|
人工智能 云计算
和五所高校一起,我们共同打造了一门AI课程!丨云工开物
9月1日,阿里云联合多所高校推出的「动手学AI:人工智能通识与实践」课程正式开放。课程涵盖理论与实践,支持多专业定制,助力高校AI人才培养。
|
3月前
|
XML 前端开发 调度
上下文爆炸?揭秘智能压缩术:引用机制让多智能体飞起来​
本文探讨多智能体协作调度中的层级指挥模式及其在实际应用中的性能与体验优化。针对 React 模式在工具调用、上下文管理、任务总结与过程监督等方面的痛点,提出流式 XML 工具调用、上下文压缩、通用推理兜底、任务总结增强与 MCP 监督机制等改进方案,有效提升任务执行效率与系统稳定性,为多智能体系统优化提供实践参考。
290 0
conda常用操作和配置镜像源
conda常用操作和配置镜像源
31680 0
|
机器学习/深度学习 人工智能 算法
大模型的能耗如何?
【7月更文挑战第6天】大模型的能耗如何?
1525 3
|
机器学习/深度学习 数据采集 算法
基于机器学习预测未来的二氧化碳排放量(随机森林和XGBoost)
基于机器学习预测未来的二氧化碳排放量(随机森林和XGBoost)
853 2
|
机器学习/深度学习 人工智能 自然语言处理
一文讲懂大模型推理技术细节
本文介绍了大模型推理在自然语言处理(NLP)领域的原理与应用。大模型推理利用如GPT、BERT等预训练模型,通过深度学习中的Transformer结构和自注意力机制,实现文本分类、情感分析等多种任务。文章提供了使用Hugging Face的Transformers库进行文本分类的示例代码,并展望了大模型推理技术未来的发展潜力。
|
设计模式 存储 人工智能
基于阿里云通义星尘实现多智能体(Multi-agent)协同工作的构想与尝试
近年来,大规模预训练模型(大模型)快速发展,其能力显著增强,尤其是在语言理解和生成方面取得了突破。然而,尽管大模型强大,但仍需被动响应指令,为此,研究转向了更具自主性的新范式——智能体(AI agent)。不同于仅执行命令的大模型,智能体不仅能理解复杂指令,还能规划行动步骤并在特定领域自我学习与改进。为进一步提高处理复杂任务的能力,多智能体(Multi-Agent)系统应运而生,多个智能体通过协作、交流信息和共享资源,共同完成更为复杂精细的任务。本文探讨了如何利用阿里云的通义星尘实现基础的多智能体协同工作,介绍了智能体的概念、优势及局限性,并通过具体案例展示了如何构建协作型多智能体系统。
|
机器学习/深度学习 存储 人工智能
大语言模型的预训练[5]:语境学习、上下文学习In-Context Learning:精调LLM、Prompt设计和打分函数(Scoring Function)设计以及ICL底层机制等原理详解
大语言模型的预训练[5]:语境学习、上下文学习In-Context Learning:精调LLM、Prompt设计和打分函数(Scoring Function)设计以及ICL底层机制等原理详解
大语言模型的预训练[5]:语境学习、上下文学习In-Context Learning:精调LLM、Prompt设计和打分函数(Scoring Function)设计以及ICL底层机制等原理详解