5300亿!巨型语言模型参数每年暴涨10倍,新「摩尔定律」要来了?(上)

简介: 近年来,大型语言模型参数量每年暴增10倍,最近的巨无霸模型MT-NLG,参数更是达到了5300亿!关于模型参数的「新摩尔定律」已呼之欲出。不过,这可不一定是好事。

前不久,微软和英伟达推出包含5300亿参数的语言模型MT-NLG,这是一种基于transformer的模型,被誉为「世界上最强,最大的语言生成模型」。 不过,这真的是一件值得欢欣鼓舞的事情吗? 

60.jpg

大脑的深度学习

研究人员估计,人类大脑平均包含860亿个神经元和100万亿个突触。但不是所有的都用于语言。有趣的是,GPT-4预计将有大约100万亿个参数。

61.jpg



两个「100万亿」。


这会是一个巧合吗?我们不禁思考,建立与人脑大小差不多的语言模型是否是一个长期可行的方法?
 当然了,经过数百万年的进化,我们的大脑已经成为了一个非常了不起的设备,而深度学习模型才发展了几十年。诚然,我们的直觉告诉我们,有些东西不能够通过计算来衡量的。 

是深度学习,还是「深度钱包」?

在庞大的文本数据集上训练一个5300亿个参数模型,无疑需要庞大的基础设施。

 事实上,微软和英伟达使用数百台DGX-A100的GPU服务器,每台售价高达19.9万美元,再加上网络设备、主机等成本,任何想要重复这个实验的人都必须花费大约1亿美元。62.jpg


严谨地来看,哪些公司有业务例子可以证明在深度学习基础设备上花费1亿美元是合理的?或者1000万美元?如果设计出来,那这些模型是为谁而设计的呢? 

GPU集群:散热、环保都成问题

实际上,在GPU上训练深度学习模型是一项十分费力的事情。

 据英伟达服务器参数表显示,每台英伟达 DGX A100服务器最高能耗为6.5千瓦。当然,数据中心(或者服务器)也至少需要同样多的散热设备。 63.jpg

除非你是史塔克家族的人,需要拯救临冬城,否则散热将成为一大难题。 而且,随着公众对气候和社会责任问题的意识增强,公司还需要考虑他们的碳足迹问题。 马萨诸塞大学2019年的一项研究「用GPU训练BERT,其碳足迹大致相当于进行一次横跨美国的飞行」。


64.jpg

而BERT-Large的参数数量更是高达3.4亿,训练起来的碳足迹究竟有多大?恐怕只是想想都害怕。 

65.jpg

所以,我们真的应该为MT-NLG模型的5300亿个参数感到兴奋吗?。用这么多参数和算力换来的基准测试性能改进,值得付出这些成本、复杂度和碳足迹吗? 大力推广这些巨型模型,真的有助于公司和个人理解和拥抱机器学习吗? 而如果,我们把重点放在可操作性更高的技术上,就可以用来构建高质量的机器学习解决方案。比如下面这些技术: 

使用预训练模型

绝大多数情况下,并不需要定制模型体系结构。

 一个好的起点是寻找那些已经为能为你解决问题的(比如,总结英语文本)预训练模型。 然后,快速尝试几个模型来预测数据。如果参数表明,某个参数良好,那么就完全可以了。
如果需要更准确的参数,那就尝试微调模型 (下面会有详细介绍)。 

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
算法 网络架构
router和route的区别?
router和route的区别?
1213 0
|
存储 分布式计算 安全
Hadoop常见问题
【6月更文挑战第2天】
419 5
|
计算机视觉
【论文复现】经典再现:yolov4的主干网络重构(结合Slim-neck by GSConv)
【论文复现】经典再现:yolov4的主干网络重构(结合Slim-neck by GSConv)
301 0
【论文复现】经典再现:yolov4的主干网络重构(结合Slim-neck by GSConv)
|
8月前
|
XML 前端开发 调度
上下文爆炸?揭秘智能压缩术:引用机制让多智能体飞起来​
本文探讨多智能体协作调度中的层级指挥模式及其在实际应用中的性能与体验优化。针对 React 模式在工具调用、上下文管理、任务总结与过程监督等方面的痛点,提出流式 XML 工具调用、上下文压缩、通用推理兜底、任务总结增强与 MCP 监督机制等改进方案,有效提升任务执行效率与系统稳定性,为多智能体系统优化提供实践参考。
691 0
|
设计模式 存储 人工智能
基于阿里云通义星尘实现多智能体(Multi-agent)协同工作的构想与尝试
近年来,大规模预训练模型(大模型)快速发展,其能力显著增强,尤其是在语言理解和生成方面取得了突破。然而,尽管大模型强大,但仍需被动响应指令,为此,研究转向了更具自主性的新范式——智能体(AI agent)。不同于仅执行命令的大模型,智能体不仅能理解复杂指令,还能规划行动步骤并在特定领域自我学习与改进。为进一步提高处理复杂任务的能力,多智能体(Multi-Agent)系统应运而生,多个智能体通过协作、交流信息和共享资源,共同完成更为复杂精细的任务。本文探讨了如何利用阿里云的通义星尘实现基础的多智能体协同工作,介绍了智能体的概念、优势及局限性,并通过具体案例展示了如何构建协作型多智能体系统。
|
索引 运维
开发与运维数组问题之使用数组中的元素,数组的大小更改如何解决
开发与运维数组问题之使用数组中的元素,数组的大小更改如何解决
183 6
|
移动开发
[LeetCode] Find the Duplicate Number
There are mainly two solutions to solve this problem. The first one is very clever, using the idea of cycle detection, and runs in O(n) time.
1128 120
如何进行需求评审后续跟踪和更新?附模板
如何进行需求评审后续跟踪和更新?附模板
603 0
|
机器学习/深度学习 存储 算法
一文读懂K-Means原理与Python实现
在本文中,你将学习到K-means算法的数学原理,作者会以尼日利亚音乐数据集为案例。带你了解了如何通过可视化的方式发现数据中潜在的特征。最后对训练好的K-means模型进行评估。
745 0

热门文章

最新文章