5300亿!巨型语言模型参数每年暴涨10倍,新「摩尔定律」要来了?(下)

简介: 近年来,大型语言模型参数量每年暴增10倍,最近的巨无霸模型MT-NLG,参数更是达到了5300亿!关于模型参数的「新摩尔定律」已呼之欲出。不过,这可不一定是好事。

使用小模型 

在评估模型时,应该尽量选择能够提供所需精度的最小模型。这样做预测速度更快,训练和推理所需要的硬件资源也更少。 算力昂贵,能省就省。 实际上,现在的机器学习模型越来越小,也早已不是什么新鲜事了。熟悉计算机视觉的人都会记得 2017年SqueezeNet 的问世,与 AlexNet 相比,SqueezeNet的规模缩小了98%,同时在精度表现上与AlexNet不相上下。 66.jpg


除了计算机视觉领域,NLP社区也在努力缩小模型的规模,其中大量使用了知识蒸馏等迁移学习技术。其中最出名的可能就是对谷歌BERT模型的改进型DistilBERT。 与原始 BERT 模型相比,DistilBERT保留了97%的语言理解能力,同时模型体积缩小了 40%,速度提高了60%。相同的方法已应用于其他模型,比如 Facebook 的 BART。 最近来自「Big Science」项目的最新模型也令人印象深刻。如下图所示,这些项目中的 T0 模型在许多任务上都优于 GPT-3的性能,但模型大小只有GPT-3的1/16。

67.jpg

微调模型

如果需要在一个高度专门化领域使用模型,大可不必从头开始训练模型,这时应该对模型进行微调,也就是说,仅在自己的数据集上训练几个时期。 实际上,微调模型也是迁移学习的一种方式,目的还是节约资源,能省就省! 使用迁移学习的好处不少,比如: 

  • 需要收集、存储、清理和注释的数据更少
  • 实验和数据迭代的速度更快
  • 获得产出所需的资源更少

 换句话说就是:省时、省钱、省资源! 

使用云基础设施


68.jpg


云计算企业知道如何构建高效的基础设施。研究表明,基于云的基础设施往往比替代方案能效更高、碳足迹更浅。Earth.org 表示,虽然云基础设施目前并不完美,但仍然比替代方案更节能,可以促进对环境有益的服务,推动经济增长。” 确实,在易用性、灵活性和「即用即付」方面,云当然有很多优势。如果实在负担不起自购 GPU,何不尝试在 Amazon SageMaker(AWS 的机器学习托管服务)上微调模型呢? 

优化模型

从编译器到虚拟机,软件工程师长期以来一直使用工具来自动优化硬件代码。

 然而,和软件行业相比,机器学习社区仍在为这个问题苦苦挣扎,这是有原因的。最重要的是,对机器学习模型的进行优化是一项极其复杂的任务,其中涉及以下技术和条件:69.jpg

  • 硬件:大量面向加速训练任务(Graphcore、Habana)和推理任务(Google TPU、AWS Inferentia)的专用硬件。
  • 剪枝:删除对预测结果影响很小或没有影响的模型参数。
  • 融合:合并模型层(比如卷积和激活)。
  • 量化:以较小的值存储模型参数(比如使用8位存储,而不是32位存储)

 所幸,现在已经开始出现可用的自动化工具,如Optimum 开源库和 Infinity,这是一种容器化解决方案,延时低至1毫秒,但精度可以与Transformer相当。 

另一个「摩尔定律」要来了吗? 

在过去的几年里,大型语言模型的规模每年都以10倍的速度增长。看起来,另一个「摩尔定律」就要诞生了。 原来的摩尔定律,现在的命运如何?关于「摩尔定律行将终结」的话题,早几年就已经甚嚣尘上。 70.jpg

但有一点是确切无疑的,如果机器学习沿着「模型巨大化」的路走下去,路可能会越走越窄。收益递减、成本增加、复杂度增加,这些可以预见的问题,可能会在不远的未来,把机器学习行业逼进死胡同。 这就是人工智能未来的样子吗? 希望不是。与其追逐万亿参数的巨大模型,不如把更多精力放在构建解决现实世界问题的、实用且高效的解决更好么?

相关文章
|
4月前
|
存储 人工智能 并行计算
架构级大改浮出水面?DeepSeek 神秘新模型代码曝光,V4 或在春节前后登场
在DeepSeek-R1发布一周年之际,其GitHub仓库FlashMLA突现神秘MODEL1标识,独立于V3.2架构,或为传闻中的DeepSeek V4雏形。代码显示其采用稀疏与稠密并行推理、FP8+BF16混合精度、512维标准注意力及Blackwell架构深度适配,并浮现“Engram”记忆机制线索,暗示模型从架构到硬件协同的系统性重构,预示下一代AI竞争将转向全栈效能比拼。
|
1月前
|
调度 算法框架/工具
Mac mini M4 性能压榨:Flux.dev 与 Z-image 实测组合
本文实测Mac mini M4(24G统一内存)下Flux.dev与Z-image大模型的最优采样组合:Flux推荐Euler+Beta(25步/Guidance 3.5),兼顾速度与画质;Z-image首选euler_ancestral+Beta(2–8步/CFG 1.0),激发多样性。附内存优化、CFG避坑与步数阈值建议,助你在有限资源下榨干M4性能。(239字)
309 6
|
2月前
|
SQL 缓存 安全
《LangChain 智能体从浅入门到深入门:模型配置、中间件体系、装饰器钩子与 invoke 调用模式全解析部分内容指南分享》(如有错误欢迎指正!)
《LangChain 智能体从浅入门到深入门:模型配置、中间件体系、装饰器钩子与 invoke 调用模式全解析部分内容指南分享》
361 11
|
机器学习/深度学习 人工智能 自然语言处理
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
2594 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
|
XML Java 数据格式
【SpringFramework】Spring IoC-基于XML的实现
本文主要讲解SpringFramework中IoC和DI相关概念,及基于XML的实现方式。
342 69
|
传感器 人工智能 自动驾驶
九牧的“AI梦想曲”:卫浴场景进入到机器人时代
十年后的卫浴空间将不再仅仅是功能性场所,而是进化为个性化健康管理中枢。据DeepSeek预测,未来卫浴将引入全自动清洁与管理机器人、个性化健康管家等智能设备,成为家庭中的“第四生活伙伴”。九牧集团等企业已开始布局这一领域,启动AI马桶与家用机器人产业园建设,致力于打造智能卫浴产品,如机器人洗澡机、健康马桶等。这些创新不仅提升了用户体验,还标志着卫浴行业正迈向AI与机器人新时代,引领全球制造业变革。
458 1
|
存储 JSON 安全
ThinkPHP 文件上传 fileSystem 扩展的使用
本文介绍了在ThinkPHP框架中使用filesystem扩展进行文件上传的方法。包括安装filesystem扩展、了解配置文件、上传文件的验证规则以及文件上传的示例代码,旨在帮助开发者实现文件的安全上传和存储。
ThinkPHP 文件上传 fileSystem 扩展的使用
|
C语言
C语言中的do while语句
C语言中的do while语句
880 1
|
存储 算法 Java
【经典算法】LeetCode 5: 最长回文子串(Java/C/Python3实现含注释说明,Medium)
【经典算法】LeetCode 5: 最长回文子串(Java/C/Python3实现含注释说明,Medium)
808 2

热门文章

最新文章