混合部署

首页 标签 混合部署
# 混合部署 #
关注
486内容
更加灵活、经济、高效的训练——新一代搜推广稀疏大模型训练范式GBA
近日,阿里巴巴在国际顶级机器学习会议NeurIPS 2022上发表了新的自研训练模式 Gloabl Batch gradients Aggregation (GBA,论文链接:https://arxiv.org/abs/2205.11048),由阿里妈妈事业部搜索广告团队和智能引擎事业部XDL训练引擎团队联合探索和研发。GBA的提出对阿里巴巴搜推广稀疏模型的训练范式带来了架构性的跨越式升级。本文将从GBA的设计思路、收敛性分析及工程实现等方面展开介绍,欢迎阅读交流。
Koordinator 0.6:企业级容器调度系统解决方案,引入 CPU 精细编排、资源预留与全新的重调度框架
经过社区多位成员的贡献,Koordinator 0.6 版本正式发布。相较于上一个版本 0.5,新版本进一步完善了 CPU 精细化编排能力,更好的兼容原生用法;支持了资源预留的能力(Reservation),补齐了调度原子语意缺失;发布了全新的重调度框架,支持用户灵活的扩展自定义插件。这些特性源自于阿里巴巴内部的生产实践,并结合上游社区规划思考,为用户带来标准、强大、灵活的调度解决方案。
唯一云厂商 I 阿里云高分通过可信云“一云多芯”全部标准测试
在第十届可信云大会上,国内首个《一云多芯技术能力标准体系》由中国信息通信研究院和中国通信标准化协会联合发布。该标准体系涵盖了五大类标准,包括:IaaS平台能力要求、PaaS平台能力要求、PaaS性能要求、云管平台能力要求、稳定性度量评估。在严格的测试标准下,阿里云飞天企业版高分通过全部五项测试,并均获得最高级认证,是首批通过全部标准企业中唯一的云计算厂商。
更轻松、高效、经济的LLaMA训练——开源大模型训练框架Megatron-LLaMA
9月12日,淘天集团联合爱橙科技正式对外开源大模型训练框架——Megatron-LLaMA,旨在让技术开发者们能够更方便地提升大语言模型训练性能,降低训练成本,并保持和LLaMA社区的兼容性。测试显示,在32卡训练上,相比HuggingFace上直接获得的代码版本,Megatron-LLaMA能够取得176%的加速;在大规模的训练上,Megatron-LLaMA相比较32卡拥有几乎线性的扩展性,且对网络不稳定表现出高容忍度。目前Megatron-LLaMA已在开源社区上线。开源地址:https://github.com/alibaba/Megatron-LLaMA
为什么 Serverless 能提升资源利用率?
如何提升资源利用率?弹性伸缩和混部超卖是一种有效提升方式,Serverless 提供一种托管产品形态的解决方案,让业务开发者更多精力投入前端开发应用,更好地提高应用的体验效果。
免费试用