从集群到计算服务,如何基于云重塑“超级计算机”

简介: 本文探讨了云计算概念的演变及其标准化进程。随着技术发展,云计算已从单纯的资源池演变为与AI、大数据等融合的服务模式,内涵和外延不断扩展。文章还介绍了云超算的发展及其国家标准制定的重要性,强调了其在工业制造、生命科学等领域的应用前景,并宣布了首批云超算测评能力的启动。

一、云计算概念的认识

接下来与大家分享关于云超算及其标准化的思考。在昨天的主论坛上,听到了partner阿里云最新的成果发布包括AI和大模型的相关内容。还听到旁边的观众不禁发出了一声灵魂拷问:“这还是云计算的大会吗?”这其实是一个关于概念认知的问题。


我们如今看到的云计算,已不再是十年前的模样。以前,可能认为云计算是一个大的资源池,有很多机房和复杂的连接。但现在,更多地看到的是云计算作为一种服务模式在演变,它作为基础设置,与AI、大数据、区块链等进行了服务整合。因此,云计算的内涵和外延都得到了极大的扩充,但这并不代表这不是云计算领域的东西


此外,细心的朋友可能会注意到我们这次大会的主题,其中“AI on Cloud”这个点是非常巧妙的。在研究其他课题时,也曾深入研究过AI和Cloud的翻译问题。不同的介词,如“on”、“in”或“at”,其实代表了AI与之间不同层次的逻辑关系。如今,我们看到了很多云原生的东西,以及模型即服务的形式,它们都是以云计算的特性,以服务的形式在提供。因此,我们认为云计算的概念在不断演变。


从“十三五”到如今的“十四五”,再到即将开始的“一五五”,中央、中央的文件、很多省市的文件和地方都在对云计算进行布局。关于这个宏观产业的问题其主要逻辑在两个层面。第一个层面,国家对此非常重视,这对于研究机构开展后续工作也非常重要。因为需要知道,下一步的云计算产业应该往哪个方向发展。后面做关于云算的标准体系的架构的时候,也要去了解的。


标准化工作,从研发角度来看,就像我们要开发一个系统,首先需要明确系统的功能、目标以及要实现的价值。这也是我们之前提到的对产业宏观的理解,以及下一步的重点方向。接下来,需要搭建整个标准化的体系结构,这是很重要的,这相当于先搭建一个整体的软件框架,再逐个解决每个功能点的问题。


云计算的范畴非常广,包括计算、存储、网络、服务交付和安全等方面。方方面面都需要在个性化的体系中做出相应的布局。上图左边展示了十年前工信部发布的第一版云计算标准体系,右边则是我们近几年结合新形势修订的标准体系。


由于时间有限,接下来只简要介绍几个重点。第一点,标准对产业起到非常重要的促进和推动作用。标准是引导产业发展的,十年前的标准体系,能直观地感受到里面很多东西都是偏向于对IaaS层的建设和部署的布局。因为那时云计算的概念还没有普及,所以需要通过基础标准来规范术语,告诉产业界什么是云计算,以及相关的角色、活动等。接下来需要构建一个云计算系统,因此做了很多标准,包括训练化标准、资源管理标准、运维标准等,这些都有助于我们从0到1建设资源池。


此外,对于客户或自己来说,建设多地的数据中心、与客户进行交互等,都涉及到全流程的问题,如SaaS交付、计量计费等。这些都是通过标准化推动整个产业规范发展的工作。


如今也看到了很多新的东西,包括阿里云提出的模型即服务的概念。在几年前的标准体系中就已经有了相关的布局。国内外产业界对于下一步云计算发展的重点方向。新增几个重要板块一个是相对于服务标准,另一个应用标准,往里面规范了很多我们认为我们看到的国内外的产业界对于下一步的云计算的发展的一些重点方向包括国际上因为国内现在有很多机构计算所也是在慢慢的做对于数据服务的概念,其实国际上一些大厂商也在做数据服务的相关工作。阿里云刚才提到的模型服务,以及云超算,都是作为外部技术与云计算的融合,并以云服务的形式提供。因此在标准体系中都进行了很多布局和规范

 

二、云超算

此外,我们机构主要是做云计算的国家标准,所以目前主要工作都是以国家标准为主。同时也会针对一些特定领域开展行业标准和团体标准的研究。我们在五六年前就已经联合阿里云的团队开展了云超算标准的语言工作。


很多年前我们进行了很多思考,包括这项工作是否符合整个国家的战略发展需要,做云超算是否符合标准体系的要求,以及会预先预判对于算力在未来5到10年内的大规模增长是否有这样的需求。在现在看到了国内外,尤其是中美之间的大国竞争风险,以及产业界受到的断链、断供的风险。CIPU的2.0也正式发布了包括阿里斯研究的能力当时也通满考量这一方面因此,当时确实启动了云超算标准的研究工作。云超算代表着新一轮的科技革命和产业变革的创新驱动作用。


不管是对于产业的同学,或是对于标准化的从业者越来越多的行业得到云超算的快速发展和应用,包括工业制造、车辆工程、生命科学等领域都在进行对于云超算算力的非常庞大应用。预测未来5到10年内,云超算将有一个很好的增长率。


阿里云一直深度参与云计算国家标准化的工作,其实包括很多标准都参与了云超算是一个非常重点的工作,尤其是以阿里云牵头推动的一项工作是少有的几项当中之一这项标准对于我们完善云计算的整体标准体系,以及推动产业发展都起到了非常关键的作用。


关于标准的内容这边不过多展开描述,最终会以发布稿为准。相关信息会在国标委的官网上进行公布。我们这项标准代表了产业界五年以上的研制周期,包括头部云厂商、运营商、超算领域的集成服务商和安全厂商等在内的产业界共识结果。


作为一个互联网厂商,能够长期坚持这项工作,实属不易。也看到在大大小厂和阿里云在很多技术领域做了很多年磨一剑的工作。在标准化领域,可能用户或广大观众不太了解阿里云一直在做的十年磨一剑的工作。


最后基于工部的重点实验室,基于云超算国家标准,形成了一套测评能力。在此宣布这项标准目前公开启动了首批测评能力的检测。包括线上、线下,如果产业界有关注这方面产品检测的,可以随时与我们联系。能力之间我们大概列了一下包括资源能力作业能力其实不同的能力之间是进行的关系你可以根据自己的产品进行送检检测。同时,阿里云的弹性计算产品已经通过了国家标准的首批测评。在这里也恭喜阿里云!

相关文章
|
分布式计算 数据可视化 大数据
用Spark分析Amazon的8000万商品评价(内含数据集、代码、论文)
尽管数据科学家经常通过分布式云计算来处理数据,但是即使在一般的笔记本电脑上,只要给出足够的内存,Spark也可以工作正常(在这篇文章中,我使用2016年MacBook Pro / 16GB内存,分配给Spark 8GB内存)。
20016 0
|
12月前
|
弹性计算 监控 安全
云上IT“新”治理:体系化助力企业上好云、用好云、管好云
随着云计算的普及,企业上云已不再是难题,如何用好和管好云成为新的挑战。阿里云通过Landing Zone和Well-Architected Framework(WAF)帮助企业搭建安全合规、可扩展的多账号环境,并提供涵盖安全、稳定性、效率、成本和性能五大支柱的最佳实践。其中,Landing Zone助企业构建隔离环境,内置财务管理、资源规划等模块;WAF则提供详细指导原则,确保企业在云上的应用环境安全、稳定、高效。此外,阿里云还推出了一系列工具和服务,如身份权限管理、配置审计、成本分析等,助力企业提升云治理成熟度。
|
12月前
|
存储 人工智能 自然语言处理
结合CAMEL框架与QWEN实现数据合成,奖励模型评估和数据过滤工作流
本笔记本展示了如何结合CAMEL框架与QWEN实现数据合成、奖励模型评估和数据过滤的工作流。通过CAMEL的多代理系统,支持复杂AI任务的数据生成与评估。我们使用Firecrawl加载器从网页获取内容,并利用NVIDIA的Nemotron奖励模型对生成的数据进行评分和过滤。最后,通过设定阈值筛选高质量的数据条目。整个过程包括安装依赖、输入API密钥、定义数据生成函数、评估生成数据的质量以及过滤低质量数据。此方法适用于需要评估和优化AI生成内容的各种场景。
407 31
结合CAMEL框架与QWEN实现数据合成,奖励模型评估和数据过滤工作流
|
人工智能 Java API
Spring AI 抢先体验,5 分钟玩转 Java AI 应用开发
Spring Cloud Alibaba AI 以 Spring AI 为基础,并在此基础上提供阿里云通义系列大模型全面适配,让用户在 5 分钟内开发基于通义大模型的 Java AI 应用。
227497 105
|
边缘计算 运维 Cloud Native
浙江省科技进步奖一等奖!阿里云云原生技术实现新突破
科技成果鉴定委员会高度评价该技术,“项目研发难度大,成果创新性强,对促进关键技术进步及自主可控具有重大意义,成果在国内外开源社区产生了广泛影响,并成功应用于互联网、交通、金融、物流、医疗等多个行业。”
609 12
|
12月前
|
人工智能 搜索推荐 算法
《AI赋能自由职业:开启竞争力提升新征程》
在数字化时代,AI为自由职业者带来巨大机遇。通过自动化任务处理、智能日程管理优化工作流程;借助AI工具提升写作、设计、翻译等专业技能和服务质量;利用数据分析和精准营销拓展业务与客户群体;并通过个性化学习路径和虚拟导师实现自我提升。积极拥抱AI,自由职业者能在竞争中脱颖而出,取得更大成功。
518 8
|
机器学习/深度学习 传感器 人工智能
深度学习之自主学习和任务规划
基于深度学习的自主学习和任务规划,是指通过深度学习算法使人工智能(AI)系统能够自主地从环境中学习,并根据特定的目标和任务,规划出有效的解决方案。
555 3
|
12月前
|
存储 自然语言处理 机器人
基于的Qwen模型的智能客服Discord机器人,使用🐫 CAMEL、SambaNova、Firecrawl和Qdrant实现RAG Agent
基于Qwen模型的智能客服Discord机器人,使用CAMEL、SambaNova、Firecrawl和Qdrant实现RAG Agent。构建了一个能够处理复杂问题并能进行快速响应的强大聊天机器人。该机器人可在Discord平台上运行,支持实时对话和语义搜索,提供准确、全面的回答。项目包含详细的安装步骤、代码示例及集成指南,适合开发者快速上手。
|
12月前
|
人工智能 数据可视化 API
FastGPT 基于Higress 聚合 LLM 网关的最佳实践
本文介绍了Fast GPT的产品形态和设计理念,重点讨论了大模型的幻觉问题及其对应用落地的影响。Fast GPT通过结合工作流的强逻辑性和AI的理解能力,提升系统的稳定性和可靠性。文章还详细描述了Fast GPT的工作流节点、知识库管理及AI网关的功能,并展示了几个实际应用场景,如私人助手、图文生成和文档处理等。最后,探讨了如何通过引入云函数和Copilot简化代码编写,实现无代码编排的工作流解决方案,提升用户体验。
|
11月前
|
JavaScript 前端开发 测试技术
盘点原生JavaScript中直接触发事件的方式
本文全面探讨了原生JavaScript中触发事件的多种方式,包括`dispatchEvent`、`Event`构造函数、`CustomEvent`构造器、直接调用事件处理器以及过时的`createEvent`和`initEvent`方法。通过技术案例分析,如模拟点击事件、派发自定义数据加载事件和实现提示框系统,帮助开发者掌握这些方法在实际开发中的应用,提升灵活性与兼容性。
414 3