AI时代下, 边缘云上的技术演进与场景创新
内容介绍:
一、场景驱动边缘云算力形态多元化演进之路
二、边缘AI推理创新发展与实践
三、云游戏在边缘承载的技术演进
一、场景驱动边缘云算力形态多元化演进之路
本次分享主题场景驱动边缘云算力形态多元化演进之路。与中心云或者主战region相比,边缘云一直是场景化属性明显的产品形态,阿里云的边缘云的产品叫做边缘节点服务ENS,从2018年正式商业化,在六年的时间里面,持续的支持和拓展很多主流的应用场景和创新的应用场景,构建对应的产品和解决方案,在AI时代,算例是最重要的基础设施。
本次分享的内容主要和算力有关,主要是三个部分,第一是边缘云算力形态目前的现状的概述,另外两个部分是通用算力的演进以及异构算力的演进。
第一部分的内容主要是从边缘云的视角,首先介绍阿里云智能的边缘云业务的最新进展,经过六年的发展,阿里云智能在全球的边缘云节点的数量已经突破了600个,合计部署超过200万核的通用CPU算力以及600pflops异构算力。在四年前IDC中国首发边缘云的报告,阿里云是连续四年获得公共云市场份额的第一,这些数据说明阿里云在边缘云业务的规模上,包括和客户认可度上的持续发展和进步,取得这些成绩和认可的前提是边缘云自身准确的产品定位,坚持以广覆盖为核心定位,为客户提供低时延、本地化、小型化的三大核心价值。低时延来自于边缘云相比于主战位更多更广的节点覆盖,保证终端用户在接入,时间低于20毫秒达到端到端,无论以流量为主的音视频的业务,还是以计算为主的异构计算的业务,都可以有效的改善用户体验。本地化和小型化这两个价值通常是成队出现的,在以海外本地云为代表的应用场景中,边缘云既支持本地部署,同时又因为小型化的方案,它具备一个超低的开拓门槛,可以很好的满足客户,由于本地合规等原因,必须要在没有主站的国家和地区部署业务的需求。
边缘云网承接上述的定位,有一些主要的应用场景称为四加x,这个地方是边缘云网,而不是边缘云,因为边缘网络和边缘云是在一个大的产品团队里的,云和网是协同共生的,网络离开云就没有意义,云如果没有网络就无法更好的发展和应用,在这四大场景里面,首先就是以内容的就近分发为核心的音视频的业务,包括在整个b a云的基础设施上去部署客户的CDN, RTC直播、点播流量类的应用,是它最经典的应用场景,这个场景目前正在向IDC上云去演进,会有越来越多的计算类的IDC的应用,客户会把自建的IDC替换成边缘云,由边缘云管理他的边缘基础设施,第二个是边缘异构计算,最早是从一些包括像云化机顶盒,包括云游戏场景把产品能力和资源的规模做大之后,进一步做像云应用,云渲染,还有AI推理业务,这些都是在边缘云有特色的差异化的异构计算方案,和当前的方案形成非常好的互补,同时把ICE的产品能力和资源沉淀好后,尝试特定的系统领域向pass做演化,整个的架构和方案聚焦终端云化之上,着力于所有的现在部署在终端上的应用,包括游戏,包括渲染,包括AI推理,都希望能够把它部署到离用户最近的云,也就是边缘云上。
除了两个边缘语的应用,接下来是边缘网络,边缘网络提供二层的线路服务和三层的组网服务,在三层组网服务把网络连接服务的接入点扩大,云网络连接的可能是主站region到主站region,或者客户的IDC的主站region,但是在当把边缘云加进去之后,发现主站region边缘云,还有客户的IDC,可以把它叫做端,云边端的任意多点互联都是有需求的,所以这个地方的定位就是能够为任意的云边端多点互联提供组网服务。在四个主要场景之上,构建很多的跨产品的解决方案,包括很多客户希望使用容器,它的全球化的基础设施,希望既使用阿里云的主站的容器,也希望使用腾讯云的容器,可能当然还希望使用阿里云、边缘云的容器,这样就需要云编协同容器的解决方案,有边缘云ENS加边缘网络ENA加上ACK的容器的协同的解决方案,为给客户提供更易用的图形化界面,还和阿里云的云速搭有应s加ENA加云速搭的图形化统一排编排的解决方案,在没有主战的国家和地区,提供本地云的解决方案,包括针对很多跨境的中国到海外或者纯海外的加速的基础设施的需求。
ENS和ENA和主站的云网络服务CEN有联合的定向加速的解决方案,基于场景和解决方案,对应构建满足需求的产品能力矩阵,这个产品能宇宙是在二三年的时候提出多态计算的概念,一八年的时候,音视频流量的应用是客户使用边缘云的主要驱动力,但当有客户要使用边缘云的时候,首先需要确认使用的计算形态。多态计算指的就是使用虚机 容器 裸金属 裸机,不同的计算形态代表对业务的定位,包括相应的需求是不一样的,接下来配套协同存储,确定计算形态,要使用云盘 文件存储 对象存储,这个存储是要基于普通磁盘,还是要基于全闪的磁盘的集群,存储的选择非常的关键,计算和存储方案选定之后。
接下来就是网络,在边缘云节点内的网络和主站有差别,既支持经典网络,同时也支持全套的VPC网络,前面客户在选定计算和存储的方案之后,选定使用经典网络或者使用VPC网络 ,还是两者混用都可以支持。最后计算网络存储都选定,可能有一些场景计算的需求,包括可能有安全解决方案的需求,也有更多的容灾和上云的需求,都会通过一些自研的能力,或者和阿里云的兄弟团队打包的解决方案为客户提供完整的方案和实现。以上就是对现状的简单介绍。
第二部分聚焦在通用算力演进上,通用算力主要是包括x86的算力,包括像阿里云有自研倚天710的芯片,它是阿姆大核的方案,这种也算在通用算力里,因为它和x86都能够承载大部分主流的各类的计算应用,通用算力在ENS2018年发布的时候就支持,只不过当时的功能比较简单,它只支持虚拟实例和经典网络,经过一九年、二零年、二一年的能力升级。到2021年的时候,当时整个虚机,包括裸机,还有经典网络和VPC网络,整个计算网络存储的能力已经比较完善。
从2022年开始进一步提升实力的性能,优化虚机裸机实力的性能,也推出性能更高的没有损耗的云上的x86的裸机技术实力。包括在2023年进一步升级容器实力,包括容器实力是以虚机实力在同样一个节点里面做混跑的。包括支持自研的倚天的虚机实力,因为整个多态计算的能力已经构建完成,更多的支持好客户的企业级应用,把客户的企业级运用从IDC搬到云上,在没有主站的国家地区帮助客户的企业级运用上到边缘云上来,支持包括像实力标签在内的帮助客户更好的使用边缘云的功能,包括现在资源规模很大,所以提供抢占式实力帮助客户更好的以更低的成本使用边缘云上目前已经规模较大的弹性资源,整个演进过程中典型的应用场景,一句话的总结就是现在是从过去式广覆盖,除了网覆盖,还要做云网融合,在过程中发现其实整个业务流量型的业务的比例是在下降的,它的计算型业务的比例是在上升的,主要是自建的RTC CDN 点直播 音视频pass服务。
中间分布式ID上云有相当一部分也是客户自建的IDC做流量性应用的,但是这种IDC的规模大并且对可靠性的要求高,同时它的需求相对来说比较复杂,它不仅是对云的需求,同时还对网络基础设施也有需求,所以通过把云和网络结合在一起,既提供边缘云的三线实例,也提供边缘网络的三层组网,帮客户实现云边端的任意多点互联,这样才能够实现关键客户在国内多个大区的自建核心IDC的全站上云,这个业务规模目前来看是比较大的,客户在本来已经很低的资源成本上进一步的成本的优化,有了运维效率的提升,海外本地云是需要支持客户的企业级应用,全球化能够做本地合规的部署。首先在规划上,在年内会有超过十个无主站国家地区会有边缘云的节点开服,其次很多国家和地区不开服,因为业务规模不够大,所以单节点是小于十台服务器。如果两个节点做到可用,小于20台服务器的门槛已经非常低,同时已经开服国家和地区,每个客户平均是在单地区需要部署5到10个的关键应用,同时保障本地访问时延低,一般是在30毫秒以内,单节点10台,两个节点20台,这两个节点之间通过边缘网络实现多个节点的高可用,最终就是实现帮客户的业务部署的提效达到90%以上,客户如果要在比如越南或者是哈萨克斯坦站的国家部署业务,至少是要以三到六个月为周期的,但是在有标准公共云的边缘节点服务之后,客户其实是可以在更短的时间就可以实现业务上云好。
最后是通用算力的发展趋势,第一场景化非常明显的产品形态,所以未来必然是应用场景多元化,从广覆盖到广覆盖和云网融合,其次就是场景多元化,业务类型多元化,除了流量类的规模还在持续的保持之外,计算类的业务的规模会越来越大。除了消费级和音视频的业务,以及很多异构计算业务,最后终端消费者会去刷抖音 快手 玩黑神话,就是消费级业务,刚才也介绍有越来越多的企业级客户会选择边缘云作为业务底座,最后就是产品能力的多元化,边缘云已经走过六年,通用计算能力在计算网络存储这三大件的ICE上,其实发展的已经相对完善,但是有很多不足的地方,比如企业级的能力,产品的易用性,对可能还需要去进一步的加强,能帮助更多的企业级的用户用好边缘云,包括计算实力,存储实力的性能,可能由于集群的规模比较小,所以性能指标可能是没有办法和主站的呈现和上万台的大规模集群相比,但是基于当前的实例的集群的规模是可以提升和优化的空间,最后是AI辅助运维,全网有超过200万核的CPU,理论上讲所管理的服务器数量比绝大部分的客户都是要多的,这么多服务器高效的管理 高效的运维 监控 告警 排账 恢复,现在引入一些AI助手的功能提效整个的运维流程,当功能和能力成熟之后,也会考虑商业化开放给客户,给客户提供更多的增值。
前面是通用算力的介绍,接下来最后一部分是异构算力,这里主要是聚焦终端的云化,包括各种各样型号的GPU的实力,还有ARM的小核实力,都是为实现把原来放在消费者的终端上的应用搬到云上所做的标准化的产品,做异构算力相比通用算力是要稍微晚一点,大概是从二零年开始做的,当时最早做的是天猫精灵云化,为帮天猫精灵降低成本,把天猫精灵上很多终端上用不到的硬件减配,让它在运行的时候调用云端的能力部署应用。把这套方案应用到广电,也是帮助广电的机顶盒不升级原有的机顶盒硬件的情况下,能够在非常老旧的机顶盒上运行当前非常新的互联网的OTT应用,从二一年是继承二零年的业务思路,开始尝试做云游戏的试点。从二二年、二三年把云游戏包括云端游,云手游的业务规模做的越来越大,可能从数百卡做到数千卡,又从数千卡做到数万卡,也从数万卡做到超过十万卡,在这个过程中是非常好的打磨包括PC Farm AIC异构计算实例的能力,今年试探新的应用场景,比如把云端游的方案支持云渲染 数字人 AI推理的解决方案。在能力上不仅仅满足把实例本身的功能。比如做边缘AI推理,提供AI推理相关的加速服务,帮助客户更好的利用边缘云上GPU的性能。
接下来是应用,应用目前规模最大的就是云游戏,但未来空间最大的应该是云应用和边缘AI推理,因为云端游云渲染数字应用是同一套方案,主要就是提供就近接入的高性价比的计算实力,第一能够帮助客户优化用户体验。
第二能够帮客户实现商业化的成功。特别提到帮助客户把单路成本降低85%,客户是游戏运营平台,他可能在阿里云租一路资源,这一路资源可能上午是他的a用户用,下午是他的b用户用。本身会有复用的,但在复用的前提下,过去的成本依然非常的高,在这个基础上帮助客户把单路成本降低85%,降成本是非常重要的一件事情。同时降成本不等于负毛利,不等于亏钱卖,在云栖主论坛上宣布阿里云的AI的推理会进一步的降价,认为任何商业模式的成功和成本是至关重要的,只有当解决方案把成本降低,能够客户亏钱甚至赚钱的使用产品方案的时候,这个产品方案才有可能真正的大规模推开,才有可能真正的做到普惠,所以成本是非常的关键,另外把成本降低,业务量就会上来,比如每次在支持客户做游戏版更的时候,它的并发路数都是数万路的,对于分布在全国甚至是全球多节点的异构实例,它的节点内的网络性能和操作性能压力非常的大,目前基本上每次单次的游戏版更,支持的并发路数都在五到十万路左右。
另外异构的计算的实力的兼容性是非常好的,所以客户的主流应用的上线周期基本上是小于24个小时的。另外把消费级的异构实力搬到云上,这些实例过去的服务器是非常不标准的,它不像通用的标准服务器,不论是硬件配置,还是很多关键部件的质量和指标,过去都是没有标准化的,但是通过自己的标准化的努力,以及产品优化上的努力,也是成功的把SIA做到和标准通用算力一样,目前都是三个九的SIA,接下来云手游和云应用,更多把原来放在手机上的游戏或者其他应用要放到边缘云上,案例是他之前没有云手游的业务,但是一起合作助他在90天之内,从零到一,他自己做相应的开发
。同时更重要的是使用为他提供的ICE之上的增值服务。增值能力包括像图形化的编排 资源的调度 流化的SDK 安卓OS的模拟 征机模拟 实例多开的这些功能。这些功能都是和计算、网络存储三大件之上构建的增值能力,这些增值能力能够帮助客户的业务非常快的上线,同时对主流的超过200款的应用都做适配,所以客户的业务都会跑的很稳定。最后除了使用应用于云端游的GPU实力之外,ARM的实例同样也把实例成本优化的非常明显,特别是相比通用实例的成本优化是超过60%的,可以保障客户的业务取得商业化成功,做到客户的业务跑得久,最后就是边缘AI推理,边缘AI推理目前的业务量还是比较小的,主要是现在有一些客户的业务是时间敏感的,其次客户把业务上的算法,从传统的算法替换成大模型,过去传统算法对算力的要求比较小,大概率可以跑在终端上,比如手机或者机顶盒,但当把这个算法替换为大模型之后,取得更好的业务指标。
缺点就是大模型在终端上跑不了,但是它又是一个时间敏感的业务,所以他必须要把推理的工作从终端上移到离终端最近的云,也就是边缘云上部署,所以关键指标有三个,第一保证小于30毫秒的端到端的网络延时,把其中的70毫秒留给客户,因为客户的要求是整个单次推理要小于100毫秒。其次目前也已经可以支持相当规模的模型的推理,最大在边缘云上可以推理的模型就是10b的参数,异构算力的发展趋势是边缘AI推理是不止于传统算法替代的。异构计算将会是边缘云未来五到十年最大的机会点,包括前面提的以云游戏、云应用、云渲染等业务代表的终端云化和以AIGC为代表的边缘AI推理。
终端云化从目前存量终端应用上移到边缘云,这些应用过去是跑在存量终端上的,现在由于成本的原因,由于体验的原因,它需要上移到边缘云,但是这些应用一开始就是为终端开发的,接下来进化会有与原生的边缘云的应用,指的是开发 部署和运行原生是在边缘云上的,不再需要维护非常多的终端版本,比如原神开发安卓和苹果的版本,还开发p s的版本,还包括电脑的版本,如果是原生云应用,只是唯一的云端版本,加上音视频的流化协议支持实时互动,这样可以统一各终端用户的体验,同时客户本身整个全站的开发的成本都会大幅的下降,周期会大幅的压缩。最重要的是用户体验不会再受制于终端硬件的瓶颈。对于边缘AI推理或者AIGC,目前AIGC主要是文生图应用,它单次的计算量不大,同时没有时延的要求,所以它是更适合部署在主站region。同时在有越来越多的文声音视频的应用,这些应用正在指数级的提升,AIGC自动生成海量个性化内容的可能性和可行性,在未来一定可以满足,比如李小龙和李连节同框出演一个实时互动VR电影个性化的内容消费需求。
从本质上终端云化和AIGC都是在生产可以供C端用户消费的数字化内容。在大模型出现以前,任何数字化内容的生产周期都需要远长于消费周期的,比如拍一部电影通常需要一年以上的时间,但是关注完成观影最多只需要几个小时。但是如果进入Everything on LLM的时代,所有数字化内容生产是可以开始应用大模型进行海量内容的个性化、自动化生产。比如想看李连杰和李小龙同框出演VR电影,可能就用提示词写简单提示词,15分钟就生成好。看这个电影可能需要两个小时,在这个过程中还可以频繁的和他们进行互动,个性化的内容生产就不可能是提前生产好的,它只能是实时生产和实时消费,第一生产周期会变得比消费周期更短。第二具备真正的千人千面的内容生产和消费的特点,整个行业的生产观关系都会发生改变,从过去的少量的统一的内容,它的生产和消费阶段是分离的,变成海量个性化内容的生产和消费是一体化的,这种趋势对应的解决方案必然是基于边缘云的内容生产和分发一体化,就内容在边缘云生产,在边缘云分发就必须要使用离用户最近的异构计算实例实时生成内容,并且分发给用户,最大程度的保障C端用户的体验。
二、边缘AI推理创新发展与实践
DNS让数据处理的位置其实从远程的集中的数据中心迁移到离数据源更近的地方,能够有效应对长距离传输所带来的网络硬塞和服务延迟的挑战。这一挑战在AI推理快速发展的过程中也同样出现。与AI训练相比,AI推理其实与用户端的终端的场景其实联系更加的紧密,同样也就对性能和时延要求更高。在AI推理场景下,ENS又能提供解决方案,下面分享边缘AI推理的创新发展与实践。就边缘AI推理的发展和实践展开做进一步的介绍。内容主要包含三个部分。首先介绍边缘AI推理的整个的发展趋势,其次介绍边缘云在推理业务上提供产品能力和解决方案,最后分享实践的案例。首先回顾人工智能的整个发展过程。
人工智能的概念在1956年就已经提出,在初始的40年间,它被应用在专家系统上,直到上世纪90年代互联网的发展,推动人工智能的进一步的创新。九七年深蓝战胜国际象棋冠军。随后人工智能进入突破期,深度学习成为关键的驱动力。
在这个阶段,2014年微软推出个人智能助理小娜以及2016年阿尔法go战胜围棋世界冠军,这都是当时的代表事件,整个人工智能的发展从2017年因为Transformer的出现,带来更大的改变,Transformer解决序列处理瓶颈的问题,推动大语言模型的整个的发展。模型的参数规模也从亿级发展到万亿的量级,今年是多模态模型的整个的爆发期,AI将会被应用到各个行业的应用当中,为整个社会以及个人的生活带来更加智能化的整体的改变。随着大模型的整个发展,将推动AI从大规模的集中训练向分布式的推理应用进行转换,边缘AI也就成为这个推理应用的下一个战略高地。
从Gartner今年发布的边缘AI的报告中,可以看出边缘AI的整个的用户规模增长大概有一倍的增长量,边缘AI也将成为企业未来提升竞争力的关键能力。同样Gartner发布的报告中也显示,到2016年之前,大概有80%的企业都会在业务当中应用到生成式AI的能力,在边缘场景下,AI的普及率也将达到50%。就中国市场普及率可能会变得更大。因为国外可能在标准的大模模型方面发展较快,但是中国市场在利用开源的大模型做应用开发上,其实表现的是更加出色的中国市场,有一个显著的特点,就是在应用的整个发展过程当中,可以较快的探索出解决行业的痛点的有效促进途径。模型本身和整个行业的应用的结合上,在中国市场走的会更快一些。
业务对于边缘AI的推理,主要诉求来自于四个方面,第一就是低时延,业务部署在离用户更近的边缘,主要就是考虑到访问体验的因素,时效性要求比较高的业务,每增加一点时延,都可能带来业务不可预期的影响。比如客户的投诉,可能是客户年度用户粘度的下降,或者是客户的流失。这些问题经得到相应的印证。
第二个就是整个资源的广分布,大量的数据经过采集再到汇总,再做整体的一个处理,不仅对业务系统造成整体的压力,同时处理效率也会变低,还会带来高额的整个数据的传输成本,采用边缘做分散的处理,不仅可以提高整个业务的并发率,提升业务的处理效率,同时还能够降低它所带来的整个的带宽传输成本。
第三就是本地化,诸如像金融、医疗等行业的应用,对数据都有本地化的合规要求,敏感的数据只能在本地、本省或者是本市进行生产和应用,像传统的集中式的数据中心以及中心云的部署方案很难满足这种要求,业务方又不具备分布式的资源的建设以及运维的能力,第四就是资源的可弹性业务的发展,现在都有不可预测性,尤其是现在信息爆炸的时代。比如可能一个热点事件和热搜,或者是甚至一句话都可能带来业务量的大幅的增加,传统的资源建设方式已经无法追赶整个业务发展的脚步,海量分布式的弹性资源会成为未来整体的趋势。
如果把端侧的算力做的很高,让所有的业务都部署在端侧,不能解除解决上述的问题,能够运行AI的手机占有率,可以看到是相对比较低的端侧的应用整体的发展还是依赖于整个的客户的覆盖度,要想让更多的用户使用业务,就要考虑到如何服务绝大多数的中低端的手机用户。从数据上可以看到中低端的手机用户占到大概六成以上的份额,到2014年全球支持AI手机的出货量也仅仅可以达到15%,苹果也才刚推出第一款AI手机,整个的AI的手机终端的替换的周期会变得更长。
第二模型的整个规模在不断的增大,之前端侧可以运行的业务的规模可能是模型规模,可能是在千万的参数的规模,现在已经增长到十亿的参数规模,即使是在高端的设备,它同时运行的模型的数量也是有限的,算力和内存仍然是未来发展的的瓶颈。最后就是技术问题,可以看到想让模型在端侧运行考虑资源的限制,要做模型的量化,它准确性的问题就会降低。第二就是可能有不同的终端和芯片,做机型的适配会带来更多的投入,同时手机的耗电量也是急需要解决的相应的问题,为此要持续的做大量的人力和成本的投入,而把整个的推理运行在离用户更近的边缘云上,既能解决实验问题,又能解决整个客户群体的覆盖问题,同时也能避免持续的技术投入,将更多的精力注于业务本身的演进。
接下来看边缘云在推理场景下,提供的解决方案,首先是算例形态,边缘云在广分布的节点上,目前提供四类不同价位以及面向不同场景的GPU算力,单卡的显存从12G到48G不等,后续也会根据整个的GPU的发展,不断的在边缘云上拓展算力规格,以千万还有lama two的模型为例,目前可以覆盖大概从0.5b到72b不同参数规模的大模型的应用。可以支持轻量化的对话智能客服,像文生图以及视频的理解 代码生成,包括内容创作和智能助理相应的场景。可以根据自己的业务需求,灵活选择边缘上提供的不同规格的算例资源,强调显存的需求和选型,按照lp16的精度进行核算的,如果做精度的下降,在边缘上可以支持的模型的规模会更多,为了更好的支撑在边缘部署推理的业务,边缘云在不同的层面提供配套的增值的能力。首先在基础资源层。
除了提供GPU的算力外,还提供CPU的算力以及存储服务,帮助用户在边缘做数据的持久化,在配套资源层提供完备的网络的服务,诸如负载均衡、net网关 EIP等服务,同时提供容器化的服务,依赖于容器多开的技术,可以帮助用户在一个计算实力内运行多个容器资源,提升单实力的资源利用率,帮助用户实现成本的优化,为帮助用户提升整个的推理性能,在业务加速层提供诸如自研的AIACC的推理加速引擎,以及开源的TensoRT的工具包,用户可以选择不同的加速方案做自有的推理业务的落地,同时边云提供业务调度的能力,用户可以将自有的业务托管到边缘云进行调度,边缘云可以根据调度策略来就近的接入业务,将用户就近接入业务服务节点。同时可以在节点故障或者是就近资源不足的时候,将业务调度到可用的相关节点。在底层提供协同存储的能力,可以帮助做不同节点之间用户数据的实时的数据同步。这样可以确保用户在任意节点,用户服务和介入都有具有一致性的用户体验。
下面分享典型的边缘推理的实践案例。不论终端云化还是应用的云化还是IGC,都应当采用边缘云的内容生成和分发一体化方案,这样可以保证终端用户的体验的一致性,以及用户的资源上移边缘云上不会有任何的体验的改变。这是第三方的支付平台的案例,它在边缘云上使用整个的推理场景下的全套的配套的能力,最早是在端侧运行自己的相关的推理业务,当时的模型大概是一个百万或者千万级的参数规模。主要的服务就是向用户提供搜索的推荐,营销的推广,甚至支付业的渲染以及展示的能力,随着整个的业务的丰富,导致模型在不断的增大,同时推出智能助手的服务。智能助手不仅可以语音的形式回答各种的问题,同时可以语音的形式做一些比如下单外卖,或者在星巴克点杯咖啡等这种下单场景的自助的服务。
可以语音的形式交互,所有的交互流程都是由后台的AI推理能力自动化完成,不需要再和手机侧做任何的相应的交互,这种业务上线之后,整个的模型增长到十b以上的规模,这时候发现端侧已经无法帮助用户运行相应的服务,这时候要做相应的架构的改变,如果将整个的业务上移到中心云,如果延迟敏感的业务在延时上影响是比较大的,客户的要求是在100毫秒内就要返回给用户相应的处理结果,自主的处理的推理的业务在70毫秒的处理时间,所以对于网络的传输延迟就要求比较高,要控制在20到30毫秒。
所以只能时间敏感的业务部署到边缘云,边缘云可以提供离用户更近的边缘算力优化整个的用户体验。除了异构算力的GPU资源以外,也将整个的用户调度部署到边缘云,采用边缘应用托管的能力,整个的应用调度以及资源编排都是由边缘云帮他完成,客户端接入之后,所有的业务调度都是边缘云自动完成,不需要自己再做业务调度上的处理,同时会做边缘之间、节点之间的数据同步,比如这个用户今天在北京,他使用业务的时候,用户数据留存到北京,明天他出差到上海,这个时候将用户的数据同步复制到他所有的边节点上,他在上海在使用业务的时候,用户数据自然就在上海可以获取到,就由上海的节点做相应的处理。
目前第一阶段是将所有的算力按区域覆盖,覆盖到七个大区,整个的时延可以到30毫秒,整个的二期会按省份做更细化的下沉,这是物联网的边缘的场景,这是智慧养殖的案例,起初这个养殖场是采用本地的推理能力,买了很多的GPU的卡放在本地做养殖场的图像的采集,影像的分析,以及环境的数据的获取,智能化的养殖业务做优化,但是随着整个数据采集规模的不断增长,以及智能化AI算法的提升,其实它原有的本地化的GPU的算力就无法满足整个的业务处理,这时候需要弹性的资源,在模型规模变大之后,能够快速支撑。其次就是需要离养殖场更近的资源做本地化的业务的分析。所以最终选择边缘云帮助他提升快速获取边缘算力的能力。另外这种养殖场自然环境的限制。
在本地很难提供大规模的标准化的IT技术资源,它经常会出现IT设备的故障,以及环境原因导致传感器或者服务器的受损,影响整个的业务处理,这时候将所有的业务上移到本地的边缘云之后,可以帮他提供一套网络和数据的安全服务体系,以及更稳定性的边缘的IT基础设施的能力。
同时养殖场还有一个另外的业务诉求,就是要将所有的本地数据再回传到中心机房,由中心机房做数据的汇总,做整体的数据的分析,发现大量的数据通过回传到中心机房,整个中心机房的网络的压力也会变得更大,同时收集到数据之后再做整体的分析,会将整个分析的数据处理时长拉长,当把数据分布式的在边缘进行预处理之后,再将半结构化或者结构化数据回传到中心之后,可以加速整个数据分析的效率,这样可以更快的提升整个业务效率,这里面的优势提供分钟级的边缘的算力能力,同时提升50%的数据处理效率,以及提升30%的运维的处理效率。因为原来所有的设备都是在本地要做相应的运维,现在可以通过边缘云,通过整体的控制台做统一的资源的运维,另外提供边缘网络的能力,就是通过本地的数据中心以及边缘之间拉通专线的能力,将边缘云上的数据以安全性的传输方案传输到总部机房里,避免数据在传输过程当中泄漏或者篡改的风险。
这个是互联网车企的案例,它之前整个的语音交互是部署在华北和华南两个机房当中,它所有的车机的交互都要回到这两个数据中心,要做整个语音到文字的转换以及文字推理,做生成文字之后再做文字到语音的转换,这个处理效率比较低,如果用户在相对比较发达的城市,或者是离北京或者是广州比较近的城市,它的时间响应还是能满足需求的,一旦开车到外地,或者网络状况不是很好的地域,所以车机的响应时延会变高。
提供的方案就是将所有语音交互部署在边缘,由边缘做相应的语音转文字以及推理的能力,同时带由文字转回语音反馈的客户。这样可以将整个的时延降低到30毫秒内。同时之前在华北以及华南有专线的互联,保证主备的业务的同步,以及这两个节点之前都是采用BGP的带宽做业务和梳理,随着车的部署规模的变大,它整个带宽的成本也会大幅的增加,所以采用边缘之后,边缘云提供的主要是以单线的带宽为主,所以在带宽成本上可以降低大概50%的整体的成本,另外通过边缘云可以做相应的业务弹性的增加,车流动之后,如果业务在某一地发生大幅的增长,比如过节的时候,这个流动性是相对比较大的,就不需要做本地化的业务的传统资源的部署,只要通过边缘获得弹性的资源,就可以支撑整个的业务快速服务他的客户,可以看到第一就是车机可以通过就近的方案接到边缘,处理之后可以通过边缘云和两个数据中心,通过专线做相应的打通,做数据的备份以及同步,这样做基座的成本上的优化,同时提升整个业务的上线效率。边缘推理有特定的应用场景,帮助做快速的业务,平业务架构的评估以及资源的选型,下面总结出边缘云部署推理业务的三点论:
第一如果业务的服务端性能不足的时候,边缘云可以在离用户更近的边缘提供多品类的推理资源,满足不同的参数规模的需求。第二如果业务是业务时间敏感的业务,边缘可以帮助提供同城的业务介入,以及同城的资源的业务处理,满足低延时的业务场景。第三如果业务是遍布于全球,云可以提供分布式的弹性资源,边缘云目前已经有600加个节点,未来会持续性的做扩充满足整体的业务需求。
三、云游戏在边缘承载的技术演进
看到ENS的广覆盖、低时延就近接入和弹性可扩展能力在AI推理场景迸发的最造价巨大价值。低时延高性能的网络需求,除了AI推理,云游戏其实也是重要场景,尤其是更多的云原生游戏的出现,它对云基础设施也提出更多的要求,下面分享云游戏在边缘承载的技术演进,主要是三个内容。
第一部分云游戏与边缘计算,一个结论就是云游戏是强依赖于边缘计算,现在云游戏是边缘云整个异构算力方向规模最大的业务场景,云游戏是一种以云计算为基础的在线游戏的方式,从2020年开始,随着整个5G的大规模商用,以及整个边缘计算的技术成熟,云游戏整个体验就达到大规模商用的标准,越来越多的玩家开始接受云游戏方式,整个云游戏也进入高速发展的时期,对于云游戏的运营平台,随着整个月活用户的增长,整个商业模式也是在逐步的跑通,对于云算力的需求也是在不断的增长,云游戏要做好,云是非常关键的点,这些云游戏平台对于云有非常多的需求,第一低时延是整个游戏里面就至关重要的因素,一般在游戏行业公认的玩家就是端到端的操作延迟是要在100毫秒以内,像射击或者竞技类的游戏的对延迟的要求会更高,相比于本地游戏,云游戏增加云端的抓屏编码,网络传输到客户端,由客户端在做解码等这一系列的流化的操作,其中最不可控的整个网络传输要保证比较好的云游戏体验,基本上整个网络延迟是要稳定在30毫秒以内,对整个网络和体验的苛刻要求。
云游戏必须强依赖于边缘计算,在资源的维度为保证延时,以及为覆盖更多的玩家,基本上都是需要云提供广覆盖的分布式资源,基本上像国内要实现大区的覆盖,往后也要往省级甚至市级的覆盖演进。另外游戏有重要活动以及周末节假日,它有比较大的弹性的需求,也需要云支持比较充足的资源统一,提供快速的扩充容,在游戏的维度,为云游戏的运营平台,它是要提供更多的游戏,才能满足玩家的诉求,游戏有两个维度,第一个维度就是游戏的数量,首先要支持运行更多的游戏,这种游戏问题就是游戏兼容性,就是不同的硬件,不同的系统,会遇到更各种就兼容性问题,比如游戏的一些闪退闪屏,或者掉帧,以及各种奇怪的问题,因为游戏是跑在云上,相应也需要云解决游戏的各类兼容性问题。游戏兼容性是生态的问题,现阶段是游戏云化,就是把存量的游戏就是放到云上实现云化,更多的是需要云适配游戏,随着整个云游戏规模的扩大,也会有更多游戏优先适配云,其次就是游戏的规模,现阶段影响游戏规模的是成本,因为在云游戏的模式下,整个算力的成本从玩家的身上转移到平台方,平台要运营游戏,就要准备配套的算力资源,比如要准备十万路的游戏路数,一路是大概100块,每个月就要上千万的成本支出,对于云游戏平台是非常大的成本压力,相应需要云不断的提高更有性价比和更低成本的算力。最后针对云游戏的其他的一些场景化需求,需要云提供比较丰库的底层能力,包括计算、存储、网络以及相应的技术方案。ENS是边缘节点服务,目前ENS在全网有600多个节点,能够提供30毫秒的能力。
从二一年开始,为响应整个云游戏市场的快速发展以及客户的需求,在内部启动云游戏的专项战役,针对云游戏场景做垂直化的技术架构升级和专项突破,目前在ENS其实已经落地非常多云游戏客户,整个线上也有几十万的云游戏的入数,在国内以及部分的海外都有充足的资源,提供三个九以上的可靠性,以及丰富的产品技术解决方案,未来会持续投入,协同客户打造云游戏的极致体验。
第二部分展开讲基于面向云游戏场景的技术方案,首先看整个云游戏的架构,分为云边端,云游戏平台需要在中心云部署全局的的运营或者运维系统,在边缘直接运行游戏,游戏运行需要算力以及相应的配套像存储网络的能力,客户端通过SDK,就近调度到边缘节点,通过流化协议进行交付,ENS的定位是提供分布式的边缘基础设施。
首先为云游戏的客户提供边缘节点以及边缘节点的算网的能力,同时在基础能力上,也会根据客户的需求提供垂直化、场景化的技术方案,帮助客户更快的上业务,同时在云游戏场景大规模打磨以后,把一些能力相应的沉淀和抽象出来,在一些横向场景上像渲染,云渲染,还有AI推理做复用,在云游戏场景下,游戏兼容性是大前提,兼容性是生态问题,游戏主要是分为PC端游和手游,端游是整个PCx86的生态技术,生态手游就是ARM+安卓,还有苹果的技术生态,端游依赖x86的GPU,手游依赖一些ARM CPU,因为游戏渲染其实是肯定是需要GPU的,所以相应的云需要提供各种异构算力,现阶段云游戏还是在初期阶段,现在大部分的游戏主要还是运行在本地的客户端,因此对于游戏开发者,肯定是优先针对终端的硬件和操作系统进行游戏适配和优化,现阶段要支撑云游戏,更多的需要云做游戏的适配。
ENS也是针对痛点提供软硬一体的技术方案,支持多种的硬件和虚拟化技术,在端游方面提供和本地PC一致的异构的GPU计算实力,支持虚机和裸金属的计算形态,支持插箱多开,兼容top500的热门端游,在手游方面基于高端的ARM SOC芯片,支援安卓的虚拟化和安卓的多开,整个兼容性非常好,能够兼容市场上top1000的热门手游,在满足游戏兼容性的前提下,成本就是影响整个云游戏规模扩大的核心卡点,在整个业务的起步的早期,提供的是不具备多开能力的,只能运行一个游戏,对客户来说就是成本巨大的事情,规模越大,亏损的越多,当时客户只能小规模的开放,让玩家使用,但是发现玩家吐槽比较多,就是整个排队是比较严重的,这核心是成本问题,成本不解决,规模上不去,就需要玩家排队,针对这个业务痛点,协同客户攻坚,实现多开技术,支持运行多个游戏与原神的左游版本就是AIC Q1的规格是支持双开的,最新要上线的规格是支持三开甚至四开,通过多开技术,对客户来说就是整个游戏的单路成本是大幅降低,最终客户就能大规模的做实力的扩容,玩家也就不用长时间的排队,整个玩家的付费意愿也是大幅提升,这样就形成一个正向的循环,最终实现整个商业化画上的成功,搭配多开能力提供配套的云OS。
以手游为例,在云上就针对云上定制的云安卓OS,针对云上的特性做深度的定制,首先因为云上的整个电力和散热条件是能更好的发挥硬件的性能,所以可以结合整个硬件,还有系统参数做专门的调优,大幅提升整个游戏的运行真力,另外它没有手机端的外设,比如屏幕wifi或者摄像头。之是需要云上的系统做很多的外设虚拟,配合流化的SDK做各种外设的模拟,云上的整个系统本质上是虚拟化出来的,现在很多游戏是会进行模拟器和虚拟化的检测,是需要云上的系统做各种系统级的系统仿真防止游戏的风控,云上的系统支持各种存储化的,像NAS云盘,支持各种运维操作,客户通过提供的OpenAPI或者控制台实现灵活的管控,在解决整个游戏兼容性和成本的问题以后,整个业务规模在快速增长的,相应的客户提出更多的需求。
第一个是游戏秒开,就是当玩家要去玩游戏的时候,游戏能够快速的安装并且启动,因为如果整个启动时间过长,玩家的体验感非常差,会导致玩家大幅的流失,当运营的游戏比较少的时候,比如运营两三款游戏,一般的做法就直接把这个游戏装在本地盘和本地系统。但是有的客户是需要运营上百款甚至上千款的游戏,一般游戏包也都是比较大,基本上就要T级别的存储空间。首先本地盘一般是无法满足这么大的空间,另外整个性能也是无法满足要求的,所以需要提供云存储的技术方案。
第二个就是游戏快速更新,游戏版更在游戏里面行业里面的高频的事情,游戏每周都有一到两次的热更,大概一到两个月有大的版更,在云游戏场景,一般云游戏的运营平台,比如全国五大区,几十个节点有几万路的资源,在版更的时候就需要全网的节点和实例完成快速的游戏更新,因为如果更新慢,也会导致玩家的吐槽和玩家的流失,最后有比较场景化的需求,就是玩家数据的持久化,玩家在登录云游戏以后,会产生增量的数据,这里面其实有两个比较关键的数据,一个是游戏存档,还一个是登录态,游戏存档肯定是要帮玩家持久化的,如果存档丢失,对玩家来说是致命的问题,登录太保持也是对体验影响很大的功能。如果玩家每次登录云游戏,每次都要弄认证登录,体验也是很差,所以一般平台都是要针对玩家数据做持久化,有个技术难题就是因为不同的游戏做持久化和存档的数据,文件是没有完全统一,运营平台需要针对不同的游戏分析和提取不同的存档或者登录态文件,如果游戏多,工作量是非常大的,针对场景化的需求和业务痛点,提供一整套的解决方案。
首先针对游戏存储和游戏秒开的需求,实现算存分离。就是把游戏包存在云盘,实力通过挂载云盘实现整个游戏的切换金和游戏的快速启动。
第二个针对游戏快速反用的需求,提供跨节点的数据同步能力,客户来只要选择一个节点的实力做游戏更新,通过延时的多点协同的方案,能够实现全网所有节点大概几万路的快速同步更新。
第三个针对玩家数据的持久化需求,支持读写分离的方案,通过将玩家的写数据卸载到本地盘,好处就是能够快速提取增量数据做差,做统一的方案做持久化,不需要针对每个游戏case 的分析,通过这一系列的技术方案,帮客户能够高效的运营上百甚至上千款的游戏,玩家也能够有非常好的游戏体验。
最后整个ENS边缘节点的特点就是节点非常多,覆盖非常广,但是单节点的规模是比较小的,特别是在云游戏场景下,对整个节点的网络架构也有新的需求,第一个就是整个节点架构是需要支持纳管更多的异构服务器,整个节点的密度也是大幅增加,比如目前比较大的节点就是单节点,是要支持4到5000度的云游戏的规模。
另一方面游戏客户有非常多的网络的需求,支持比如流化网络探测或高可用的场景,也是需要整个节点网络提供比较灵活的主网和网络配置的能力,为此在云游戏的场景,在内部率先基于超融合硬件网杆的方案实现一套新网络架构,能够支持各种异构硬件和虚拟网络BPC,包括NAT LB的各种网络能力,在功能性能上满足客户需求。以上是针对云游戏提供的技术方案,这些方案也是在整个业务发展过程中,协同客户不断的落地和打磨,未来会持续打磨,在整个性能、稳定性和功能上进一步的提升,提供更多的技术方案,帮助客户解决各类的问题,最后针对就是云游戏做未来的畅想。
云和游戏都是走在技术前沿的两个领域,云游戏方向在未来也会有非常多的技术迭代,相应的云肯定会持续提供更大的存储更强的算力支持游戏的各种算力需求,像图像渲染和AI的场景,现在很多游戏也在尝试把游戏里面的信息接入AI的能力实现更真实的交互,另外游戏渲染引擎是游戏里面的关键一环,在云游戏场景下,渲染引擎未来也是会和云更加融合,现在的游戏线缆都是客户端的单点渲染并且受限整个客户端性能,一般都是要玩家启动游戏以后,根据玩家的固定的视野做局部的渲染,如果放在云上,云是可以提供无限的算力,这样是可以做集中式的渲染,实现真正永续的数字世界,模拟真实世界做真正做实时渲染。
第三点就是整个游戏对体验和延时,还是不断的提更苛刻的诉求,相应的对于编译计算,也是需要更加的下沉,更加的覆盖,离更多玩家离就更近,对游戏的部分,我认为可能在未来不区分手游,所有游戏都是在云上,玩家可以通过不同的客户端随时随地的接入,像手机、电脑、电视屏、汽车的智能座舱AR BR,甚至脑机接口都有可能。并且游戏运行在云上以后,它其实不再受限于客户端的算力,游戏开发者有更大的空间做游戏的创作,比如电影头号玩家里面的绿洲世界,非常期待在未来能在真实体验现实世界中的绿洲。
随着整个市场需求的增长和技术的快速发展,边缘云整个应用场景是未来是会更加广泛,并且整个边缘也会和AI的更深度的融合,为各行各业提供更加智能化、更加实时化的解决方案,整个边缘也会成为整个数字世界的基础设施。