案例详解 | 当Rokid若琪遇上阿里云函数计算

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: 案例详解 | 当Rokid若琪遇上阿里云函数计算


Rokid创立于2014年,是一家专注于人机交互技术的产品平台公司。Rokid作为行业的探索者,目前致力于AR眼镜等软硬件产品的研发及以YodaOS操作系统为载体的生态构建。


早在2017年,Rokid就与阿里云达成战略合作,双方携手为行业打造全栈语音智能方案语音解决方案。


此后,Rokid又与阿里云无影深度融合,推出了最新款的AR眼镜以及Rokid Station,连接云端和眼镜端,完成轻量化计算、4K高清解码等通用能力,突破了人们对于移动计算平台的想象,让沉浸式的云上办公和娱乐成为可能。


随着 Serverless 技术浪潮的全面到来,Rokid面临的图像处理难题在阿里云函数计算上找到了新解法。



架构革新的必要性

Rokid 在数字文化领域,围绕展陈导览解决方案,主要形成了三维建图,场景创作,场景体验三个业务模块,每个模块都有不同的后台平台支撑。


  1. 1. 三维建图:制作展陈导览的第一步是取景,通过设备获取场地的真实布景,然后通过算法处理,进行三维建模,之后可以经过创作器进行下一步的内容创作。
  2. 2. 场景创作:在三维建模生成的视频流上创作,通过 Web3D 渲染引擎,将创作内容与场景紧密结合,结合硬件设备,在 AR 设备使用时,形成一体化的体验效果。
  3. 3. 场景体验:AR 设备在使用时,根据定位服务,锚定在场景中的位置,根据位置的不同会显示不同的空间内容,达到扩展现实场景的效果。


整体的产品架构图


三维建图,场景创作,场景体验三个场景都涉及到了的图像处理,需要大量的 GPU 资源。


其中三维建图属于离线任务,在构建展陈模型时,需要将整个展陈场所的视频内容进行预处理,是三个场景中消耗算力最大的部分;场景创作需要配合创作软件,GPU 资源主要来自开发机器;场景体验在设备真实运行时提供实时服务,主要功能是定位服务,对服务的实时性要求很高。


为了支撑 GPU 算力的需求,Rokid 在开发的初期就决定尽可能的使用云资源承载,充分利用云计算的红利。


最初,Rokid 选择购买 ECS 的 GPU 机型,用于业务的开发和测试。在三维建图时,一般都会一次性采集展陈环境的所有场景资料,视频量巨大,通过 ECS 串行处理需要时间很长,一个1小时的视频资料,通过一台 ECS GPU 机器需要处理3小时左右。


Rokid 做的第一步是并行化,通过拆分 CPU 和 GPU 处理逻辑和优化任务编排方式,尽可能的让可以并发处理的部分拉起更多的资源加大并发量,通过这一系列的优化,视频的处理时间得到了不错的提升。


在并发资源方面,Rokid 选择的 GPU 计算资源是 ECI,相对 ECS,ECI 可选的资源粒度更加多样,特别是在小规格的选择上,对于切分的小块视频,通过并发的使用小规格 ECI 实例并行处理,大大缩短了整体视频的处理时间。为此,Rokid 内部平台还开发了一套针对阿里云 ECI 资源的调度模块,方便内部快速的申请和归还 ECI 资源。


通过对 ECI 资源的灵活使用,在保证高峰期任务处理并发度的同时,也保证了算力成本的可控,使用流程上得到了初步的优化。但是通过一段时间的使用,发现还是有很多的不足之处,主要问题总结如下:


  1. 1. ECI 资源的申请和释放都依靠使用人员主动操作,有时在使用完毕后会忘记及时释放资源,导致资源闲置浪费。且开发和维护 ECI 的调度程序也需要占据对应同学一定的精力,带来了一些额外的运维工作。
  2. 2. 三维建模的任务经过拆分后,分成了好几个步骤,每个步骤的任务都需要异步执行,需要一个系统维持任务的调用关系,在上一个步骤完成后,拉起下一个步骤的任务继续运行。
  3. 3. 在运行过程中,会存在异常情况,排查下来,有时是因为申请的计算资源规格过小导致计算负载较高,有时是存储异常或存储空间写满,还有些情况是程序本身性能瓶颈。对于程序的整体监控缺乏,使得出现问题时不能第一时间发现,发现有异常排查过程不够直观,需要通过多种工具获取运行指标分析。
  4. 4. GPU 算力在云上规模有限,在高峰期会偶尔存在 ECI 资源弹不出的情况,影响开发效率。


为了解决上面问题,Rokid 内部架构组寻求优化已有的架构,针对第2点,Rokid 自行维护了一个总的调度系统,进行任务编排;针对第3点,通过阿里云 ARMS Tracing,Prometheus,Grafana 等组件的引入,结合 ECI 硬件指标,统一收集到 SLS,形成统一的监控报表,再配以监控指标的告警,也能够初步的满足 Rokid 使用需求。


但第1点和第4点,很难通过增加云产品或者内部应用程序解决。为此 Rokid 架构组开始寻找云上新的产品,以求彻底的解决使用过程中的痛点问题。此时,Serverless 架构的函数计算出现在了 Rokid 架构师的视野,经过一段时间的调研使用,函数计算的各项能力都能够很好的满足 Rokid 使用场景。



函数计算的出现恰逢其时


函数计算是事件驱动的全托管计算服务。使用函数计算,客户无需采购与管理服务器等基础设施,只需编写并上传代码或镜像。函数计算会准备好计算资源,弹性地、可靠地运行任务,并提供日志查询、性能监控和报警等功能。


函数计算提供 CPU,GPU 的算力,秒级计费,客户只需要为实际资源使用付费。资源弹性可根据定时,请求量等指标自动伸缩,无需维护调度,负载,重试,异步回调等组件,提供了开箱即用,用完即走,按量付费的极致 Serverless 能力。



底层依托阿里云的大计算池,提供近乎无限的计算资源,通过阿里云的 cGPU 技术,可将单卡 GPU 资源切分成多种更小粒度的资源规格。客户在函数计算选择 GPU 规格创建函数,在有请求时,函数计算会实时从预热资源池获取资源,配合对应的镜像程序,启动客户函数,启动完毕后对外提供服务。


函数计算在第一次运行实例时会涉及到资源的拉起,弹性交付时间在1s(热启动)~20s(冷启动)。Rokid 的三维建图场景是离线任务,单个视频的处理时间也在分钟级,对于秒级别的启动时延完全可以接受。


在三维建图任务接入函数计算后,Rokid 不再需要手动申请 ECI 资源,在使用结束之后也不需要在手动释放。


  1. 1. 函数计算会根据请求流量,动态的拉起与请求量匹配的后端 GPU 算力资源,在请求处理结束后,一段时间没有新请求的情况下,自动释放资源;
  2. 2. 整个三维建模在拆分后涉及好几个步骤,每个步骤都是异步执行,通过函数计算的异步系统,在一个步骤的任务完成后,可以自动触发下一个任务;
  3. 3. 函数计算控制台内置了指标监控,异常告警,链路追踪,调用日志,异步配置的功能,可以满足 Rokid 从开发,运行监控到运维全函数生命周期的功能需求;
  4. 4. 函数计算底层依托阿里云大计算池,加上预热和资源评估的后端算法,可以最大程度的保证资源供给。


这几点正是 Rokid 之前遇到的痛点问题,通过接入函数计算单一的产品,就解决了 Rokid 近乎全部的主要问题。接入函数计算后,Rokid 的云产品技术架构如下:



函数计算资源利用率监控图如下,从监控图可以看出,在有任务进入时,GPU 计算利用率可以达到60%甚至接近100%。




体验与架构的妥协


Serverless 理念的函数计算确实给 Rokid 带了很多的便利,在高峰期资源的扩展性和成本节约方面都做到了当前云产品的极致,但函数计算也并非万能,对于 Rokid 的场景体验功能,也就是需要实时提供定位服务的模块,函数计算还是存在了一定的问题。


函数计算在第一次拉起实例资源时,会存在1s(热启动)~20s(冷启动)的启动时间,这个时间对于实时定位服务模块是不可接受的,实时定位是在使用者身处展陈场地时,AR设备通过实时定位,获取空间位置的AR拓展信息,接口响应的时间对客户的体验非常重要,定位请求需要在1s以内返回。


在成本和服务质量之间,Rokid 选择了服务质量优先,场景体验模块采用 ECI 部署,通过每天的定时任务,在高峰期提前弹出更多的 ECI 实例,在低峰期时,保留少量的 ECI 实例,以此达到体验和成本的平衡。


另一方面,函数计算在实时的场景也并非完全没有解决方案。目前 GPU 的模型一般都很大,镜像都在 G 级别,所以对于第一次资源拉起,在接下来一段时间内还看不到跟 CPU 资源一样100ms级别的拉起速度。


针对实时场景,函数计算 GPU 实例在做的是预留实例,该功能可以在资源闲置时,释放计算资源的同时,保留程序的内存运行镜像,在有新的请求进来时,只需要供给算力资源,函数就能提供服务,免去了中间硬件资源拉起,函数镜像拉取和启动的时间,可以提供实时的服务。


预留实例已经在 CPU 实例上线,闲置时 CPU 价格是运行态的1/10,在保证实时能力的情况下,大大降低了资源成本。GPU 版本的预留能力预计年底上线。


场景体验采用 ECI 后,Rokid 的业务架构



出色的效果和进一步的期待


通过一系列的云架构改造,当前 Rokid 三维建图模块运行在函数计算的 GPU 资源上,场景体验模块运行在 ECI 资源,在成本和性能上,都做到了兼顾,且给整个系统强大的可拓展性,达到了系统设计时设定的架构目标,从2023/2上线提供服务以来,达到了不错的效果。


其中三维建图模块降本明显,相比最初的 ECS 架构,算力成本降低了40%,更为重要的是,通过实时的并发处理,大大减少了子任务的排队时间,加快了整个任务的完成时间。


下一步,Rokid 对于函数计算的 GPU 预留实例还是非常期待,期待函数计算能够尽快上线,这样 Rokid 内部可以将整个的 GPU 算力都迁移到函数计算,达到架构的统一。


经过展陈展览项目的实践,Rokid 相信以函数计算为代表的 Serverless 一定是云计算的未来,通过 Serverless,云计算的使用者不再需要关注底层的 IaaS层运维和调度,在保证成本最优的情况下能够得到最大限度的拓展能力,且在整服务的生命周期,都能使用云产品提供的原生能力,简单,快速的定位,解决问题。


Rokid 在3D模型处理,音视频后处理方面正在大规模尝试函数计算,Rokid 相信以函数计算为代表的 Serverless 架构也一定会在越来越多的云产品上得到应用。



作者:

王彬、孙良豹 | 阿里云解决方案架构师

姚兰天 | Rokid 技术专家

聂大鹏 | 阿里云高级技术专家



/ END /

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
目录
相关文章
|
2月前
|
人工智能 自然语言处理 Serverless
阿里云函数计算 x NVIDIA 加速企业 AI 应用落地
阿里云函数计算与 NVIDIA TensorRT/TensorRT-LLM 展开合作,通过结合阿里云的无缝计算体验和 NVIDIA 的高性能推理库,开发者能够以更低的成本、更高的效率完成复杂的 AI 任务,加速技术落地和应用创新。
143 13
|
2月前
|
存储 人工智能 运维
正式收官!阿里云函数计算携手优酷,用 AI 重塑影视 IP 创新边界
近日,阿里云联合优酷发起的 Create@影视 IP x AI 应用创新大赛,将网剧《少年白马醉春风》这一热门影视 IP 与阿里云 AI 技术相结合,由阿里云函数计算提供 AIGC 技术支持参赛者基于网剧《少年白马醉春风》IP 或“少年江湖”精神内核,用 AI 生成角色场景设计、手办设计、破次元合照、数字人等多样化的作品。
115 10
|
22天前
|
人工智能 弹性计算 运维
触手可及:阿里云函数计算助力AI大模型的评测
阿里云推出的面向AI服务器的功能计算(Functional Computing, FC),专为AI应用提供弹性计算资源。该服务支持无服务器部署、自动资源管理和多语言支持,极大简化了AI应用的开发和维护。本文全面评测了FC for AI Server的功能特性、使用体验和成本效益,展示了其在高效部署、成本控制和安全性方面的优势,并通过具体应用案例和改进建议,展望了其未来发展方向。
109 4
|
2月前
|
SQL 分布式计算 Serverless
阿里云 EMR Serverless Spark 版正式开启商业化
阿里云 EMR Serverless Spark 版正式开启商业化,内置 Fusion Engine,100% 兼容开源 Spark 编程接口,相比于开源 Spark 性能提升300%;提供 Notebook 及 SQL 开发、调试、发布、调度、监控诊断等一站式数据开发体验!
130 3
阿里云 EMR Serverless Spark 版正式开启商业化
|
2月前
|
人工智能 运维 大数据
阿里云“触手可及,函数计算玩转 AI 大模型”解决方案评测报告
阿里云“触手可及,函数计算玩转 AI 大模型”解决方案评测报告
90 2
|
2月前
|
Cloud Native 关系型数据库 Serverless
基于阿里云函数计算(FC)x 云原生 API 网关构建生产级别 LLM Chat 应用方案最佳实践
本文带大家了解一下如何使用阿里云Serverless计算产品函数计算构建生产级别的LLM Chat应用。该最佳实践会指导大家基于开源WebChat组件LobeChat和阿里云函数计算(FC)构建企业生产级别LLM Chat应用。实现同一个WebChat中既可以支持自定义的Agent,也支持基于Ollama部署的开源模型场景。
352 13
|
3月前
|
前端开发 小程序 Serverless
异步任务处理系统问题之阿里云函数计算FC的应用场景有哪些
异步任务处理系统问题之阿里云函数计算FC的应用场景有哪些
|
3月前
|
存储 运维 安全
函数计算产品使用问题之如何获取到访问其他阿里云服务所需的AccessKey、SecretKey或STS Token
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
3月前
|
Kubernetes Serverless 调度
异步任务处理系统问题之在阿里云函数计算平台上用户提交异步任务的问题如何解决
异步任务处理系统问题之在阿里云函数计算平台上用户提交异步任务的问题如何解决
|
3月前
|
Serverless 数据安全/隐私保护 开发者
Serverless 架构问题之阿里云函数计算在事件生态层面如何解决
Serverless 架构问题之阿里云函数计算在事件生态层面如何解决
41 0
下一篇
无影云桌面