基于阿里云 Serverless 容器服务轻松部署企业级 AI 应用

简介: 基于阿里云 Serverless 容器服务轻松部署企业级 AI 应用

作者:元毅、坤仑


数禾科技 AI 模型服务基于云原生架构,为不同业务环节提供智能决策支持。随着业务的快速发展,摆在数禾面前的难题是支撑模型计算的底层应用资源无法根据请求量来调整机器资源支持运算能力。同时,随着模型在线推理服务数量的增加,数禾的模型服务也变得越来越庞大、臃肿,难以管理。这种状况不仅导致了资源浪费,还增加了维护和升级的成本。


为了解决这些“顽疾”,数禾科技采用阿里云 ASK 部署线上模型,无需 K8s 节点管理,根据实时流量动态使用 POD,资源成本节省 60%;通过 ASK Knative 服务,解决了数模型的灰度发布和多版本并存问题;得益于ASK 自动伸缩和缩容到 0 的优势,降低运行成本,大幅提升服务可用性。


目前,该系统已上线部署 500+AI 模型服务,每天能够提供上亿次查询决策服务,具备无限横向扩展的能力。同时,数禾科技 AI 模型服务支持自动调整容量,满足不同业务压力下的需求,从而保障业务的稳定运行。不仅如此,采用云原生架构方案,平均部署周期由之前的1天缩短至 0.5天,大幅提升了研发迭代效率,从而加速商业化应用的进程,为金融业务提供新的增长动力。


关于 Serverless Kubernetes(ASK)


Kubernetes(K8s)作为一个开源容器编排系统,被广泛运用于云原生应用的开发与管理。其优势在于降低运维成本,提高运维效率,形成了以 K8s 为核心的云原生生态。然而使用 K8s 常常需要用户面对的问题较多,例如资源规划、容量规划、Node 与 Pod 的亲和关系、容器网络规划、节点生命周期管理、操作系统版本、容器运行时版本兼容性等,这些问题显然不是用户所希望关心的,用户期望做的事情是专注在自身的业务逻辑,尽可能不关心这些基础设施。Serverless 的核心理念在于让开发者更聚焦业务逻辑,减少对基础设施的关注。因此我们将 K8s 复杂性下沉,提供 Serverless Kubernetes 的产品能力。



那么 Serverless Kubernetes 有哪些优势呢?主要包括以下三个方面:免运维、自动弹性、按需付费。


首先,Serverless Kubernetes 组件全托管免运维,支持自动升级 k8s 版本。其次,该产品具有极致弹性能力。可以根据业务需求,自动弹性、秒级扩容,从而在满足业务增长时自动容量规划。最后,使用 Serverless Kubernetes 的用户,只需根据实际使用量按需计费。除此之外,ASK 还提供了新增的 U 实例规格支持,统一支持多款处理器,相比上一代主售实例降价高达 40%。



为了让更多用户体验最佳实践,我们特地将其打造成了一个体验场景,配合热门开源的 AI 项目 Stable Diffusion,用户可以通过真实的云上环境,轻松体验容器化部署具备企业级弹性能力的 AI 模型。


在 ASK 中部署 Stable Diffusion


随着生成型 AI 技术的能力提升,越来越多的注意力放在了通过 AI 模型提升研发效率上。作为 AIGC(AI Generated Content)领域的知名项目 Stable Diffusion,可以帮助用户快速、准确地生成想要的场景及图片。不过当前直接在 K8s 使用 Stable Diffusion 面临如下问题:


  • 单个 Pod 处理请求的吞吐率有限,如果多个请求转发到同一个 Pod,会导致服务端过载异常,因此需要精准的控制单个 Pod 请求并发处理数。
  • GPU 资源很珍贵,期望做到按需使用资源,在业务低谷及时释放 GPU 资源


基于上面两个问题,我们提供 ASK + Knative 解决方案,可以做到基于并发精准弹性,缩容到 0,资源按需使用,打造生产可用的 Stable Diffusion 服务。


方案

这里我们在 ASK 中提供 Knative + MSE 方式解决上述问题:


  • 基于 MSE 网关,扩展 Knative 弹性插件机制,实现基于并发数精准弹性
  • 支持缩容到 0, 按需使用自动弹性
  • 多版本管理、镜像加速,助力模型快速发布迭代



实践

接下来我们介绍如何在 ASK 中部署 Stable Diffusion 服务。


服务部署

1. 在集群列表页面,单击目标集群 knative-sd-demo 进入集群信息页面,然后在左侧导航栏,选择应用>Knative。


2. 在 Knative 页面,单击服务管理页签,然后单击使用模板创建


3. 在命名空间下拉列表中,选择 default,在示例模板下拉列表中,选择 Resouce-Knative Service,将以下消息处理服务的 YAML 示例粘贴至模板,然后单击创建


默认创建一个名为 knative-sd-demo 的服务。


apiVersion: serving.knative.dev/v1
kind: Service
metadata:
  name: knative-sd-demo
  annotations:
    serving.knative.dev.alibabacloud/affinity: "cookie"
    serving.knative.dev.alibabacloud/cookie-name: "sd"
    serving.knative.dev.alibabacloud/cookie-timeout: "1800"
spec:
  template:
    metadata:
      annotations:
        autoscaling.knative.dev/class: mpa.autoscaling.knative.dev
        autoscaling.knative.dev/maxScale: '10'
        autoscaling.knative.dev/targetUtilizationPercentage: "100"
        k8s.aliyun.com/eci-use-specs: ecs.gn5-c4g1.xlarge,ecs.gn5i-c8g1.2xlarge,ecs.gn5-c8g1.2xlarge  
    spec:
      containerConcurrency: 1
      containers:
      - args:
        - --listen
        - --skip-torch-cuda-test
        - --api
        command:
        - python3
        - launch.py
        image: yunqi-registry.cn-shanghai.cr.aliyuncs.com/lab/stable-diffusion@sha256:64999ff1aba706f65a2234d861d46318f7d58e2790b31ace0d567a96e65b617c
        imagePullPolicy: IfNotPresent
        ports:
        - containerPort: 7860
          name: http1
          protocol: TCP
        name: stable-diffusion
        readinessProbe:
          tcpSocket:
            port: 7860
          initialDelaySeconds: 5
          periodSeconds: 1
          failureThreshold: 3


参数说明:

  • 支持 Cookie 会话保持:serving.knative.dev.alibabacloud/affinity
  • 支持多种 GPU 规格配置:k8s.aliyun.com/eci-use-specs
  • 支持并发数设置:containerConcurrency



4. 在服务管理页签,刷新页面后,当 knative-sd-demo 的状态变为成功时,表明 SD 服务部署成功。

image.png


服务访问并进行压测

部署压测服务 portal-server,用于 Stable Diffusion 效果展示并发起压测。


1. 在 Knative 页面,单击服务管理页签,然后单击使用模板创建


2. 在命名空间下拉列表中,选择 default,在示例模板下拉列表中,选择自定义,将以下 portal-server 压测服务的 YAML 示例粘贴至模板,然后单击创建


---
apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: portal-server
  name: portal-server
spec:
  replicas: 1
  selector:
    matchLabels:
      app: portal-server
  template:
    metadata:
      labels:
        app: portal-server
    spec:
      serviceAccountName: portal-server
      containers:
        - name: portal-server
          image: registry-vpc.cn-beijing.aliyuncs.com/acs/sd-yunqi-server:v1.0.2
          imagePullPolicy: IfNotPresent
          env:
            - name: MAX_CONCURRENT_REQUESTS
              value: "5"
            - name: POD_NAMESPACE
              value: "default"
          readinessProbe:
            failureThreshold: 3
            periodSeconds: 1
            successThreshold: 1
            tcpSocket:
              port: 8080
            timeoutSeconds: 1
---
apiVersion: v1
kind: Service
metadata:
  annotations:
    service.beta.kubernetes.io/alibaba-cloud-loadbalancer-address-type: internet
    service.beta.kubernetes.io/alibaba-cloud-loadbalancer-instance-charge-type: PayByCLCU
  name: portal-server
spec:
  externalTrafficPolicy: Local
  ports:
    - name: http-80
      port: 80
      protocol: TCP
      targetPort: 8080
    - name: http-8888
      port: 8888
      protocol: TCP
      targetPort: 8888
  selector:
    app: portal-server
  type: LoadBalancer
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: pod-list-cluster-role
rules:
  - apiGroups: [""]
    resources: ["pods"]
    verbs: ["list"]
  - apiGroups: ["networking.k8s.io"]
    resources: ["ingresses"]
    verbs: ["get"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: pod-list-cluster-role-binding
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: pod-list-cluster-role
subjects:
  - kind: ServiceAccount
    name: portal-server
    namespace: default
---
apiVersion: v1
kind: ServiceAccount
metadata:
  name: portal-server
  namespace: default


3. 选择网络>服务,服务页面,查看 portal-server 压测服务,获取访问 IP 为 123.56.XX.XX。



4. 在浏览器中输入 http://123.56.XX.XX,然后在该页面单击 Stable Diffusion 跳转至 Stable Diffusion 访问页面。



a. Stable Diffusion 访问页面如下所示。例如,在如下文本框中输入 cat,然后单击 Generate,将展示与输入有关的图片信息。



b. 在压测访问页面,设置并发数5总请求数20,然后单击开始压测,查看压测的结果。



压测期间,可以看到创建了 5 个 Pod,并且每个请求均会生成一个图片,图片生成后将展示到页面中。


查看可观测大盘

此外在 Knative 提供了开箱即用的可观测能力,在 Knative 页面,单击监控大盘页签。即可看到 Stable Diffusion 服务的请求量(Request Volume)、请求成功率(Success Rate)、4xx(客户端错误)、5xx(服务器端错误)和Pod扩缩容趋势的监控数据。



Response Time 区域,查看 Knative 的响应延迟数据,包括 P50、P90、P95 和 P99。



小结


基于 ASK Knative 并发精准弹性,缩容到 0,多版本管理等功能,可以轻松部署企业级 AI 服务。当前已在阿里云云起实验提供《基于 ASK 轻松部署企业级 Stable Diffusion》动手实践,欢迎体验:

扫码体验企业级弹性能力


体验地址:

https://developer.aliyun.com/adc/scenario/de33e7d3065949f3b81db292b2dca5ea

相关实践学习
使用ACS算力快速搭建生成式会话应用
阿里云容器计算服务 ACS(Container Compute Service)以Kubernetes为使用界面,采用Serverless形态提供弹性的算力资源,使您轻松高效运行容器应用。本文将指导您如何通过ACS控制台及ACS集群证书在ACS集群中快速部署并公开一个容器化生成式AI会话应用,并监控应用的运行情况。
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
8月前
|
存储 人工智能 Serverless
企业级 AI Agent 开发指南:基于函数计算 FC Sandbox 方案实现类 Chat Coding AI Agent
本文深入解析AI Agent系统架构,特别是以Sandbox为核心的落地实践。聚焦泛Chat模式下AI应用的挑战与解决方案,涵盖会话亲和性、隔离性、存储机制、会话恢复、资源弹性等关键技术点,阿里云函数计算(FC)为 AI Agent 系统在企业中的落地实践提供实际解决方案,展示了如何高效、安全地构建可扩展的 AI 应用系统。
|
8月前
|
存储 人工智能 安全
企业级 AI Agent 开发指南:基于函数计算 FC Sandbox 方案实现类 Chat Coding AI Agent
通过 Sandbox 与 Serverless 的深度融合,AI Agent 不再是“黑盒”实验,而是可被企业精准掌控的生产力工具。这种架构不仅适配当前 AI Agent 的动态交互特性,更为未来多模态 Agent、跨系统协作等复杂场景提供了可复用的技术底座。若您的企业正面临 AI Agent 规模化落地的挑战,不妨从 Sandbox 架构入手,结合函数计算 FC 的能力,快速验证并构建安全、高效、可扩展的 AI 应用系统。
|
人工智能 运维 安全
函数计算支持热门 MCP Server 一键部署
云上托管 MCP 搭建 AI Agent 将成为趋势。函数计算 FC 目前已经支持开源 MCP Server 一键托管,欢迎体验。
1490 113
|
Serverless Python
借助 serverless 将 MCP 服务部署到云端
本文介绍了如何将 MCP 服务通过 SSE 协议部署到云端,避免本地下载和启动的麻烦。首先,使用 Python 实现了一个基于 FastMCP 的网络搜索工具,并通过设置 `transport='sse'` 启用 SSE 协议。接着,编写客户端代码测试服务功能,确保其正常运行。随后,利用阿里云函数计算服务(FC 3.0)以 Serverless 方式部署该服务,包括创建函数、配置环境变量、添加依赖层以及部署代码。最后,提供了客户端测试方法和日志排查技巧,并展示了如何在不同工具(如 Cherry-Studio、Cline 和 Cursor)中配置云端 MCP 服务。
1827 11
借助 serverless 将 MCP 服务部署到云端
|
人工智能 运维 安全
函数计算支持热门 MCP Server 一键部署
MCP(Model Context Protocol)自2024年发布以来,逐渐成为AI开发领域的实施标准。OpenAI宣布其Agent SDK支持MCP协议,进一步推动了其普及。然而,本地部署的MCP Server因效率低、扩展性差等问题,难以满足复杂生产需求。云上托管成为趋势,函数计算(FC)作为Serverless算力代表,提供一键托管开源MCP Server的能力,解决传统托管痛点,如成本高、弹性差、扩展复杂等。通过CAP平台,用户可快速部署多种热门MCP Server,体验高效灵活的AI应用开发与交互方式。
4040 10
|
安全 搜索推荐 Serverless
HarmonyOS5云服务技术分享--Serverless抽奖模板部署
本文详细介绍了如何使用华为HarmonyOS的Serverless模板快速搭建抽奖活动,手把手教你完成从前期准备到部署上线的全流程。内容涵盖账号注册、云函数配置、参数调整、托管上线及个性化定制等关键步骤,并附带常见问题解答和避坑指南。即使是零基础用户,也能轻松上手,快速实现抽奖活动的开发与部署。适合希望高效构建互动应用的开发者参考学习。
|
人工智能 搜索推荐 安全
基于函数计算一键部署 AI 陪练,快速打造你的专属口语对练伙伴
AI 口语学习涵盖发音训练、对话交流、即时反馈、个性化场景模拟和流利度提升等。本方案以英语口语学习的场景为例,利用函数计算 FC 部署 Web 应用,结合智能媒体服务(AI 实时互动)的 AI 智能体和百炼工作流应用,实现英语口语陪练。
|
安全 持续交付 云计算
课时5:阿里云容器服务:最原生的集成Docker和云服务
阿里云容器服务以服务化形式构建容器基础设施,大幅提升开发效率,简化应用部署流程。通过Docker容器和DevOps工具(如Jenkins),实现自动化部署与迭代,优化企业内部复杂部署问题。该服务支持GPU调度、混合云架构无缝迁移,并与阿里云产品体系无缝集成,提供安全防护、网络负载均衡等多重功能支持。凭借微服务架构,帮助企业突破业务瓶颈,提高资源利用率,轻松应对海量流量。
482 0
课时5:阿里云容器服务:最原生的集成Docker和云服务
|
7月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1968 75
|
7月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
785 30

相关产品

  • 容器计算服务
  • 容器服务Kubernetes版
  • 函数计算