AI推理新纪元,PAI全球化模型推理服务的创新与实践

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 本次分享主题为“AI推理新纪元,PAI全球化模型推理服务的创新与实践”,由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术,PAI平台实现了30%以上的成本降低和显著性能提升,确保全球客户的业务稳定运行并支持异地容灾,目前已覆盖16个地域,拥有10万张显卡的推理集群。

在过去的一年里,大家见证了AI浪潮的风起云涌。我这几天也跟大家一样,穿梭在各个展区中,看到非常多有趣的AI应用和创新应用的迸发。同时,我还参加了许多session,聆听了众多专家分享他们如何利用AI技术重塑各行各业。


那么我们看到了什么呢?我们看到了AI正扮演着客服的角色,成为了我们的导购,甚至担当起了面试官的重任。就连在游戏中,我们也不再仅仅与玩家组队,而是开始与AI并肩作战。在这些层出不穷的创新与应用背后,是谁在源源不断地提供动力呢?答案就是模型在线服务。今天很荣幸能与大家分享在过去的一年里,人工智能平台PAI在模型推理服务领域所做出的一些创新与实践。


今天的分享主要包括四个部分。首先,我们会聚焦于生成式AI(Generative AI)时代下的推理服务,探讨这一领域究竟发生了哪些变化,以及这些变化带来了哪些挑战。简而言之,在今天的讨论中,关于推理服务,最关键的一点是什么?是它的生命线,即成本。接下来,我们将从三个角度详细阐述:计算资源、推理服务的性能,以及客户的业务场景,通过这三个维度来向大家展示如何大幅度降低在推理服务上的成本。

 

一、在生成式AI的时代,推理服务产生了怎样的变化和挑战

今天面临着三大显著变化。第一个变化是业务负载。在上一个AI时代,主流业务大多是什么?主要是搜索和推广业务,并且这些业务有一个共同特点是它们的响应时间很短,大约在几百毫秒至一秒之间,且每个请求的负载都非常均衡,延迟反馈时间基本一致。


然而,在生成式AI时代,业务负载发生了巨大的变化。以大模型和多模态场景为例,现在的请求长度短则十几个token,长则可达数十万个token。这种业务负载的变化对资源利用产生了极大的影响。

个变化是模型结构。相信大家前几天也关注了静仁老师的发布。在这次发布中,千万2.5系列推出了多个不同版本的模型,包括0.5B、1.5B的版本,还有新发布的3B版本,以及7B、14B、12B等。此外,大家也注意到了像LaMA 3.1这样的模型,甚至今天发布的405B的超大模型。这些不同参数规模的模型会给我们的业务带来极大的变化。


个变化是资源类型。在以往的时代,即CPU主导的时代,大家的资源其实相差不大。然而,如今大家可以看到,英伟达推出的A10、H100、A800、H800等GPU卡,以及L20等型号,它们之间的性能差异显著。包括国产的显卡,其他厂商的显卡。每一个显卡的性能和业务都是不同的。


在这些变化之下,我们碰到了很多挑战

第一个挑战是资源,我们的业务负载涵盖了从十几个token到几十万个token不等的范围,这些token负载的变化会极大地影响计算效率,并导致计算效率与之前相比大幅降低。


第二个挑战在于如何提升服务的性能。面对众多不同种类和参数量的模型,我们如何统一地提升这些服务的性能成为了一个关键问题。


第三个挑战是业务的多样性。如今,大家都使用GPU,而这些GPU拥有不同类型的资源,并且这些资源遍布全球。在这样的背景下,如何才能确保我的业务能够稳定且高可用地使用这些资源。围绕着刚才提到的那些变化,先从第一点开始讲起,其目标是让每一个推理资源节点都能高效运转。在当下的生成式AI(Generated AI)的时代,我们隆重发布了三个核心能力。第一个是LM智能路由,第二个是多模态内容的异步生成,第三个是AI应用的service部署。


这三个词听起来可能让大家觉得像是天书,并且对它们也没有具体的概念。但我想告诉大家的是,许多客户借助我们提出的这些能力,已经成功降低了30%以上的成本。或许大家又会想,这30%的成本降低跟我有什么关系呢?这依然是没有概念的。想象一下,如果把这30%的成本节省下来,用来给大家发工资,我相信在场的每一个人,包括可能正在看直播的朋友们,都会因为薪水提升了30%而感到兴奋。那么,如何才能实现这样的成本节省,从而让大家的薪水得到提升呢?大家可能会好奇,这些能力具体是如何实现的。接下来会逐一为大家详细解释每个能力的作用。


首先是LM智能路由,即大语言模型场景。而我们今天做了一项非常重要的工作。之前我提到过,在不同的负载情况下,token的数量从十几个到几十万个不等,这会导致计算资源的利用率大幅降低。而我们可以通过LM智能路由,首先对请求端进行判断。根据不同的请求大小,无论是十几个token还是几十万个token,以及每次的prompt是相似还是相同,我们都会进行细致的分析。同时,我们监控后端每一个计算实例,了解它们处理过哪些prompt,擅长处理什么样的场景,确定到底是哪一个prompt,或是哪一个计算节点,它的资源是相对空闲的。通过智能的匹配,使整个集群的资源利用率飞速提升。


而且,今天我并不想给大家讲解过多的技术细节,我更想强调的是什么呢?今天包括讲到的大语言模型的LM智能路由在内的所有功能,都已经在PAIES平台上实现了一键部署,开箱即用。大家无需深入了解底层的实现细节或技术细节,大家只需要知道在EAS上面一键就可以开启这样的能力。而且,开启这些功能后,资源成本将能够节省30%以上。


第二个是多模态场景,如今,我们看到了许多纹身图案和纹身视频的应用场景。这些场景有一个显著的特点是对时延性的要求并不像过去搜索推广时代那么严格了。在这些场景中,允许几分钟甚至几个小时的响应时间都是可以的。


在今天,我们推出了异步推理和离线任务两大场景,这两个场景能够极大地提升大家的计算性能和效率。而且,无论是异步推理还是离线任务场景,在之前提到的PAIES平台上,都实现了开箱即用。大家无需理解背后复杂的架构图,这些对大家来说完全是overhead。今天,大家只需知道,在ES平台上,你可以一键使用这些功能,并能迅速将其应用到自己的业务场景中。


第三个是AI应用的service less部署。坦白说,“service”这个词现在可能已经被大家频繁使用,甚至有些泛滥了,在各种分享中,今天讲这个service,明天又讲那个service。但我想在这里澄清一下,我所说的“service”具体指的是什么。大家在使用各种模型服务时,可能会遇到一个痛点:如果请求是离散的,比如每个小时只需要调用几次,那么在传统方式下,你仍然需要为一直运行的服务付费。这会给大家带来很大的账单压力。今天,ES创造性地提出了serverless部署的概念。在全球范围内,提供这种serverless部署的云服务厂商也仅EES一家。


那么我们今天提供的是什么样的能力呢?简单来说,您部署服务的过程是完全免费的。只有当您正式发起请求,我们开始处理这个请求时,才会开始计费,这样能让您的成本达到最优化。这是第一部分的主要内容,主要讲述了如何大幅提升计算资源的效率。接下来第二部分会重点讲述如何让每个模型的推理服务性能得到大幅提升。在这里,无法绕过的一个重要发布能力是play的IM核心引擎能力。左侧的架构图可能看起来有些复杂,但大家其实不用过于关注它。


很核心的一点是我们的底层完全是基于ESPAI的平台构建的,并在上层灵活适配了客户的各种业务场景。在中间层,我们通过模型计算、量化压缩和模型并行处理策略,运用了如P、DP、PP和TP等多种手段,来帮助大家提升服务性能。同时,通过生成式引擎、prompt cash以及多种高效解码方式,并结合强大的调度能力,使得服务性能得到了显著提升。在最上层的服务框架中,我们采用了大家可能已有所耳闻的PD分离理念,并推出了自研的elastic attention方法,帮助用户快速实现性能提升。尽管这些专业名词可能让大家感到有些困惑,但重要的是,大家可以直接关注这些技术所带来的性能提升效果。


而在与一些开源框架的对比中,首先,在延时层面,TTFT是我们的首包延时。并且整个大模型的推理过程可以分为计算密集型阶段,即preview阶段、显存密集性阶段和访存密集性阶段,即decoding的阶段。这使我们在TTFT,即首包延时,以及TPOT,即每个token之间的延时方面,都实现了大幅下降,分别降低了60%和70%。并且,在吞吐量方面,我们每秒产生的token数也实现了大幅提升,具体达到了80%的增长。而这些性能的提升,为大家带来了极大的成本节约。

 

二、play IM核心引擎带来的好处

1.play IM核心引擎解决的三大问题

第一个问题是如何高效地利用内存。正如大家前两天从静仁老师的分享中了解到的,我们现天已经能够支持长达128K的文本token长度。这对于GPU显存来说是一个巨大的挑战,因为它需要消耗大量的资源。然而,在我们的play IM核心引擎中,通过量化压缩技术的手段实现了能够非常快速地支持多种量化方式,并且能够迅速完成资源的部署和服务的部署。


第二个是请求长度。从开篇到现在,我一直在强调一个逻辑是当前的负载发生了巨大的变化。为了应对这种变化,我们提出了一种新的能力,即自研的attention技术。这项技术旨在帮助大家高效地解决长文本和短文本之间因负载不同而带来的请求调度问题。


第三个是大模型在运行过程中分为两个截然不同的阶段:preview阶段和decode阶段,这两个阶段对资源的需求截然不同。为了优化这两个阶段,我们在preview阶段采用了prompt cache方法,而在decode阶段采用了lookahead decoding的方式,来帮助大家更容易、更高效地部署自己的服务,并且高效的提升服务性能。


2.优化和提升

总结来说,play IM带来了四大提升和四大优化,包括模型优化、系统优化、集群优化以及应用优化。您无需深入了解这些优化背后的具体细节,只需明白在PAI平台上,这些能力已经为您准备好,开箱即用,让您能够轻松实现80%的吞吐提升。同样,在PAD平台上,您也可以一键使用这些优化功能。

 

三、ES专属网关

讲完了前两个话题,我们现在聚焦于在座的各位客户,以及各自所处的应用和业务层面。我们今天的目标非常明确,即确保全球每一个角落的客户的业务都能持续不断地运行。为此,我们隆重发布了今年精心研发的新能力ES专属网关。通过ES专属网关,我们实现了什么呢?它能让您以极高的安全性访问自己拥有的任何访问权限。无论是公网的访问权限,还是VPC-的访问权限,还是公网的网段或是VPC的网段,都可以在ES平台上自定义地部署。并且通过ES专属网关,我们成功地将全球的推理服务连接了起来。当客户通过CEN网络构建好自己的一套网络架构后,借助ES专属网关,他们可以轻松地实现网络控制,以及全球网络的调度和规划。


今天,基于ES专属网关,我们非常开心,因为做到了全球的调度和异地的容灾能力。在当前这个充满各种不可抗力的时代,单个地域或单个可用区AZ可能会出现短暂的服务中断。但即便面对这样的情况,ESPAI平台依然能够确保您的服务不会中断。而我们会通过全球的调度,允许您将计算资源灵活地部署在北京、上海、乌兰察布、北美、欧洲等多个地域。通过ES专属网关和统一的SOB负载均衡路由分发机制,来实现全球的调度。这意味着,无论哪个资源节点或哪个AZ出现故障,您的服务都能持续运行,永不停歇。


ES目前在全球范围内已支持16个不同的地域。无论您的业务位于东亚、东南亚、欧洲、北美,还是我们此刻所在的中国,您都可以在任何地方使用PAI的推理服务。我们在全球范围内已构建了拥有10万张显卡的推理集群,确保您能够迅速获取所需资源。通过全球调度系统,我们能够确保您的每一项业务在任何角落都能得到很好的部署。同时,我们还通过网关技术,实现了整个网络架构的互联互通。


我们深知,200年前,电让人类与现代文明紧密相连。20年前,互联网则将人类生存的每一个角落相互贯通。而今天,模型服务正致力于在世界的每一个角落插上旗帜。在这个AI时代,世界将通过模型服务与大家紧密相连,实现前所未有的联通。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
16天前
|
人工智能 弹性计算 运维
AI驱动的操作系统服务评测报告
阿里云推出AI驱动的一站式免费操作系统服务套件,包含SysOM管控组件和OS Copilot智能助手,提供集群健康监测、深度系统诊断等功能。通过直观的操作界面和详尽的诊断报告,帮助运维人员优化系统性能,提高工作效率。特别针对EOL操作系统提供订阅管理服务,确保系统安全。整体体验令人满意,但在文档详细度和定制化方面仍有提升空间。
48 13
|
8天前
|
人工智能 算法 计算机视觉
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
92 61
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
|
2天前
|
人工智能 搜索推荐 API
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
node-DeepResearch 是一个开源 AI 智能体项目,支持多步推理和复杂查询,帮助用户逐步解决问题。
69 27
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
Baichuan-M1-14B:AI 助力医疗推理,为患者提供专业的建议!百川智能开源业内首个医疗增强大模型,普及医学的新渠道!
Baichuan-M1-14B 是百川智能推出的首个开源医疗增强大模型,专为医疗场景优化,支持多语言、快速推理,具备强大的医疗推理能力和通用能力。
135 16
Baichuan-M1-14B:AI 助力医疗推理,为患者提供专业的建议!百川智能开源业内首个医疗增强大模型,普及医学的新渠道!
|
1天前
|
人工智能 运维 监控
AI驱动的操作系统服务评测报告
作为一位运维工程师,我使用Alibaba Cloud Linux 3操作系统进行云资源的运维和管理。通过控制台可快速开通并管理云资源,界面简洁、功能明确。安装SysOM和OS Copilot组件简单高效,支持实时监控集群健康状况,并提供精准的系统诊断与优化建议。OS Copilot智能助手能有效解答技术问题,提升工作效率。针对EOL系统的订阅服务提供了安全迁移保障。整体体验优秀,尤其适合中小企业降低运维复杂度。建议进一步优化权限管理、增加报告导出功能及增强Copilot交互性。
|
16天前
|
人工智能 运维 监控
探索未来:AI驱动的操作系统服务评测
### 探索未来:AI驱动的操作系统服务评测 本文介绍阿里云新推出的AI驱动操作系统服务套件,为运维工程师和开发者提供免费、智能的操作系统管理体验。通过Alibaba Cloud Linux的实际操作,评估其安装便捷性、系统健康监控、智能助手OS Copilot等功能。该服务显著提升了工作效率约30%,并增强了服务可靠性。AI技术的融入使系统管理更加智能化,值得尝试。
54 16
|
12天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置,包括CPU+GPU、FPGA等,适用于人工智能、机器学习和深度学习等计算密集型任务。本文整理了阿里云GPU服务器的优惠价格,涵盖NVIDIA A10、V100、T4等型号,提供1个月、1年和1小时的收费明细。具体规格如A10卡GN7i、V100-16G卡GN6v等,适用于不同业务场景,详情见官方页面。
82 11
|
17天前
|
机器学习/深度学习 存储 人工智能
AI实践:智能工单系统的技术逻辑与应用
智能工单系统是企业服务管理的核心工具,通过多渠道接入、自然语言处理等技术,实现工单自动生成、分类和分配。它优化了客户服务流程,提高了效率与透明度,减少了运营成本,提升了客户满意度。系统还依托知识库和机器学习,持续改进处理策略,助力企业在竞争中脱颖而出。
54 5
|
1天前
|
人工智能 数据挖掘
低代码 + AI 落地实践,让业务效率翻倍,解锁未来生产力!
2025年春节,DeepSeek引发AI讨论热潮,推动“数字化”到“数智化”的革新。低代码+AI组合降低了技术门槛,加速企业智能化升级。文中通过食品加工业原料溯源、家电售后管理、发票识别打印三个案例,展示其在效率提升和市场竞争力中的作用,并介绍钉钉宜搭举办的“低代码+AI”视频创作大赛,邀请读者参与探索更多实际应用。
211 9
|
19天前
|
人工智能 运维 安全
AI 驱动,全面升级!操作系统服务套件体验评测
作为一名运维工程师,我体验了阿里云的操作系统服务套件,选择了Alibaba Cloud Linux作为测试环境。通过安装SysOM和OS Copilot组件,轻松管理集群健康数据、进行系统诊断并获得优化建议。OS Copilot智能解答技术问题,节省查阅资料时间;订阅管理帮助我及时升级操作系统,保障安全。整体功能强大,提升了约20%的工作效率,值得推广。建议增加更多系统版本支持及自动优化功能。

相关产品

  • 人工智能平台 PAI