飞天AI平台年度巨献,在线推理优化正式上线,让深度学习成本直降50%

简介: 随着AI技术在各大产业的应用落地,企业对AI技术的人力投入和资源投入也越来越大,尤其是在深度学习场景,许多知名企业都成立了AI实验室,并采购了大量了GPU资源用于深度学习训练和推理,而在当前市场,主流的GPU在提供强劲算力的同时,也给企业带来了昂贵的成本,说白了,AI创业公司想盈利,除了获得更大的商机订单外,还要解决资源成本的问题。飞天AI平台自9月云栖大会发布后,首次推出在线推理高性能优化的产品级服务——PAI Blade,它的能力可以大大节省企业在推理场景的GPU资源,提高QPS。

背景

随着AI技术在各大产业的应用落地,企业对AI技术的人力投入和资源投入也越来越大,尤其是在深度学习场景,许多知名企业都成立了AI实验室,并采购了大量了GPU资源用于深度学习训练和推理,而在当前市场,主流的GPU在提供强劲算力的同时,也给企业带来了昂贵的成本,说白了,AI创业公司想盈利,除了获得更大的商机订单外,还要解决资源成本的问题。飞天AI平台自9月云栖大会发布后,首次推出在线推理高性能优化的产品级服务——PAI Blade,它可以帮助企业提升推理效率,大大节省在推理场景的GPU资源。

3DBD6B06-D926-4CE4-B166-18661EC65D5E.png

那么PAI Blade的能力如何被使用上呢?

点击链接,使用PAI Blade能力,和技术团队交流:钉钉群:21946131


在线推理是抽象的算法模型触达具体的实际业务的最后一公里,PAI已经对外推出了PAI-EAS在线模型服务,帮助大家解决模型服务化的问题,目前已经吸引数百家企业入驻。但是在这个环节中,仍然还有这些已经是大家共识的痛点和诉求:

  1. 任何线上产品的用户体验都与服务的响应时长成反比,复杂的模型如何极致地压缩请求时延?
  2. 模型推理通常是资源常驻型服务,如何通过提升服务单机性能从而增加QPS同时大幅降低资源成本?
  3. 端-边-云是现在模型服务发展的必然趋势,如何让离线训练的模型“瘦身塑形”从而在更多设备上快速部署使用?

因此,在线推理的加速优化成为了AI界的重要研究领域。在前段时间,有不少用户看到了天猫精灵业务如何使用机器学习PAI进行模型推理优化,来咨询如何在自己的业务中get同款技术红利,今天为大家带来的这个好消息就是,高性能在线推理优化框架PAI-Blade终于在公共云和大家见面啦!

PAI-Blade发展历程

PAI-Blade是阿里云机器学习团队研发的面向通用场景的深度学习推理优化框架。经过1年多的发展,在阿里集团内部已经服务了包括安全部、AI Lab、阿里妈妈、搜索、达摩院、ICBU、CCO、新零售、菜鸟、X Lab等众多部门,满足集团内不同业态丰富业务场景下的多样化需求,模型涵盖了图像识别、目标检测、OCR检测识别、自然语言处理、语音识别、智能问答、人机对话、搜索、推荐、视频处理、文本分类等各类大家所熟知的AI子领域。

PAI-Blade对内首先需要服务好规模体量大、对RT/QPS要求严格、以及高影响力的关键业务。典型的案例比如阿里机器翻译,需支持21个语种、48个语向,在整个电商的完整链路上提供包括SEO,商品详情、搜索、评论,实时沟通等多个场景,针对集团内众多国际化业务提供全面的实时翻译能力,以及在大型会议上提供实时语音翻译、同声传译服务等。每天提供近十亿级的在线翻译服务,峰值数万QPS的语句翻译能力。如此规模体量的在线服务对于响应时间、吞吐量和资源成本都是极其敏感的。经过PAI-Blade的优化,实现2-3倍,在有些场景下甚至更高的性能提升。目前可以稳定支持200ms以内的响应时延,日调用7.5亿次,5000亿字符的并行处理能力,以及双11期间数倍于此的服务需求。

同样体量较大的业务还包括安全相关服务、搜索、推荐、天猫精灵等。业务细节这里不一一展开,总而言之对于规模体量较大的业务,优化所涉及的模型和热点虽有很多不同,但相似的是都有众多的服务场景和快速的模型迭代,以下整理了部分业务效果数据:

业务/部门 模型类别 模型 加速比
菜鸟无人车 (2D&3D)
目标检测
自研模型 RT 3.9x
ICBU 目标检测 自研检测模型 模型RT加速2x
大知识产权业务 目标检测 RefineDet,caffeNet,自研模型 QPS 2.5x
天猫精灵 ASR 自研BERT模型 QPS 2.8x
CCO阿里店小蜜,AliOS车载场景等 自然语言处理 自研模型 QPS 3.43x
新零售业务 文本分类 TextCNN QPS 1.3x
安全部鉴黄业务 内容识别 自研模型 QPS 5.48x
视频搜索业务 视频 自研模型 QPS 1.8x

通常来说,不同的业务场景具有不同的需求层次。而PAI以Blade为核心,提供了一整套从模型优化,到一键式在线部署(包括部署环节优化),到离线runtime推理,到线上热点分析、tuning的全栈模型优化加速解决方案。在集团内部我们提供了不同层次,多种形式的接入方式。经过众多业务场景赋能过程中的反复打磨,PAI-Blade除了能够把针对不同业务的优化能力提炼沉淀到自研框架中,还锻造了一整套工程体系,努力简化用户的使用链路和上手成本。基于这些最佳实践,我们将全栈的推理优化能力进行了抽象和封装,并于2019岁末,以非常简单易用的形态呈现在PAI公共云产品中,正式开始对外公测,欢迎大家随时来撩,当前在上海Region免费试用。

极简试用体验

在阿里云机器学习PAI平台上,仅需四步即可实现模型从优化至部署调用全流程。

  1. 在PAI控制台您可以一键上传您的深度学习模型,支持多种模型格式,包括Tensorflow (saved model or frozen pb)、Keras(.h5)、Caffe、Onnx等模型
  2. 快速体验在不同卡型(Nvidia P4/Nvidia T4/Nvidia P100/Nvidia V100)上基于不同优化策略(O1无损优化、O2量化压缩优化)的优化效果。

    • 需要更高优化效果的用户,也可以直接在我们提供的高级配置框来提供更多模型信息
    • 优化过程通常在几分钟即可完成,性能加速数据列看到优化后模型的latency加速的数据
  3. 每次优化任务都会产出一个新的模型挂在原模型的子模型列表中。之后根据不同策略下产出模型的效果对比,您可以直接选择优化效果最优的模型部署至PAI-EAS服务,这里需要注意先新建和优化时GPU卡相同的资源组再进行模型部署
  4. 我们提供了封装好的Blade服务调用客户端SDK,服务部署完成后可以直接使用SDK进行高效服务调用。

敬请期待

  1. 支持优化后模型的自定义Processor开发
  2. 支持更多通用模型框架,将更多无需关心的信息对用户屏蔽
  3. 通过简单易用的使用方式提供更多层次更灵活的优化策略

更多精彩

联系我们

点击链接,使用PAI Blade能力,和技术团队交流:钉钉群:21946131

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
3月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
725 125
|
3月前
|
机器学习/深度学习 算法 算法框架/工具
MINUN: 微控制器上的精确机器学习推理——论文阅读
MINUN是一个专为微控制器设计的高效机器学习推理框架,能精确解决TinyML中的三大挑战:数字表示参数化、位宽分配优化和内存碎片管理。它支持如Arduino和STM32等低功耗设备,显著减少内存占用,同时保持模型精度。
368 122
|
2月前
|
存储 人工智能 安全
《Confidential MaaS 技术指南》发布,从 0 到 1 构建可验证 AI 推理环境
Confidential MaaS 将从前沿探索逐步成为 AI 服务的安全标准配置。
|
3月前
|
存储 人工智能 NoSQL
用Context Offloading解决AI Agent上下文污染,提升推理准确性
上下文工程是将AI所需信息(如指令、数据、工具等)动态整合到模型输入中,以提升其表现。本文探讨了“上下文污染”问题,并提出“上下文卸载”策略,通过LangGraph实现,有效缓解长文本处理中的信息干扰与模型幻觉,提升AI代理的决策准确性与稳定性。
394 2
用Context Offloading解决AI Agent上下文污染,提升推理准确性
|
2月前
|
机器学习/深度学习 数据采集 人工智能
深度学习实战指南:从神经网络基础到模型优化的完整攻略
🌟 蒋星熠Jaxonic,AI探索者。深耕深度学习,从神经网络到Transformer,用代码践行智能革命。分享实战经验,助你构建CV、NLP模型,共赴二进制星辰大海。
|
3月前
|
人工智能 监控 数据可视化
如何破解AI推理延迟难题:构建敏捷多云算力网络
本文探讨了AI企业在突破算力瓶颈后,如何构建高效、稳定的网络架构以支撑AI产品化落地。文章分析了典型AI IT架构的四个层次——流量接入层、调度决策层、推理服务层和训练算力层,并深入解析了AI架构对网络提出的三大核心挑战:跨云互联、逻辑隔离与业务识别、网络可视化与QoS控制。最终提出了一站式网络解决方案,助力AI企业实现多云调度、业务融合承载与精细化流量管理,推动AI服务高效、稳定交付。
|
3月前
|
机器学习/深度学习 存储 TensorFlow
TensorFlow Lite Micro:嵌入式TinyML系统上的机器学习推理框架——论文深度解析
TensorFlow Lite Micro(TFLM)是专为嵌入式系统设计的轻量级机器学习推理框架,适用于仅有几十KB内存的微控制器。它通过极简架构、模块化设计和内存优化策略,在资源受限设备上高效运行TinyML模型,广泛应用于关键词检测、传感器分析、预测性维护等领域。TFLM支持跨平台部署,并允许硬件厂商提供定制优化,兼顾灵活性与性能。
921 6
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
583 41

热门文章

最新文章

相关产品

  • 人工智能平台 PAI