「开源人说」|AI普惠,阿里灵杰开源历程与思考

简介: 施兴阿里巴巴资深技术专家阿里巴巴开源项目EasyRec负责人

以下为开发者社区「开源人说」第四期——大数据&AI专场的主题分享,点击链接了解更多精彩详情👇

https://developer.aliyun.com/live/250636

image.png


日常生活中,打开淘宝可以看到自己感兴趣的商品,打开抖音可以看到自己感兴趣的视频,这都得益于AI大数据分析,其中包含了自然语言处理、统计、机器学习推荐等算法;再比如自动驾驶主要基于深度学习的相关技术,天猫精灵主要基于丰富的语音识别技术以及大数据检索能力。AI 已经在生活中无处不在,语音、自然语言处理、图像视觉、自动驾驶、OCR、证件识别等都是 AI 领域的场景,这也意味着AI正在持续提供普惠的能力


image.png


要使得AI 能够真正广泛应用、落地到各个场景,需要满足三个条件:

第一,实用。需要能够真正解决各方面的诉求,而不是单纯的炫技;也需要真正落地,在 AI 工程化上做充分的准备。另外,也需要能够加速行业应用孵化和创新,比如当下最火的AI绘图Stable Diffusion,输入关键的文本信息即可生成对应的图片,是一个极具创新意义的项目。

第二,易用。需要有云原生AI平台,规避冗长繁杂的部署流程,能够在云上一键拉起AI 应用场景。同时,能够提供与线下部署效果一致的功能,融合云上的很多性能特点,加速推理优化,快速应用到系统。云上的 AI 能力是原子化的,可以模块化输出,对于一套大型系统, AI 可能只是整个系统里面的一小环,AI普惠需要AI的各种功能能很方便地迁移对接到各个应用系统上。

第三,放心用。需要成本可控,各种数据模型能够有开放的 API 以及开放的兼容格式。也需要能够保障数据与模型安全,而云原生天然保障了安全性。


image.png


那么,AI开源与云的结合,能够为我们带来什么?

首先,云是AI开源的最佳运行环境。用户无需自行准备服务器、下载软件,无需进行编译部署等繁杂的准备工作,开箱即用。其次,云为AI开源提供了新的商业模式,比如社区的讨论和维护可以为云上为使用开源软件的企业提供额外服务,解疑答惑。第三,开源社区和云平台会有更多互动,比如云为开源提供弹性、可扩展等方面的能力;反之,云平台也可以对开源社区提出诉求,比如未来要发布 Serverless 服务,提前规划开源软件的适配。最终两者共同携手,一起普惠 AI 数字世界。


image.png

(上图为阿里灵杰AI开源家族图谱)


从最底层的资源调度层面、平台工程层面、算法应用和算法基础层面均有相关的项目实现开源。机器学习平台PAI支持TensorFlow、PyTorch等流行的开源项目,也支持了很多国产化项目,比如OneFlow等,并在此之上实现了分布式训练框架以及分布式推理能力的优化。任务调度上PAI Flow、Media Flow也即将开源。


算法侧,应用层面 ModelScope已经发布,除了大规模预训练模型之外,很多基础模型比如语音、图像、文本、推荐等相关项目也已开源。实时计算方面包括Flink ML(Flink Machine Learning),可以基于实时数据流做实时机器学习,比如点击完商品马上能出现相关推荐。另外,还有基于图的机器学习框架、迁移学习、增强学习等。


image.png


在云原生的机器学习应用场景,AI应用对调度也提出了更高的要求。因此我们发布了koordinator,用于解决按作业调度优化,资源利用率提升等问题。koordinator能够根据各个服务、应用的热力图来做调度均衡。比如某几台机器出现故障,则coordinator会从 QoS 层感知到服务稳定性的变化,然后进行重新调度,下线原来响应慢的几个容器,将任务部署到新容器、新服务器上。


image.png


DeepRec在训练推理引擎侧基于Tensorflow 做了优化工作,它主要服务于推荐、搜索、广告这几类诉求。搜索、推荐、广告一般是结构化数据,可以简单理解为用表(Table)来描述。我们在稀疏功能、训练性能、部署及Serving方面做了很多优化工作。


稀疏特征:模型数据处理中的很多特征非常稀疏,比如一个人与某个商品之间产生了行为,即为一条特征。淘宝有数十亿商品,一个人每天浏览上千个商品,交互行为的特征非常稀疏。因此,我们引入了动态弹性特征。传统情况下,一般以固定哈希 Table 来存储特征。引入了动态弹性特征功能以后,可以引入特征准入和淘汰,比如可以动态地将很久以前过期的特征淘汰掉,新生成的特征也能动态地引入。


训练性能:包括分布式训练框架、Runtime优化、图优化以及算子优化。 AI 场景下的训练,输入数据的模式非常相似,时常不停地重复类似的计算逻辑。基于此特点,可以抽取出计算的关键路径,使其优先执行,让计算资源执行更充分,运行时间更短。


部署及Serving:部署侧主要改善了使用体验。 Serving 侧主要做了多级混合存储。通常情况下,要做预测服务,必须将模型加载到内存里,如果是 GPU 则加载到显存里面。我们会将最热门的模型特征 embedding 部分优先放到显存,再到内存,再到硬盘层,通过多级混合存储方式,使大模型能够在单机上存储,减少成本。


image.png


做自然语言处理时,面对输入的长短不一致,通常做法是固定长度,但该方法存在几个问题:很长的输入会有部分被丢弃,或者很短的输入需要填入空白从而浪费内存和计算资源。因此,我们开发了BladeDISC,实现了面向深度学习、端到端的多尺度图优化编译器,能够同时支持不同框架,包括TensorFlow、PyTorch、GPGPU、CPU 以及 ARMS。


image.png


Flink ML 是基于 Flink 做的实时机器学习算法库。今年年初发布了Flink ML API, 能够支持模型与数据实时传输,同时能够支持多输入的图结构机器学习算法。另外,它虽然叫实时机器学习算法,也能够支持批处理机器学习。实时机器学习算法较多使用于结构化场景,通常可能有 70% 的工作都在为运行模型准备数据,比如从原始日志里面将数据抽取出来,然后做更多特征加工。因此,后续Flink ML 也会从实时特征工程上做更多投入。最终目标是期望 Flink ML 能够成为实时机器学习的事实标准。


image.png


EasyRec是针对推荐场景做的推荐算法库,我们实现了很多顶会论文的算法,且进行了开源。同时,我们集成了很多性能优化,用户不仅能够快速享受SOTA 算法实现,也能享受到最好的性能实现。除了性能较优,EasyRec也很好地与云进行了结合。无论从计算层面还是数据层面,都能支持不同平台。比如支持 EMR、 Flink、MaxCompute、云原生容器化服务。在输入上,支持传统的 HDFS、OSS对象存储、MaxCpmpute Table 以及 Kafka 等实时数据流。


另外,我们开发集成了 AutoML功能,支持自动超参调优,支持特征的自动生成,高阶特征可以通过 Auto Feature Engineering 的方式实现,也支持自动特征筛选。


image.png


在视图视觉场景,有 EasyCV ;在自然语言处理NLP 场景,有 EasyNLP 。EasyCV集成了多个场景和领域,在检测、分类、分割、关键点 OCR 算法上均集成了很多算法,性能比原始算法提升 20% 以上。


我们优化的YoloX-PAI 算法从 backbone 层面实现了多网络支持,在 neck网络上加入了多尺度的图像特征融合提升效果,效果优于社区开源实现的YOLO5和YOLO6。


image.png


OFA和AliceMind是达摩院既开源了模型又开源了代码的两个项目。


OFA(One For All)是与任务、结构、模态都无关的序列到序列的学习框架,它在大模型、绿色低碳和服务化等多方面都取得了突破。相比于GPT-3,OFA仅需1%的计算资源即可实现相同的效果。OFA本身是一个大模型,一台机器或一张显卡无法存放,因此,它在服务化方面也进行了非常多的工作,能够较轻松地将服务拉起。上图中间的图片为输入文本后,通过OFA输出的图片。


AliceMind是面向语言的预训练大模型,去年刷新了全球最权威的机器视觉问答 VQA榜单,并以81.26的成绩首次超越人类表现。除了 VQA 场景,AliceMind在中文理解生成、对话策略、对话生成、表格问答上也刷新了很多榜单,达到SOTA的水准。

image.png


回到开源的初心,我们的很多工作也借鉴了开源项目的成果,我们期望能够在开源的基础上结合阿里在场景上的应用,实现更大的扩展,将成果回馈给开源社区。因此,接下来我们也会在平台、算法、应用和资源调度层面做更多持续开源的工作,让更多开发者能够享受到阿里在实践场景下打磨的经验。另外,也希望更多开发者能够参与到开源社区,共建开源社区,建设AI新标准,开源且开放。


最后,我们期望更多开源产品能够与云结合,将实用、易用、放心用发挥得更加淋漓尽致,AI开源更加普惠数字世界。

配图2.png

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
2月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1644 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
3904 56
|
2月前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
299 5
我们开源了一款 AI 驱动的用户社区
|
3月前
|
人工智能 数据处理 云栖大会
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
510 9
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
|
2月前
|
人工智能 搜索推荐 UED
一个牛逼的国产AI自动化工具,开源了 !
AiPy是国产开源AI工具,结合大语言模型与Python,支持本地部署。用户只需用自然语言描述需求,即可自动生成并执行代码,轻松实现数据分析、清洗、可视化等任务,零基础也能玩转编程,被誉为程序员的智能助手。
|
3月前
|
人工智能 安全 架构师
开放、协同,2025 云栖大会“操作系统开源与 AI 进化分论坛”精彩回顾
唯有通过生态开放与技术共享,才能加速 AI 技术的普惠与产业化落地。
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
583 41
|
2月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
469 30

热门文章

最新文章