阿里视觉AI的开放平台之路

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: AI开放平台,即是一种能力,也是一种态度,更是一种价值体现,是AI可持续发展的必由之路。本文以阿里云视觉智能开放平台(vision.aliyun.com)为示例,讲述AI平台的定位、架构、实现、运营及进化之路。

一、阿里视觉AI简介

视觉技术作为AI技术的主要组成部分,在阿里集团内外得到了广泛的应用,其技术分类、发展路径、以及阿里在该领域的探索和应用,这里简单回顾一下:

dbd50338-119b-4854-b0c9-c436934d8754.png 

在阿里自有业务中研发沉淀的产品技术,几乎覆盖了视觉技术的方方面面,为业务发展贡献巨大。

5d1058a1-8484-41c8-b8df-04cfe77a977c.png

进一步寻找一个合适的方式,来释放这内在汇聚的能力和能量,赋能百行千业,同时反推技术前行,由内而外,由Close走向Open,不管是从技术发展角度,还是从社会价值角度,是自然之意。本文主要从这个视角,基于两年来的探索实践,来阐述阿里视觉AI的开放及平台之路。

二、视觉AI的平台化

当前AI技术进展很大,产品上五花八门,从业人员也众多,但离社会预期,满足现实需求,有很大的距离,这个矛盾可以抽象一下,即:客户多样化的AI需求与有限的AI能力供给之间的矛盾。需求是无限的,以有限的资源去支持自然不可能,再加上AI能力的特殊性(有一定研发和运行门槛、效果有一定不确定性),即便是汇聚了阿里所有的AI能力和力量,也只能提供部分核心能力和典型案例。供需GAP,通过提供工具服务去缩短这个差距是一个路径,如下图。

acc01c5d-6cd3-4859-9376-832637fb1c71.png

所以,如果真的有一个相对通用的AI平台,那么它的核心价值无外乎两点:

  • 提供核心AI能力和典型案例;
  • 缩短供给与需求GAP的工具。

阿里是典型的平台型公司,从淘宝、菜鸟到阿里云,解决的是社会普遍性的需求,也验证平台的方式是有效的。当前大环境虽有变化,但平台仍然是以数字化方式发挥规模化价值和效应的最短必由之路。AI作为一种新兴技术力量,我们可以通过几个自问自答,看看如何建设AI“供给”和“需求”最短路径:

  • 有的用:

Q1:如何一站式、最大程度满足用户的主流AI需求;

A1:提供满足视觉基本面的多样、标准化的能力,完善的能力供应链和匹配体系。

  • 易用:

Q2:如何快速接入、低门槛、稳定的使用;

A2:提供全生命周期的能力体验和使用流程,稳定高效的平台基础设施支撑。

  • 用得起:

Q3:如何低成本的使用能力,实现较高ROI;

A3:通过单能力极致优化,多能力系统优化,降低平台成本;通过定额免费满足中小AI需求。

  • 好用:

Q3:如何满足用户需求,产生业务价值;

A3:提供实用、专业的能力,AI从行业中来,提练沉淀,并通过系统化的方式反哺行业。

从这些问题答案中,很容易抽象出符合平台的几个关键字:“多”、“快”、“好”、“省”;这对AI平台也是适用的。只不过,这个平台上的“商品”比较特殊罢了,如下图: 7f8295e6-d69d-446c-a838-98872298e130 (1).png

AI平台商品的复杂性,一是在于本身能力的不确定性,很多的时候不能确定性的解决用户的需求,研发有一定门槛,运行环境要求高。作为特殊的商品,虽然业界一直说没有通用的AI能力,但需求一定程度上可以标准化的,接口和需求逻辑可以确定,只是内在能力,随着技术进步、数据场景不断锤炼,会持续迭代改进进化。

公有、专有AI能力,各有适合发挥的场所,这里先行探讨基于公有云的AI开放平台有哪些特征。d112b3f3-2c79-4cd6-bba4-9b91899b2814.png 

一个成功的可持续的平台,对所有参与者都应该能找到其所需要的。平台体系一般有三个重要干系人:

  • 需求方:也可以说是第一客户,主要是AI开发者,也可以是高校师生,其价值点有:
  • 存量业务:通过高性价比的AI能力来降本提效;
  • 增量业务:通过使用开箱即用的AI能力来快速试错,助力创新机会;
  • 能力提升:通过熟悉、使用AI能力、工具,来提升自己的能力、竞争力。

  • 供给方:平台的另一类客户,能力提供者,如算法工程师、学术者,其关注的有:
  • 真需求:获取来自市场的真实需求,驱动技术研发,而不是闭门造车;
  • 可进化:通过业务场景、数据来持续不断的研发、优化AI能力;
  • 放大器:通过云平台调用、购买来放大所提供能力的价值。

  • 平台方:平台研发和运营方,如阿里云:
  • 助力业务:平台本身是基础设施,可以使用其上的AI来助力自身业务,提升竞争力;
  • 品牌生态:公共云平台是一个入口,也是业界AI集中展示的阵地,通过持续不断的运营,可以聚拢现有和未来AI开发者和生态伙伴,带来长期的效益;
  • 大环境:让更多的人用更好的AI,公共云AI平台自带普惠价值,提升行业及社会的AI水平,促进AI技术进化,这是国家政策鼓励的方向。

 

小结一下:

AI需求、场景的多样化,和方法、数据、资源的有限之间的矛盾,可以基于部分核心AI能力,通过市场化机制、系统化的手段,更高效的减轻。

这里有两个核心点:

  1. 部分已有的AI能力,冷/初始启动,解决可标准化、有一定通用性的问题;
  2. 系统化的机制,形成快速适应、规模效应、反馈闭环、多维度的在线进化体系。


行文到这里,虽然AI平台化看起来是个好选择,但有几个问题需要先行回答:

  1. 与AI市场的区别:仅从AI能力中心这块看,有一定类似,但独立自建的AI平台更强控、品质更精选、运营和体验要求更高;更进一步还需要形成可进化、可再生产、云端协同以及基础设施、能力中心、应用案例等多层次多维度的平台功能。
  2. 与阿里若干开放平台的区别(如云本身也有一个开放平台):针对符合AI特性的供需各方的平台,如前面介绍,有不确定性,可进化,也承担了一定先进性和普惠性期待。
  3. 是否就是个portal,拉个整合页面就完事:这个经常听到,花几位工程师开发几个页面即可。AI开放平台事实上是个高投入、长周期的事,可以参考业界做的好AI开放平台,往往需要成百上千人多年的持续研发,才会有较好的行业地位和影响力。

三、阿里视觉智能开放平台

作为阿里集团视觉技术小组发起的,阿里云视觉智能开放平台(vision.aliyun.com),正是在上述思考下的研发并上线的产品,其上线两年来,一步一个脚印,已迭代三个大版本:

16caba43-4f19-48be-bc89-948601d9d271.png

(我们将在今年云栖大会发布平台v4.0,敬请期待和关注。)

借视觉小组力量团结了多达20+个团队支持,整合或引入了10+已有产品的能力,也支持了集团内外多个业务方,在此谢过,下图只是列举了一部分:

43e953d2-32cc-4c87-8b55-524aecba23ce.png 

平台作为一个特殊的产品,谈愿景听起来比较奢侈,但视觉开放平台自一上线起,就确认了自己的愿景:让天下没有难用的视觉AI,这也是平台发展的出发点和准绳,从中形成了“全面、专业、好用、易用”等平台特点:

image.png

从构架上说,视觉开放平台是一个多层次多维度的体系,其本可分为三层,基础层、能力层、应用层,还有一些用户和运营工具。作为一个平台,每一层都需要非常大的研发和尽力投入(在此也奉劝诸君,勿要言必称“平台”,听起来好听,做起来难做,要有大且持续的资源投入,面对层出不穷的困难的心气,耐得住寂寞的心态)。 image.png

从当前规划来看,为了更务实的推进和更好的理解,可以用另一个更简洁的方式来描述:

462146ce-a3ee-456e-8cda-6ffd646f7d69.png 

平台的研发和推广进入深水区,这里将平台三层分别介绍一下:

1、基础平台

首先,视觉AI开放平台是一个平台,作为基于云的AI产品,资源管理(以GPU为主)、推理平台、稳定性保障、监控跟踪、成本效率提升,这些一个都逃不掉。这些服务于平台第一要性(在线AI能力上线及运行)。最重要的可以抽象成AI能力的(非研发生产)全链路的生命周期管理,包括:规划-->选品-->评测-->上新-->运行-->监控-->更新-->下线等。

其中需要强调的是评测这一块,算法质量的保证(上与不上)需要有一个标准可衡量的评测机制,这也是将AI算法不确定性变为确定的一个方法,包括横向同类能力PK,纵向与已有能力PK,并得到一个规范的评测报告。

AI算法的评测本身也是一个重投入的事,评测规范、数据集、流程,甚至包括各种扯皮,尤其是一个通用的、可信的、全面的(各类AI算法都包括)的平台,需要持续不断的完善和耐心。基于评测中心,我们也会进化出一个将来的重要模块,OpenSOTA,后面会专门提及。

 

此外满足第二特性(缩短供求的在线效率工具)主要依赖于"能力再生产"模块,这里稍微展开一下,除了拿来即用的(能力或案例模板),需要进行二次或多次开发的能力,都归于再生产或再开发,一般有三种模式:

  1. 组合编排:这是对原子能力的重新组合,变成能力簇,可称为分子能力,这类可以是代码开发,也可以是所谓“低代码”图形的方式组合。组合可以是简单的串并联,也可以是稍微复杂的DAG图,甚至是多层次嵌套的类似G语言的全套图形开发方式(如LabView);
  2. 对已有原子能力(一般表现为预训练模型)的再生产:这里指用户通过平台工具在线进行(离线的或脱离开放平台的不在讨论范围内),包括:模型结构、参数权重调整、量化加速、大模型到小模型、少样本tune/不同域数据场景的迁移等;
  3. AI能力的在线迭代进化,这在互联网经典能力“搜推广”中得到广泛应用,在AI平台中还未有成熟的模式,在线学习、增量学习等,这些互联网算法进化模式,在解决数据安全、隐私等问题后,相信迟早在视觉AI领域也会得到应用的。

 

Q:和阿里云PAI有什么关系?

A:PAI可以理解成一系列基础设施和工具,我们基于开放平台的产品定位,引入PAI的能力来进行视觉AI能力的再生产实现。一句话,PAI是我们的基础和工具。

2、能力中心

视觉开放平台首先是一个能力中心,目前汇聚了集团大部分的视觉AI能力(达摩院能力为主),共计15大类200+个,如下:

image.png  到前面视觉技术的分类体系,我们会发现这里基本都有一一对应的类目,也从另外一个角度反应了开放平台确实是阿里视觉领域第一个真正意义上全类目覆盖的平台。仅从视觉能力的数量看,我们已超越了以前的行业标杆百度,在IDC报告中列第一。能力虽多,但基本上可以组织成三大类,基本面能力、优势能力、行业应用类能力:

  1. 基本面能力:包括人脸人体、OCR、检测、打标等,这些AI能力应用广泛,平台必须要有,在性能上至少不能成为明显的短板,不然就是一个小众的AI平台;
  2. 优势能力:基于阿里自有场景锤炼的、具有一定技术优势、差异化的AI能力,以此建立平台能力竞争力,如分割、关键点、超分、商品识别等,这些优势能力本身也可能是基本面能力;
  3. 行业应用能力:平台首先提供的是一些相对通用的AI能力,更多是泛互联网领域的。但另外一些场景需要的(如海外场景、增强修图、人身检验等),或者行业属性重的能力(如医疗、教育等),也是非常有价值的。这也体现了本平台的通用性和开放性。

 

这些能力的选择(选品)本身也需要有一个策略,这里Voronoi量化腔又可以派上用场了,在无限的模拟空间选择合理的可量化的代表点,这个选择可以从需求大小、自有能力优势等多维度去衡量,也需要考虑适合公共云的特性,以及考虑能力再生产的价值(比如某些能力可以采用大模型/预训练模型,以方便后续小模型生产)。

 

3、场景应用

从平台定位看,平台需要提供一些典型的AI解决方案。从发展阶段看,平台在面临冷启动的阶段,没有规模化的用户的时候,可以把研发团队自己作为一个特殊的客户,自己先吃狗粮,看自己能否基于平台构建一些典型案例,如老片修复、人身核验、云修图等。开放平台本身是PaaS(AIaaS)层的,基于此可以构建SaaS层的应用示例,让用户参考,或者拿来复制改造。

这里举几个例子,来验证基于平台快速构建应用的案例:

1)口罩佩戴监测

这个案例来自于2020年新冠暴发期间,由于需求迫切,希望能够快速实施上线,对未佩戴口罩人员的实时提醒,以及管理人员现场管理辅助,疫情防控指挥中心也能及时掌握各公共场所口罩佩戴预防措施的落实情况,提高管理决策精准度。89ce07dc-41b9-479b-8371-c52c9c4ee950.png 

解决思路是,结合开放平台提供的人脸识别、人脸口罩识别,以及钉钉小程序提醒、天猫精灵语音播报技术,打造口罩佩戴检测及统计预警系统。当时在一个月紧密开发后,达到实际部署要求,安装难度低,普通部署监控的工人即可操作,物业自有人员也可以部署;部署周期短,普通安装监控的工人,大约1小时部署一台设备。

 

2)视频广告植入

视频植入就是在视频中加入一些本来没有的内容,而且与上下文融为一体,用户感觉“它”本身就应该在那,最广泛的应用就是广告植入。视频植入是一项非常复杂的技术,需要考虑到方方面面,比如广告位检测、广告位跟踪等等,有时会遇到遮挡、移出屏幕等复杂情况跟踪,而且在视频植入之后还要考虑广告是否能够跟视频细节匹配、光影渲染等问题。 20ff013b-f22c-4e97-9cc2-852616c44352.png

解决思路:基于开放平台提供的精确分割,结合广告位检测、识别跟踪、视频分割、植入及渲染能力,打造全自动的视频广告检测与植入系统,可以实现批量化投放,结合场景化的广告植入,可实现千人前面的差异化曝光,最大化内容价值。

 

3)视觉内容设计生成

早期在研发视觉设计生成产品(鹿班和AlibabaWood)时,积累沉淀了一系列视觉理解和生产相关的能力,这些能力也成为开放平台上“种子”能力。经过一系列的改造,这两个SaaS产品也用到了开放平台的基础设施和AI原子能力,使之更专注于业务能力本身。

61fd5e9b-3fca-4ad3-9a9a-71ac45e83e69.png 

四、进化:从OpenAPI到OpenSDK,从公共云到端云协同

公共云是开放平台的起点,也是主阵地。最早的形态也是API服务,我们称之为OpenAPI。与自有能力无法满足所有的需求,需要再生产工具配合一样,公共云的交付形态也不能满足所有算力场景,在实时交互、数据安全要求高等场景,端云结合是趋势,AI平台也一样,我们称之为OpenSDK。 bce10f71-9a14-4b2a-a321-7c079d5a6c22.png

从产品形态而言,云和端只是开放平台不同的部署和运行形态,需要有统一的产品体验和环境,包括:

  • 业务逻辑:从需求获取、研发上线、业务交流、商务流程、管控升级、场景模拟以及交付等,都在公有云统一平台进行,有一样的用户和体验。
  • 技术逻辑:端侧效果、算力优化、运行时框架、权限和安全等,以及依赖不同软硬件环境的一系列抽象封装,都有端侧的特性。

研发OpenSDK是一个循序渐进的过程,尤其是相应的资源极度缺少的情况下,我们总结了一个递进的逻辑(感谢集团MNN等底层框架的支持):

AI基础能力(如分割、检测、人脸、关键点等)--> 需要2D渲染及素材工具支持的能力(如美颜美妆、贴纸)-->需要3D渲染支持的能力(虚拟人、AR/VR等)。

 

在大半年的研发后,OpenSDK有了一定的雏形,这里举几个基于OpenSDK例子:

e4bd176f-766e-4c3c-bf44-6feb46009af1.png 

端上分割,支持四端(android/iOS/windows/iMac)一致的用户体验

 8be878cf-f13d-4345-85fa-00922a169440.png 

端上增强,找到更广泛的增强应用场景 6de81442-6a7f-4859-9457-b79050a8213e.png

体育健身,在K12教育以外找到AI的价值

2d2de492-187c-4f69-ba0d-cfc125d4933d.png 

端上虚拟人,以超写实打开差异化,先重“外在”再看“聪明”

 

五、进化:AI普惠+机会之地到OpenSOTA

AI平台作为平台的一种,符合通用平台的进化的规律,也有自己的AI特色:

e23429d9-7f9a-46cb-9e50-9725342f4846.png 

阿里的AI开放平台,还需要在社会价值(基础、硬核、普惠等)上贡献自己的力量,从“Let more people use better AI”出发,为需求和供给方都带来实实在在的效率和效果变化。此外,AI作为一个新兴学科,在学术界也是热闹非凡,各种“SOTA”方法层出不穷,但这些方法,复现难、使用难,再加上质量良莠不齐,离社会大众真正使用有一个巨大的GAP,基于此,开放视觉团队一直有一个想法,想真正打造一个“拿来即用”的OpenSOTA机制:

  • OpenSOTA承载了“使平台成为业界/学术界SOTA-AI汇聚和使用之地”这一目标。
  • 汇聚SOTA,重现SOTA,使用SOTA;有更全、更新SOTA能力,更重要的是能够可复现、在线运行、集成使用。

继续自我QA:

Q:阿里做有什么优势?

A:业内有先行者的AI影响力地位非常高,投入资源和周期远超我们,有先发优势。作为后发者,可以从几个维度来看,一是内生的,阿里和阿里云自身业务场景非常丰富,从中沉淀了非常多有实战意义的AI能力;二是外在的,围绕阿里及云的开发者生态,以及消费和产业互联网的多种多样的应用场景,也是有先天优势的(云带动AI,比AI带动云自然的多);三是公共云及AI平台基础设施和工具也相对完善,应对复杂的规模化的研发和应用有优势;四是达摩院在算法专业能力的研发板凳也比较深厚。

Q:为什么是我们做?

A:视觉开放平台首先是一个算法能力中心,负责团队能力的宽度对平台冷启动很重要,开放视觉团队除了在视觉理解(识别检测分割等)上有积累以外,尤其是视觉生产类的技术和产品上,是集团做的最早也是早期投入非常大的团队,有鹿班、AlibabaWood、智能视觉生产以及底层视觉等一系列云上产品实战经验,牵涉到视觉AI技术的方方面面。此外也有视觉小组的发起和支持,在集团视觉能力的多团队协调上也有天然的优势。公共云平台需要带有一定普惠、长期意义的投入,达摩院团队也相对合适一些。此外,开放视觉做为阿里视觉开放平台最早承担、持续投入、理解较深的AI团队,也是机缘和坚持的结果。

 

六、现实和未来

理想丰满而现实骨感,对AI平台这类短期看不到大的收益(“收入”)的产品,加上它天生就是一个需要大协同的项目,各种生产关系的问题,研发环境并不友好。在受约束的环境中,怎么做到较优,一直是我们需要思考的问题。除了愿景支持,需要务实的两条腿的走法,即有明确的长期规划,也要当前有节奏性的产出。如同AI能力本身,有持续不断进化的能力,才是最具想象空间和前景的。

f73a1e4e-c233-4c1a-9189-d197f6b17cf5.png 

最后,也畅想一下视觉AI开放平台终局是什么:

  • 影响力:业内第一AI开放平台和品牌, AI开发和使用模式的引领者;
  • 价值体现:服务百万开发者,百亿调用,亿级收入,千级能力,秒级接入;
  • AI能力:业界/学术界SOTA-AI汇聚和使用之地,原创AI算法的孵化之地;
  • 案例应用:AI最佳案例的分享和体验之地,规模化AI应用的实践之地;
  • 用户生态:中长尾AI用户普惠之地和机遇之地。

 

作为开放视觉团队,研发一流视觉理解、生产等核心能力,研发平台本身、支撑平台的算法和生产效率工具,未来三年最重要要做的事:

  1. 基础平台:可信的AI研用机制 + 能力再生产;
  2. 能力中心:全面专业的AI能力,建成完善OpenSDK + OpenSOTA;
  3. 场景应用:每年1-2个成功的SaaS应用,探索消费者AI在C端的应用;
  4. 品牌运营:业内第一,行业/用户AI地位感知,符合政策鼓励导向。

希望视觉AI开放平台,真正成为阿里AI的入口和阵地,带来业务和社会的双重价值,树立行业AI地位,繁荣AI生态。


目录
相关文章
|
2月前
|
消息中间件 人工智能 Cloud Native
|
2月前
|
机器学习/深度学习 人工智能 算法
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
NVIDIA TAO Toolkit 5.0 提供低代码框架,支持从新手到专家级别的用户快速开发视觉AI模型。新版本引入了开源架构、基于Transformer的预训练模型、AI辅助数据标注等功能,显著提升了模型开发效率和精度。TAO Toolkit 5.0 还支持多平台部署,包括GPU、CPU、MCU等,简化了模型训练和优化流程,适用于广泛的AI应用场景。
64 0
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
|
2月前
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。
|
2月前
|
人工智能 Ubuntu Linux
安装阿里图文融合AI - AnyText心路历程(安装失败告终,心痛!)
安装阿里图文融合AI - AnyText心路历程(安装失败告终,心痛!)
|
3月前
|
人工智能 前端开发 Java
Spring Cloud Alibaba AI,阿里AI这不得玩一下
🏀闪亮主角: 大家好,我是JavaDog程序狗。今天分享Spring Cloud Alibaba AI,基于Spring AI并提供阿里云通义大模型的Java AI应用。本狗用SpringBoot+uniapp+uview2对接Spring Cloud Alibaba AI,带你打造聊天小AI。 📘故事背景: 🎁获取源码: 关注公众号“JavaDog程序狗”,发送“alibaba-ai”即可获取源码。 🎯主要目标:
108 0
|
4月前
|
人工智能 前端开发 Java
【实操】Spring Cloud Alibaba AI,阿里AI这不得玩一下(含前后端源码)
本文介绍了如何使用 **Spring Cloud Alibaba AI** 构建基于 Spring Boot 和 uni-app 的聊天机器人应用。主要内容包括:Spring Cloud Alibaba AI 的概念与功能,使用前的准备工作(如 JDK 17+、Spring Boot 3.0+ 及通义 API-KEY),详细实操步骤(涵盖前后端开发工具、组件选择、功能分析及关键代码示例)。最终展示了如何成功实现具备基本聊天功能的 AI 应用,帮助读者快速搭建智能聊天系统并探索更多高级功能。
1466 2
【实操】Spring Cloud Alibaba AI,阿里AI这不得玩一下(含前后端源码)
|
3月前
|
消息中间件 人工智能 运维
|
3月前
|
人工智能 自然语言处理 Linux
Llama 3.2:开源可定制视觉模型,引领边缘AI革命
Llama 3.2 系列 11B 和 90B 视觉LLM,支持图像理解,例如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。
|
4月前
|
机器学习/深度学习 人工智能 监控
探索视觉AI:超越计算机视觉的边界
【8月更文挑战第20天】
64 2
|
4月前
|
机器学习/深度学习 人工智能 PyTorch
"揭秘AI绘画魔法:一键生成梦幻图像,稳定扩散模型带你开启视觉奇迹之旅!"
【8月更文挑战第21天】稳定扩散(Stable Diffusion)是基于深度学习的模型,能根据文本生成高质量图像,在AI领域备受瞩目,革新了创意产业。本文介绍稳定扩散模型原理及使用步骤:环境搭建需Python与PyTorch;获取并加载预训练模型;定义文本描述后编码成向量输入模型生成图像。此外,还可调整参数定制图像风格,或使用特定数据集进行微调。掌握这项技术将极大提升创意表现力。
59 0

热门文章

最新文章