聊一聊MNN在端智能生态中的应用

简介: MNN推理引擎联合优酷体育、陌陌推出最新玩法!

前言

2019年5月,淘系技术开源了深度学习推理引擎MNN,加入到人工智能开源社区中来。自打开源起,MNN就一直是开源社区的性能标杆之一,是众多后来者的挑战的目标。这固然是来自行业的认可,却也拉开了推理引擎间的性能军备竞赛。这或多或少,背离了我们的初心 —— 人工智能只是工具,靠比拼工具在一时一地的优劣,不能帮助我们繁荣AI应用生态。

帮助MNN不断成长的,除了我们在性能上的不断压榨,还有众多场景的哺育。MNN支撑着阿里巴巴众多的人工智能应用,从电商购物到视频直播,从手机应用到智能汽车;同时,也有越来越多的企业选择MNN,通过人工智能来提升工作能效、优化用户体验。是这些应用,而不是PPT上的性能数据,在你我不经意之间,改变了我们的生活。

为了走出性能内卷怪圈,为了给生态引一泓清流,MNN会陆续为你介绍我们在人工智能应用上的探索。这里的「我们」,不只是阿里巴巴,也包括身为MNN用户的你。

优酷体育:宅家街舞AI私教?!

今年的疫情对许多行业都产生了深远的影响,这其中就包括运动健身。宅家胡吃海塞,不能去健身房挥汗如雨,沉积的脂肪都堆在了大腿和肚腩上。俗话说,三月不减肥,四月徒伤悲,五月不减肥,六月徒伤悲…就算宅家,也不能被封印在床头!生命!在于运动!

然后你看了看家里的跑步机。

image.png

是这样?

1601178308215-fc3d6442-7f47-4336-b7ba-8b47cf367819.gif

或者是这样?

除了器械,家庭健身需要专业的运动指导,更需要优质的内容,让运动本身不再乏味和无趣。优酷体育AI操房,作为中国首家家庭智能操房平台,连接了硬件产商、健身机构和运动达人,通过游戏互动,带你玩转运动 —— AI操房通过摄像头捕捉用户动作,通过算法实现动作量化分析,再结合上游戏化的方式,把反馈投屏到电视上,让用户的跳操不再枯燥乏味。

image.png

为了指导用户做出动作并打分,我们要先根据原始视频设定动作示意和打分标准。运营同学会在AI操房的后台,从原始视频中选出关键帧,根据视频骨骼点信息生成动作示意图和描述文件。

image.png

在进入操练前,动作描述文件会和视频一同下载下来。在视频播放的同时,摄像头会捕捉用户的动作。关键帧的前后一段时间都会作为对应动作的得分区间。我们会在得分区间内持续比较用户和视频的动作差异,给出miss、good、perfect等反馈,并打出分数。区间内的最高得分会保留为动作的最终得分,参与总得分的计算。

1601256932169-0c027fb5-c3fb-4ca4-ac62-4e4f71922309.gif

这样,就算宅在家里,也能练起街舞了。谁说下一届「这!就是街舞」的冠军,就不能是你呢?

整套方案基于平台化思维,分为前端用户流程和动作编辑后台,整套流程完全开放,可以提供给健身机构或者KOL,产出定制化的AI操房,创造更多的玩法。整套方案还可以无缝迁移到OTT,为OTT用户提供服务。

有意向与优酷体育进行合作的智能硬件产商、科技和AI算法平台、健身机构和健身内容创作者们,请发邮件至:zr162261@alibaba-inc.com ,与优酷体育共创AI健身操房,做大!做强!

陌陌:直播互动「心」姿势

陌陌在人脸识别、人脸关键点、表情识别、手势识别、身体关键点算法上,有长足的积累。在直播中,陌陌基于人脸识别、人脸关键点,加上渲染、磨皮、美白等技术,为主播实现美颜、眼妆、贴纸等一系列特效;在拍摄器里,陌陌基于人脸关键点,来识别表情和睁闭眼,实现了一系列的特效玩法,比如眨眼识别的眨眼星星特效、嘟嘴识别的吹蒲公英、吹泡泡等。

最初,陌陌并没有使用MNN推理引擎,由于客户端上人脸检测、人脸关键点等模型推理和特效渲染都需要占用大量CPU和内存,CPU和内存成为了更多模型和特效应用的瓶颈。在全面升级到MNN推理引擎之后,推理速度和内存占用上都有了明显的优化。这样,客户端上就可以放心添加更多功能模块了。

image.png

为了增加主播和粉丝的互动,让直播更加有趣,陌陌在直播中推出了送礼物比心的互动玩法 —— 当粉丝给主播送出礼物后,主播可以做出比心手势表示对粉丝的感谢,在客户端识别出手势后,会触发粉丝送礼物的特效。

image.png

技术小哥哥素颜出镜比心

功能上线后,使用过的主播都夸效果好,直播间的粉丝数有明显的提升,主播和粉丝之间的互动更多了,粉丝刷礼物也更积极。

后续,陌陌还会在直播间和拍摄器里设计出更多好玩的特效和互动,期待你的体验~

智能应用长征

人工智能可以优化原有流程的体验,也可以开创出全新的玩法,但目前,智能应用的开发流程还很长,整体门槛比较高。

image.png

要打造一款有用、有趣的人工智能应用,你需要对人工智能和业务场景都有必要的认知,才能将有效融合两者。同时,你需要为模型训练收集大量的数据,并对数据做出必要的清洗和标注。之后,在众多模型结构中找到适合业务的,经历漫长的训练、验证迭代,得到模型后还需要做必要的优化、压缩。

产出模型并不是端侧AI应用的终点,恰恰是起点。以视觉类应用为例,可能90%的工作量都在模型训练之后 —— 适配iOS、Android的相机输入,图片增强特征、裁切、转换,推理结果过滤、提炼,结合物料渲染上屏。工程链路很长,涉及到的移动端编程、图片处理、渲染绘制,还分别要求不同的专业技能。

# 预告

如何降低人工智能应用的门槛、提升人工智能的研发效率,想了解淘系的实践经验吗?

号外:MNN官网全新上线,下周,将有重磅消息推出,敬请期待哦~也可以进入MNN官网,提前尝鲜。

也可以添加淘大橙微信(TaoTech001)随时获得最新资讯!!!

image.png

关注「淘系技术」微信公众号,一个有温度有内容的技术社区~

image.png

相关文章
|
7月前
|
物联网 机器人 Swift
|
机器学习/深度学习 人工智能 小程序
|
7月前
|
数据采集 机器学习/深度学习 存储
性能提升30%!中国电信进一步开源12B星辰大模型TeleChat-12B!魔搭社区最佳实践来啦!
中国电信人工智能研究院开源12B参数规模星辰语义大模型TeleChat-12B,相较1月开源7B版本,内容、性能和应用等方面整体效果提升30%,其中,多轮推理、安全问题等领域提升超40%。在C-eval、MMLU、AGIEVAL等国际权威榜单上,排名处于国内同级别参数开源模型的前列,进一步促进大模型开源生态繁荣,助力AI产业加速高质量发展。另据悉,中国电信人工智能研究院将于年内开源千亿级参数大模型。
|
7月前
|
人工智能 文字识别 物联网
新一代端侧模型,面壁 MiniCPM 2.0开源,魔搭社区最佳实践
MiniCPM-V 2.0 不仅带来优秀端侧多模态通用能力,更带来惊艳的 OCR 表现。通过自研的高清图像解码技术,可以突破传统困境,让更为精准地识别充满纷繁细节的街景、长图在端侧成为可能。
|
人工智能 文字识别 开发者
CogVLM智谱AI 新一代多模态大模型发布,魔搭社区最佳实践体验!
继 5 月 18 日推出 VisualGLM-6B 后,智谱AI&清华KEG 潜心打磨,于近日发布并直接开源了更强大的多模态大模型——CogVLM-17B。模型已第一时间发布在魔搭社区,可体验!
|
人工智能 API 云计算
飞天技术观|ModelScope:共建模型生态,以模型自由加速AI应用创新
基于「模型即服务」,即MaaS(ModelasaService)的理念,ModelScope通过不断降低模型应用门槛,让AI更普惠,帮助开发者在ModelScope上能够低成本、高效地使用模型,并建立起良好的模型生态和开发者生态。
773 0
|
存储 机器学习/深度学习 人工智能
WAIC 2023 | 百度吴华:大模型时代的 AI 原生研发模式
WAIC 2023 | 百度吴华:大模型时代的 AI 原生研发模式
209 0
|
存储 人工智能 并行计算
喜马拉雅基于DeepRec构建AI平台实践
快速落地大模型训练和推理能力,带来业务指标和后续算法优化空间的显著提升。喜马拉雅AI云,是面向公司人员提供的一套从数据、特征、模型到服务的全流程一站式算法工具平台。
|
人工智能 开发框架 达摩院
HaaS Python + 达摩院AI能力 实现云端一体物体识别
HaaS Python + 达摩院AI能力 实现云端一体物体识别
222 0
|
机器学习/深度学习 存储 人工智能
「开源人说」|AI普惠,阿里灵杰开源历程与思考
施兴 阿里巴巴资深技术专家 阿里巴巴开源项目EasyRec负责人
118158 1
「开源人说」|AI普惠,阿里灵杰开源历程与思考