从云栖大会第一天看阿里和图计算

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 我没能去上杭州参加这次云栖大会,但是通过在线观看云栖大会第一天的视频,我依然收益良多。

我是一名理工科码农,想不出一些诗词歌赋来形容本次云栖大会声势的浩大、场馆的漂亮、阵容的强大,以及人山人海,只能用好大、好漂亮、好强、人好多来表达一下自己的感受,而且,这些感受的数据来源都是来自网上的直播、重播和照片分享。是的……由于项目进度上的一些原因,我没能去杭州参加本次云栖大会,但是,我依然收益良多。
先从25日上午的主论坛说起,回想起去年云栖大会第一天上午的大会议程,主论坛与各分会论坛是同时进行的,这就造成了比较大的分流,导致许多人无法把注意力集中到主论坛的分享上。今年的大会议程就修改了这个Bug,上午只设置主论坛,引导大家把注意力都集中到主论坛分享的阿里巴巴集团在很多领域中目前取得的技术应用进展以及对未来的规划,让大家在对技术、大数据、人工智能、IoT等领域的技术前沿及发展趋势有一个总体的印象。这让我回想起我08年硕士毕业后来到成都一家外企的研发中心工作时,当时中国区技术总监对我们说过的一句话,他说工程师不能总是一直低头干活,有时候还要抬头望望天。我十分认同这一点,对技术及应用的发展动态和趋势有一个总体的认识和把握,是十分有必要的。单从大会议程这个细节的Debug来看,阿里真的很细心,也十分用心!
对于主论坛所分享的内容,作为一名理工科码农,我更感兴趣的是一些数字。今年是阿里巴巴集团成立20周年,是阿里巴巴开发者大会举办10周年,是云栖大会举办5周年,是达摩院成立2周年,是平头哥成立1周年;目前,淘宝上有1000多万个卖家,钉钉上也有1000多万个组织;浙江省省政府的移动化办公平台有100万日活,实现了100万公务员的移动化办公;东方希望集团在钉钉上花了90万元,开发了47个小程序,实现了之前投入9000万元都没能实现的在线移动协同办公;在主论坛现场,平头哥正式发布含光800芯片,在这款芯片上,使用ResNet50网络进行测试时,芯片每秒可以处理78563张图片,而且每瓦每秒可以处理500张图片;一个含光800的算力等于10个GPU;如图一和图二所示,将含光800应用于杭州主城区交通视频中的车辆与路况识别的场景中,对比之前使用GPU芯片处理此应用时需要使用40个GPU芯片,延时为300毫秒,单路视频功耗为2.8瓦。当使用含光800芯片之后,处理此应用只需要使用4个含光800芯片,是原来的十分之一,延时达到150毫秒,是原来的一半,单路功耗达到1瓦,节省了比原来一半还多的功耗。从这些简单的数字,就可以窥见到阿里巴巴集团成立20年来,对云计算、大数据、物联网等领域的技术发展、对中国社会、广大技术工程师、中小企业、个体卖家、以及普通百姓做出了实实在在的贡献!作为一个技术宅,我也为能在项目中使用阿里云的产品以及一些开源框架,而感到十分自豪!

25AM_35

图一

25AM_36

图二

当然,除了在主论坛分享的那些数字,我对开场视频中的三段话也深有感触(如图三、图四、图五),就是“我们相信,数据是连接世界的血脉”,“我们相信,算力是构建梦想的动力”,“数字经济时代的基础设施,才是造风者寻找的未来价值”,我也相信,像我一样,经历过项目中数据量大、存储和计算资源又十分有限的技术宅们,当看到这三段话时,都还感同身受,当看到平头哥发布的含光800时,也都会心驰神往,立即扫描申请试用。只是,我的个人用户申请,还在等待审核……期待ing……

25AM_1

图三

25AM_2

图四

25AM_3

图五

收!把思绪拉回到下午的议程。当今年云栖大会的议程公布之初,我就注意到25日下午的两个跟图计算有关的专场,【智能图计算技术专场】和【基于图神经网络的认知智能计算专场】。在较大数据量的前提下,在分布式集群上建立图计算模型是我们项目目前遇到的一个痛点,所以我早早就盯上了这两个专场,而且当我得知在【智能图计算技术专场】上还将公开一款图计算的开源框架时,我更是眼前一亮。我还记得当天我是在公司的大会上偷偷用手机看完这个Topic的,当我看到这个名为pygrape的分布式图分析引擎可以跟阿里已经开源的Mars无缝对接时,看到在单机版Python代码的基础上做少量代码替换,即可实现对大规模图数据进行分布式计算时,我终于有了一种柳暗花明又一村的畅快;当我看到可以使用graphT对关系图进行交互式分析时,这种意外的惊喜,更是让我激动不已,当时真想大声的喊一句“我终于不用为集成Neo4j发愁了”;当于文渊说pygrape和graphT将会在明年开源时(如图六),我真想明天就过年。

python_graph_37

图六

虽说现在在机器学习、人工智能领域,Python这门编程语言已经是事实上的标准编程语句,可是在目前主流的开源大数据计算框架Spark和Flink中,Python都还不是一等公民。单就图计算来说,要想在Spark中对离线数据进行图计算,可以使用GraphX组件,只是这个组件没有Python的API,需要使用Scala或者Java来实现,而且GraphX的图计算是把每个点和边的属性存储在一个个RDD中进行计算,但并不提供可视化的交互式查询或分析功能,想要实现交互式查询或分析,就需要对接Neo4j这样的图数据库软件,这对建立图计算模型和产品化是非常不方便的。而且没有Python的API,在特征工程及模型训练阶段中的机器学习算法建模,甚至建立图神经网络,都是很不方便的。
所以目前的现状就是,缺少一个基于Python编程语言的大数据生态。在数据处理及分析阶段,可以使用Python在分布式集群上,对大规模批、流数据进行数据读取、数据清洗、数据处理等操作,在特征工程及模型训练阶段,可以使用Python,将处理好的数据,对接主流的机器学习及深度学习框架,如scikit-learn,TensorFlow,Keras,PyTorch等,筛选出适当的特征,喂给算法模型或网络进行模型训练,再将训练好的模型部署上线进行预测。而阿里开源的Mars、pygrape和graphT这三个框架,就能够很好的改善这一现状,开始建立起Python的大数据生态。这三个开源框架的另一个好处,就是不仅可以在阿里云上帮助用户使用Python统一数据处理及分析和特征工程及模型训练的工作,还能够帮助那些数据没办法上云的用户,在各自的分布式集群上,方便快捷的对关系型数据和关系图进行分布式计算,并无缝对接到机器学习和深度学习框架,进行模型和网络的训练,使机器学习和人工智能更好的深入到更多的应用场景中。真的是数据处理、分析建模之必备良品。
当然,在阿里云上,就图计算和图神经网络的应用来说,除了为我们这些码农准备了上述那些很好很强大的开源框架外,本次云栖大会【智能图计算技术专场】还发布了更为全面的一站式图计算开发平台GraphCompute。在发布会上,陈洁引用了DB-Engine网站的数据库排名(如图七右上角子图),可以明显的看到从2013年开始,绿色线所代表的图数据库技术一直在陡峭攀升,表示图存储及图计算技术的技术突破和相关产品一直在不断的涌现;她还引用了Gartner发布的2019年跟数据相关产品魔力象限的分析报告(如图七左下角子图),并指出报告中分析师们预测在未来的2到5年内,在企业层面和实际的需求落地层面,图相关的项目和需求都会有很大的发展,说明企业在业务中应用图计算的需求也在不断的涌现。同时,陈洁也列出了目前图计算技术在如下4个常用场景的应用(如图八),即社交关系、知识图谱、金融风控和网络安全。其中,图计算技术在知识图谱和网络安全场景中的应用,都是目前我们产品和项目中的痛点,所以我也马上提交了GraphCompute的公测申请,目前依然在等待审核中……期待ing_2……

graphCompute_4

图七

graphCompute_5

图八

与此同时,【基于图神经网络的认知智能计算专场】着重介绍了以拖拽式训练模型为特点的PAI平台(如图九)为基础,使用GNN算法仓库为用户快速搭建图神经网络的AliGraph平台(如图十)、系统性能(如图十一)以及实际场景应用案例(如图十二)等。

ALiGraph_3

图九

nnGraph_7

图十

ALiGraph_18

图十一

secGraph_7

图十二

再配上这次大会平头哥发布的含光800芯片,可见在图计算的技术领域中,在数据处理及分析和特征工程及模型训练阶段,无论是软件技术还是硬件设施,阿里都已经为大规模分布式图计算应用做好了充足的准备,为企业提供了性能良好的存储和计算平台,功能强大的开源框架,以及性能卓越的芯片。正如【基于图神经网络的认知智能计算专场】中鸿侠所说,人工智能已经升级到2.0版本,我相信大规模图计算技术即将在满足企业各种大数据复杂业务场景的需求中大显身手。
另外,之所以我的这篇博客中能贴出这么多画质清晰、整洁的图片,还要感谢这次云栖大会录制并分享了全部的会议视频,并在各分会的分享中采用了PPT与主讲人分屏显示的方式,这样我才能对每页PPT进行完美的截图,贴在这篇博客中。而且,这次大会还分享出73篇大会使用的PPT,如此的用心和开放,这次云栖大会真称得上是一场技术的盛宴了!明年,我一定争取去现场!
最后,随文附带上这次云栖大会视频回放和PPT下载的链接,希望能为看到这篇文章的小伙伴们节省一些查找链接的时间。

视频回放: https://yunqi.youku.com/2019/hangzhou/review?spm=a2c4e.11165380.1395223.1

PPT下载: https://developer.aliyun.com/article/719452?utm_content=g_1000078801

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
存储 人工智能 弹性计算
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。
257 27
|
1月前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
2月前
|
存储 弹性计算 人工智能
阿里云弹性计算_通用计算专场精华概览 | 2024云栖大会回顾
阿里云弹性计算产品线、存储产品线产品负责人Alex Chen(陈起鲲)及团队内多位专家,和中国电子技术标准化研究院云计算标准负责人陈行、北京望石智慧科技有限公司首席架构师王晓满两位嘉宾,一同带来了题为《通用计算新品发布与行业实践》的专场Session。本次专场内容包括阿里云弹性计算全新发布的产品家族、阿里云第 9 代 ECS 企业级实例、CIPU 2.0技术解读、E-HPC+超算融合、倚天云原生算力解析等内容,并发布了国内首个云超算国家标准。
阿里云弹性计算_通用计算专场精华概览 | 2024云栖大会回顾
|
2月前
|
存储 弹性计算 安全
阿里云弹性计算_通用计算专场精华概览 | 2024云栖大会回顾
本次专场内容包括阿里云弹性计算全新发布的产品家族、阿里云第9代 ECS 企业级实例、CIPU 2.0技术解读、E-HPC+超算融合、倚天云原生算力解析等内容,并发布了国内首个云超算国家标准。
|
3月前
|
存储 人工智能 弹性计算
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
|
3月前
|
云栖大会
|
存储 分布式计算 NoSQL
2022云栖精选—云栖大会-图计算及其应用论坛
摘要:本文整理自达摩院的资深技术专家与图计算团队的负责人于文渊老师,在云栖大会“图计算及其应用”分论坛的分享。本篇内容主要分为六个部分: 1. 实时离线一体图计算引擎 2. 全新的图交互查询/模式匹配IR与引擎 3. 图分析引擎的全新升级 4. 图学习引擎的全新升级 5. 图可视化解决方案 6. 用户友好型与易用性提升
412 76
2022云栖精选—云栖大会-图计算及其应用论坛
|
人工智能 Cloud Native 物联网
“计算 进化 未来”-记2022云栖大会
不知不觉,距离上一次参加云栖大会已经过去一年了。昨日的自研磐久,开源玄铁还历历在目,这么快又迎来了2022云栖大会。从信息化跨越到数字化,云计算的下一个风向标在何处?阿里云在本届云栖大会主论坛中给出了答案:重构整个IT硬件体系、软件研发范式深刻变革、云端加速融合。
696 0
“计算 进化 未来”-记2022云栖大会
|
机器学习/深度学习 存储 人工智能
云栖大会推出阿里灵杰,大数据+AI一体化平台 6 大重磅发布
10月20日2021杭州云栖大会上,阿里巴巴集团副总裁、阿里云计算平台事业部负责人贾扬清发布大数据+AI一体化平台新品牌“阿里灵杰”,提供从“生产-采集-存储-分析-开发-治理-价值体现”整套云原生技术架构和产品体系,配套智能化运维平台和强大的数据资产安全管控能力。
1592 0
云栖大会推出阿里灵杰,大数据+AI一体化平台 6 大重磅发布
|
消息中间件 Cloud Native 安全
2021云栖大会|东方通正式加入阿里云云原生合作伙伴计划·强强联手共创国产数字化转型新风向!
近日互联网 IT 峰会中当属每年一度的“云栖大会”热度高,东方通作为核心伙伴受邀参加 2021 云栖大会,并与阿里云一起探讨中间件支撑云原生技术推动政企行业数字化转型的新方向。
2021云栖大会|东方通正式加入阿里云云原生合作伙伴计划·强强联手共创国产数字化转型新风向!

热门文章

最新文章