Analytics Zoo,一个集合主流框架PyTorch和Tensorflow的神奇动物园

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 最近旷视「天元」、华为「MindSpore」纷纷重磅开源。对此,技术大牛英特尔大数据技术全球CTO戴金权坦言,Intel的框架与华为、旷视并非是互相竞争关系。那么有了主流深度学习框架PyTorch和TensorFlow,为什么还要Big DL和Analytics Zoo呢?

当被问到最近旷视「天元」、华为「MindSpore」纷纷开源是否对英特尔造成影响时,技术大牛英特尔大数据技术全球CTO、大数据分析和人工智能创新院院长戴金权坦言,Intel的框架与华为、旷视并非是互相竞争关系。不同的框架在不同的应用场景中各有优势。


硬件方面,英特尔拥有CPU、GPU再到FPGA等多种加速器,从边缘到客户端,再到数据中心端,全面布局。而软件层面,英特尔打造了oneAPI到OpenVINO、BigDL、Analytics Zoo等众多软件工具。


有了PyTorch和TensorFlow,为什么还要Big DL和Analytics Zoo?


BigDL是英特尔研发的一个基于Apache Spark的开源分布式深度学习框架,于2016年12月正式对外开源。


有了PyTorch和TensorFlow,为什么还要Big DL呢?


Big DL相比于其他主流的深度学习框架(TensorFlow/Caffe/PyTorch),算是一个异类。功能上,BigDL能够实现主流框架同样的功能。


对开发者来讲,用TensoFlow, PyTorch写好模型后还是要加载到spark集群,而环境不一致就很容易出问题,BigDL基于Spark来编写,可以和Spark集群无缝集成,原有的pipeline也不需要改变,所以相对TensorFlow, PyTorch部署起来更方便,pipeline的一致性也会让整个工作流的效率更高。


换句话说,他能更好地实现深度学习和大数据平台的无缝结合。


当然有的开发者还是很不习惯,还是想用回TensorFlow训练。但问题来了,

Keras、TensorFlow 和 PyTorch 等大多数库都还不能与 Spark 兼容。


因此,英特尔又在 BigDL 开源半年后推出了 Analytics Zoo,定义为一个统一的大数据分析和人工智能平台,以帮助客户省去拼接各种独立组件的麻烦。


微信图片_20220108194222.png


老虎大象同放一个屋檐下,打起来了怎么办?


Zoo,顾名思义,就像一个用来存放“老虎大象”的动物园。API就好比是这家“动物园”里面的一个驯兽师,调和了不同动物“大象”“狮子”之间的矛盾,让整个驯兽表演更加流畅自如。


Analytics Zoo并不是一个简单的整合,它提供了一组丰富的高级 API接口 可以将PyTorch、BigDL、Keras 和 TensorFlow 程序无缝集成到 Spark 的 pipeline 中。这个集成管道可透明地扩展到大型 Apache Hadoop/Spark 集群,以进行分布式训练或推理。


Analytics Zoo会将数据做并行化处理,无论你用的TensorFlow、PyTorch、spark都可以很容易地部署不用自己再去做工程化,最后系统会自动完成集群调度和分布式计算,整个过程行云流水。


微信图片_20220108194226.png


戴金权表示,“我们希望解决的问题是在Analytics Zoo如何将这些不同的深度学习的框架,和这些大数据处理分析的平台,能够有机整合在一起,当用户针对他适合的场景和适合的处理方式时,可以很方便的将不同的组件有机统一在一起,很方便地将端到端的工作流构建起来。”


微信图片_20220108194229.png


为什么有了这样一个idea呢?


英特尔人工智能创新院在过去一年,一直在思考如何帮助用户更加自动化、更加无缝的将AI进行扩展。


戴金权在分享中详细解读了团队研发软件平台的灵感。


一个数据科学家在他的笔记本上用一些样本数据自己构造一个原型,比如说他写了一个Python的Notebook,他在笔记本上对样本数据进行处理分析,他觉得这个原型工作的不错。


下一步他就要利用一年的数据去做一些试验。


那么问题来了。首先,这些历史数据通常会很大。第二,这些数据通常是你的生产数据,比如说你的数据仓库、大数据集群上的一部分,你通常需要在集群环境下用历史数据做一些试验。


当你发现这个试验效果也不错之后,你会想把这个构建出来的模型、算法、应用能够部署上线,在生产环境上做一些AB测试等等。


今天把你的应用从笔记本电脑搬到集群上,再搬到你的生产环境当中,其实是一个非常复杂的过程,你发现要苦哈哈地重写代码,需要把你的模型进行转换,数据进行传输、拷贝等等,这个过程简直抓狂。


利用Analytics Zoo可以直接构建一个端到端的流水线,直接访问你的生产数据。“我们的愿景就是,当用户需要把AI大数据分析处理的应用从笔记本上搬到集群环境当中时,几乎不需要做任何代码修改就可以直接运行在你的分布式环境甚至是生产环境当中。”戴金权表示。


实际应用:从原子对撞到垃圾检测


BigDL和Analytics Zoo在实际应用当中也大显身手。


在去年阿里云主办的大数据竞赛天池大赛上,英特尔团队和阿里云合作,利用Flink加上Analytics Zoo来提供实时的垃圾分类检测的工作。


微信图片_20220108194231.png


你是什么垃圾?


风电厂商金风慧能也基于Analytics Zoo构建AI应用,来进行部分地区的功率预测,准确率从60%提升到80%以上,达到了节能的效果。


更值得一提的是英特尔与CERN的合作。CERN是欧洲的原子研究机构,它运行着世界上最大的强子对撞机,每秒可能要进行4000万次的对撞,要产生1PB的数据。


它利用Analytics Zoo和BigDL进行实时的事件过滤,将很多无用的数据给过滤掉,准确地存下有用的数据供科学家进行分析。


还有一个例子是SK Telecom,它是韩国最大的电信公司,韩国一半的人口都是它的用户。


韩国在5G方面也有非常快速的部署,有大量的5G基站,各种各样移动的基站的时间序列数据需要进行收集分析。有了Analytics Zoo的帮助,他们的智能通讯网络也实现了智能管理、监控和预测。


英特尔AI软件层面的未来规划


英特尔中国研究院在计算机视觉方面的算法做了非常多的工作,其中包括在模型优化上的一些算法方面的工作。


同时未来也会做很多针对中期到近期的软件栈,比如怎么样能够将AI软件栈非常好地运行在超异构的架构上。也包括在库的级别,像oneDNN这样的针对深度学习的计算库,以及在框架层面TensorFlow、PyTorch、MXNet上面的各种优化。


除此之外,戴金权表示,英特尔希望提供高性能计算库或者端到端的平台层给到用户。英特尔公司未来在这几方面的提升,最终可以帮用户提高工作效率。

今年6月份的CVPR戴金权会带领团队进一步分享他们的最新成果。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
30天前
|
并行计算 PyTorch TensorFlow
Ubuntu安装笔记(一):安装显卡驱动、cuda/cudnn、Anaconda、Pytorch、Tensorflow、Opencv、Visdom、FFMPEG、卸载一些不必要的预装软件
这篇文章是关于如何在Ubuntu操作系统上安装显卡驱动、CUDA、CUDNN、Anaconda、PyTorch、TensorFlow、OpenCV、FFMPEG以及卸载不必要的预装软件的详细指南。
2759 3
|
2月前
|
数据挖掘 PyTorch TensorFlow
|
6天前
|
机器学习/深度学习 监控 PyTorch
深度学习工程实践:PyTorch Lightning与Ignite框架的技术特性对比分析
在深度学习框架的选择上,PyTorch Lightning和Ignite代表了两种不同的技术路线。本文将从技术实现的角度,深入分析这两个框架在实际应用中的差异,为开发者提供客观的技术参考。
23 7
|
1月前
|
PyTorch TensorFlow 算法框架/工具
Jetson环境安装(一):Ubuntu18.04安装pytorch、opencv、onnx、tensorflow、setuptools、pycuda....
本文提供了在Ubuntu 18.04操作系统的NVIDIA Jetson平台上安装深度学习和计算机视觉相关库的详细步骤,包括PyTorch、OpenCV、ONNX、TensorFlow等。
38 1
Jetson环境安装(一):Ubuntu18.04安装pytorch、opencv、onnx、tensorflow、setuptools、pycuda....
|
1月前
|
并行计算 PyTorch TensorFlow
环境安装(一):Anaconda3+pytorch1.6.0+cuda10.0+cudnn7.6.4+tensorflow1.15+pycocotools+pydensecrf
这篇文章详细介绍了如何在Anaconda环境下安装和配置深度学习所需的库和工具,包括PyTorch 1.6.0、CUDA 10.0、cuDNN 7.6.4、TensorFlow 1.15、pycocotools和pydensecrf,并提供了pip国内镜像源信息以及Jupyter Notebook和Anaconda的基本操作。
89 0
环境安装(一):Anaconda3+pytorch1.6.0+cuda10.0+cudnn7.6.4+tensorflow1.15+pycocotools+pydensecrf
|
3月前
|
机器学习/深度学习 PyTorch TensorFlow
conda、anaconda、pip、pytorch、tensorflow有什么关联?
conda、anaconda、pip、pytorch、tensorflow有什么关联?
|
3月前
|
机器学习/深度学习 PyTorch TensorFlow
TensorFlow和PyTorch的实际应用比较
TensorFlow和PyTorch的实际应用比较
|
2月前
|
机器学习/深度学习 数据挖掘 TensorFlow
解锁Python数据分析新技能,TensorFlow&PyTorch双引擎驱动深度学习实战盛宴
在数据驱动时代,Python凭借简洁的语法和强大的库支持,成为数据分析与机器学习的首选语言。Pandas和NumPy是Python数据分析的基础,前者提供高效的数据处理工具,后者则支持科学计算。TensorFlow与PyTorch作为深度学习领域的两大框架,助力数据科学家构建复杂神经网络,挖掘数据深层价值。通过Python打下的坚实基础,结合TensorFlow和PyTorch的强大功能,我们能在数据科学领域探索无限可能,解决复杂问题并推动科研进步。
59 0
|
2月前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
63 0
|
3月前
|
机器学习/深度学习 人工智能 PyTorch
AI智能体研发之路-模型篇(五):pytorch vs tensorflow框架DNN网络结构源码级对比
AI智能体研发之路-模型篇(五):pytorch vs tensorflow框架DNN网络结构源码级对比
76 1
下一篇
无影云桌面