Apache Zeppelin(三)| 学习笔记

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习 Apache Zeppelin。

开发者学堂课程【Apache Flink 入门到实战 - Flink 开源社区出品 Apache Zeppelin(三)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/632/detail/10038


Apache Zeppelin(三)


八,Jdbc interperter

1,介绍

JDBC 一个非常普适的一个数据访问协议,大部分的那些数据库,或者大数据里面的一些数据库引擎,基本上都是支持的,比如其他一些大数据引擎基本上都是支持Jdbc 的,那在 notebook 环境里面用 JDBC 有一个最大好处就是能够把结果可视化出来,因为传统能看到结果就是就是文本的方式。

那图形化的方式的话,它的信息量会更加大,就是比如一张图片,胜过千言万语。就是说一张图片,他的那个所含的信息量是非常巨大的,因为如果我给你,比如说查一条,可以去查出来是一些文本的一些数据,如果那个数据量小还好,如果数据量一大,基本上我们的人的肉眼其实是捕捉不到一些有用信息的,但是如果用图形化的这种方式,表达出来的话,非常容易能够捕捉到这张图背后所表达的一些信息的,所以图片的那个信息量是非常巨大的。

2,例子
JDBC 这些配置,其实主要是配置一些基本的信息,主要有这两个,两个最重要信息,一个是 driver,要知道他那个 driver 是哪个,另外一个是地址。

只要有了这两个东西,能够访问,在这里面访问还有系统。同样一条数据,Accept 正要正在跑了,这是个 reduced 开始,但是相对稍微慢一点。再刷新一下,就结束了。

就是说即使假如有这种情况,用flink接口去访问数据,写的有些可以出现一些状况的时候,其实也是可以还是在这个环境里面,还是可以去用你原来这个的方式去查询的。而且,在这边你可以用可视化那个查询出来的数据,这是一个对终端用户来说是一个蛮大的一个一个帮助。

 

九,Python Interpreter

1,介绍

由于机器学习,python 变得越来越重要,因为大部分的机器学习或者是深度学习的那些 framework 都是 python 语言的,而且,我们所熟知的那些数据科学家,那些人,基本上他们都非常喜欢用 python。Python 用 python 的话有两种方式,一种是对原生的一个拍 python,另外一个 ipython,他是比 python 更加高级一点的,有一些其他的一些功能。

2,例子

怎么在里面去用 python,举了一个做深度学习的这样一个例子,其实是二分的这样一个算法,电影的就是专门国外有这样的,就是对电影的论的这样一些,一个数据库,试用 careless,存数据库,然后把它拆分为 trainingdata 和 testingdata。

理想状况是,数据已经准备好了,已经有数据了,在真实的环境里面,其实数据不是那么容易得到的。

在真实环境里面,前面就需要用其他的一些引擎对数据做一些处理,比如用flink的计算引擎对数据进行处理,原数据可能就是一些纯文本,要把这些文本转化为一些Feature vector 就是转化一些数字。

所以整个大数据和 AI 这块用大数据这些引擎对数据处理之后,要去用这些去对这些数据婵娟一个 model 出来。

这边是一个 train model,就是训练这个 model,然后跑,就是一反复不动,不停的迭代过程,会迭代次数会射了20次。当然这边数据量不是特别大,所以蛮快的,但真是如果数量比较大的话,这边就会比较慢。

而且的话,我这边就是只用 cpu 的,如果数据量比较大,然后模型比较复杂的话,你就可能需要去用 gpu 这种环境了。

跑完之后,这边会有很多数据,那就是跑完之后就要代码,一个很重要的一个点,就是要知道这个模型,训练到什么时候才叫好,一个是要不断的把这个 model 训练越来越好。

第二个就是判断什么时候才是说这个确定好了,并不是说,比如说这边的 APP 是越越高就代表越好,这个是因为如果学过一些有对机器学习的基本概念,你会知道机器学习里面有个很重要概念,就  overfitting 的概念,就是说你这个模型训练的过头了,已经训练得太复杂了,而使模型不存在。

这如果有一些真实的数据在真实环境里面,但有些其他数据进来之后他没法去去真实的去做判断的话,那这个过程需要借助于这种可视化的方法。

有两张图,两条曲线,一条曲线是 training accuracy,你看 training X 随着X轴是这个迭代次数,第二次迭代,不断迭代,他肯定会越来越接近于一的,任何的基本上大部分都会这样的,Variation 也就是说,会有个 validation 的一个 sight,它这个 sight 它会相当于比较平滑的。

这就代表 chinesetrainingaccuracy 虽然是不断在提高,但是并不是说明迭代次数越高越好,

我们可以看到这个 training last last 肯定是越来越对,这个是不断的迭代,肯定确定lost越来越少,但是他的 variation loss 这边会有一个最低点来,但随着这个点上去之后,它就变越来越来越大,这个区域其实就是 over fitting,已经over fitting 了,所以它的 vacation last越来越大了。

这个就是一些最基本的一些训练方面。

image.png

 

十,Resources

http://zeppelinapache.org
https://community.hortonworks.com/articles/70658/how-to-diagnose-zeppelin.html
https://medium.com/@zjffdu/zeppelin-0-8-0-new-features-ea53e8810235

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
算法 Java Go
Apache Zeppelin 番外篇——参与开源的得与失
Apache Zeppelin 番外篇——参与开源的得与失
81 0
|
6月前
|
前端开发 Java Apache
Apache Zeppelin系列教程第七篇——运行paragraph的整个流程分析
Apache Zeppelin系列教程第七篇——运行paragraph的整个流程分析
84 0
|
6月前
|
SQL Java 数据库连接
Apache Zeppelin系列教程第四篇——JDBCInterpreter原理分析
Apache Zeppelin系列教程第四篇——JDBCInterpreter原理分析
70 0
|
6月前
|
Web App开发 前端开发 Java
Apache Zeppelin系列教程第二篇——整体架构
Apache Zeppelin系列教程第二篇——整体架构
156 0
|
6月前
|
SQL 分布式计算 数据可视化
Apache Zeppelin系列教程第一篇——安装和使用
Apache Zeppelin系列教程第一篇——安装和使用
325 0
|
6月前
|
SQL Java 数据库连接
Apache Zeppelin系列教程第十篇——SQL Debug In Zeppelin
Apache Zeppelin系列教程第十篇——SQL Debug In Zeppelin
104 0
|
6月前
|
算法 NoSQL Java
Apache Zeppelin系列教程第八篇——LRU算法在Apache Zeppelin中的应用
Apache Zeppelin系列教程第八篇——LRU算法在Apache Zeppelin中的应用
59 0
|
6月前
|
Java 数据库连接 Shell
Apache Zeppelin系列教程第六篇——Zengine调用Interpreter原理分析
Apache Zeppelin系列教程第六篇——Zengine调用Interpreter原理分析
116 0
|
6月前
|
SQL 分布式计算 Apache
生态 | Apache Hudi集成Apache Zeppelin
生态 | Apache Hudi集成Apache Zeppelin
58 0
|
6月前
|
SQL 缓存 分布式计算
Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存
Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存
151 0

推荐镜像

更多
下一篇
无影云桌面