开发者学堂课程【Apache Flink 入门到实战 - Flink 开源社区出品 :Apache Zeppelin(三)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/632/detail/10038
Apache Zeppelin(三)
八,Jdbc interperter
1,介绍
JDBC 一个非常普适的一个数据访问协议,大部分的那些数据库,或者大数据里面的一些数据库引擎,基本上都是支持的,比如其他一些大数据引擎基本上都是支持Jdbc 的,那在 notebook 环境里面用 JDBC 有一个最大好处就是能够把结果可视化出来,因为传统能看到结果就是就是文本的方式。
那图形化的方式的话,它的信息量会更加大,就是比如一张图片,胜过千言万语。就是说一张图片,他的那个所含的信息量是非常巨大的,因为如果我给你,比如说查一条,可以去查出来是一些文本的一些数据,如果那个数据量小还好,如果数据量一大,基本上我们的人的肉眼其实是捕捉不到一些有用信息的,但是如果用图形化的这种方式,表达出来的话,非常容易能够捕捉到这张图背后所表达的一些信息的,所以图片的那个信息量是非常巨大的。
2,例子
JDBC 这些配置,其实主要是配置一些基本的信息,主要有这两个,两个最重要信息,一个是 driver,要知道他那个 driver 是哪个,另外一个是地址。
只要有了这两个东西,能够访问,在这里面访问还有系统。同样一条数据,Accept 正要正在跑了,这是个 reduced 开始,但是相对稍微慢一点。再刷新一下,就结束了。
就是说即使假如有这种情况,用flink接口去访问数据,写的有些可以出现一些状况的时候,其实也是可以还是在这个环境里面,还是可以去用你原来这个的方式去查询的。而且,在这边你可以用可视化那个查询出来的数据,这是一个对终端用户来说是一个蛮大的一个一个帮助。
九,Python Interpreter
1,介绍
由于机器学习,python 变得越来越重要,因为大部分的机器学习或者是深度学习的那些 framework 都是 python 语言的,而且,我们所熟知的那些数据科学家,那些人,基本上他们都非常喜欢用 python。Python 用 python 的话有两种方式,一种是对原生的一个拍 python,另外一个 ipython,他是比 python 更加高级一点的,有一些其他的一些功能。
2,例子
怎么在里面去用 python,举了一个做深度学习的这样一个例子,其实是二分的这样一个算法,电影的就是专门国外有这样的,就是对电影的论的这样一些,一个数据库,试用 careless,存数据库,然后把它拆分为 trainingdata 和 testingdata。
理想状况是,数据已经准备好了,已经有数据了,在真实的环境里面,其实数据不是那么容易得到的。
在真实环境里面,前面就需要用其他的一些引擎对数据做一些处理,比如用flink的计算引擎对数据进行处理,原数据可能就是一些纯文本,要把这些文本转化为一些Feature vector 就是转化一些数字。
所以整个大数据和 AI 这块用大数据这些引擎对数据处理之后,要去用这些去对这些数据婵娟一个 model 出来。
这边是一个 train model,就是训练这个 model,然后跑,就是一反复不动,不停的迭代过程,会迭代次数会射了20次。当然这边数据量不是特别大,所以蛮快的,但真是如果数量比较大的话,这边就会比较慢。
而且的话,我这边就是只用 cpu 的,如果数据量比较大,然后模型比较复杂的话,你就可能需要去用 gpu 这种环境了。
跑完之后,这边会有很多数据,那就是跑完之后就要代码,一个很重要的一个点,就是要知道这个模型,训练到什么时候才叫好,一个是要不断的把这个 model 训练越来越好。
第二个就是判断什么时候才是说这个确定好了,并不是说,比如说这边的 APP 是越越高就代表越好,这个是因为如果学过一些有对机器学习的基本概念,你会知道机器学习里面有个很重要概念,就 overfitting 的概念,就是说你这个模型训练的过头了,已经训练得太复杂了,而使模型不存在。
这如果有一些真实的数据在真实环境里面,但有些其他数据进来之后他没法去去真实的去做判断的话,那这个过程需要借助于这种可视化的方法。
有两张图,两条曲线,一条曲线是 training accuracy,你看 training X 随着X轴是这个迭代次数,第二次迭代,不断迭代,他肯定会越来越接近于一的,任何的基本上大部分都会这样的,Variation 也就是说,会有个 validation 的一个 sight,它这个 sight 它会相当于比较平滑的。
这就代表 chinesetrainingaccuracy 虽然是不断在提高,但是并不是说明迭代次数越高越好,
我们可以看到这个 training last last 肯定是越来越对,这个是不断的迭代,肯定确定lost越来越少,但是他的 variation loss 这边会有一个最低点来,但随着这个点上去之后,它就变越来越来越大,这个区域其实就是 over fitting,已经over fitting 了,所以它的 vacation last越来越大了。
这个就是一些最基本的一些训练方面。
十,Resources
http://zeppelinapache.org
https://community.hortonworks.com/articles/70658/how-to-diagnose-zeppelin.html
https://medium.com/@zjffdu/zeppelin-0-8-0-new-features-ea53e8810235