暂无个人介绍
暂时未有相关通用技术能力~
阿里云技能认证
详细说明
Sqoop是Hadoop生态里,实现Hive、Hbase等大数据数据库与MySQL、Oracle导入导出的工具。 其实就是包含两部分功能:(1)HDFS的读写能力(2)加载JDBC。
当我做了很多Spark Core练习,喜欢写map、reduce,后来又开始用SparkSQL ,感觉SQL比mapReduce简洁优雅很多。 SQL是我的短板,通过Spark SQL又练习了group by、join 、case when 等语法。
SparkStream在处理流数据时,按时间间隔把数据分成小批,在一个小批中利用RDD 的函数完成各种运算。如果要在各小批之间共享数据,或者保存到每批次的数据到一个集中变量中,就要用到mapWithState函数,在整个流计算任务中维护了一个key-value State对象(应该也是一个RDD),根据本批次的任务更改State。
参考https://blog.csdn.net/plg17/article/details/78758593整理笔记 一、内连接 关键字:inner join on 语句:select * from a_table a inner join b_table bon a.a_id = b.b_id; 执行结果: 说明:组合两个表中的记录,返回关联字段相符的记录,也就是返回两个表的交集(阴影)部分。
如何描述一个复杂的连接关系?如图,很容易判断紧邻的2个人关系,但中间的连接很多很乱,怎么判断出两个人的关系呢?并查集就是一种结构,通过保存节点以及节点上的标签,来判断这两个节点是否连接在一起。
日志即log,记录发生的事件。以Nginx为例,有error_log和access_log 2个日志。access_log是访问日志,每条访问记录会产生几百字节的数据,随着访问量增加,日志文件会越来越大,必须定期清理日志。
首先执行ls -i命令,此时在文件前面会出现一个数字,这个数字是文件的节点号 接着,执行命令 find -inum 节点号 -delete
先说说为什么要遍历,二叉树不是已经排好序了么?如果大于当前节点值,搜索右子树,小于当前值,继续搜索左子树。 参考两个sql: select id,name,grade from student where id=1 select id,name,grade from student where name='李四' 按id查找,id是主键,已经创建索引,用二叉树存储,id就是二叉树节点的key,可以按照二分查找法搜索。
一棵二叉树,每一个节点都有左子树和右子树,二叉树的操作都可以递归的调用子树来完成。在C中有指针的概念,子树用指针实现,函数用指针作为参数。但是,Python采用对象引用,对空对象赋值,只在函数作用范围内有效,并不会生成一个新节点。
两道笔试题都是选择题,两个知识点,容易做错。 第一题 ## 下面程序执行结果 x = 2 def b(a): x = x+a b(3) print(x) 此段程序运行报错,UnboundLocalError: local variable...
在实现二叉树的代码时,使用递归调用,当给空叶子节点赋值的时候,发现只修改了局部变量。 因此研究了一下Python中传值和传引用的问题。 实验 实验一 a = None print(id(a)) b = None print(id(b)) 432...
本文首先介绍了二分查找法,采用“循环”和“递归”2种方法实现。采用递归算法实现了二叉树的插入和搜索算法。 一、二分查找法 查找算法的计算复杂度为O(n)、O(logN)、O(1)。
我从来没见过我们单位的主库系统,无论是小机或者EMC。如果哪天在值班时,收到通知主库挂了,我会觉得是一个深藏在机房沉重铁门里的大家伙,冒了几缕青烟,紧接着监控上各种Web小图标就都红了.... 在5、6年前,我们就希望能用分布式存储和分布式数据库来替代集中存储,觉得分布式廉价,而且高可靠。
03年,作者大二买了第一台计算机。记得那时候2种主题的书特别多,注册表和Bios。现在想想《教你21天玩转Bios》这样的书名都像个笑话儿。 这么说是因为BOIS和注册表对普通用户,基本用不上。
系统学习三步骤走:理解原理、搭建系统、Api练习。 从哪里找到Api?Document和git。 例如,Kafka在github上的地址github.com/apache/kafka,找到example目录。
话说,小哥接触Mysql也有几年了,但总是感觉Mysql有很多神秘的特性,一直也不太敢折腾这家伙。昨天准备动动手,可安装过程就花了2天时间。 期间,错误的以为必须要给mysql server挂载本地目录,对数据进行持久化。
从spark 说起,谈谈“流式”计算的理解 spark是一个大数据分布式的计算框架,有一些并行计算的基础会更容易理解分布式计算框架的概念。对比并行计算,谈三个概念: 并行计算 Map Reduce 算子 RDD数据结构 并行计算 spark的任务分为1个driver、多个executor。
idea 新建maven 项目 输入maven坐标 maven 坐标 编辑maven文件 Spark 体系 中间层Spark,即核心模块Spark Core,必须在maven中引用。
一、最流行的大数据框架Spark Yarn 环境搭建 Spark History Server 以及 Yarn MapReduce History Servcer Spark-submit 提交到Yarn 运行 二、Docker部署Hadoop Y...
一、线程池 在使用C++的经历中,经常使用多线程(计算密集型),也经常会思考要如何对多线程控制,但没有采用过线程池思想的实现。 在java并发的学习过程中,了解了Java并发组件J.
面试Java,必然要被问Java内存模型和Java并发开发。我被问到的时候,心里慌得一批,“额,是在《Thinking in Java》里面写的吗?果然每天增删改太low了” 要了解这些图吗? MESI 多线程 JVM...
算法面试高频题,求前K个数,或者求中位数 引至51CTO 三路快排算法思路 将数组分为三部分,随机选择数组中的一个数,使数组左边都小于这个数,右边大于这个数。
对java的感情真是又爱又恨,纠缠了很多年,也没有什么结果。 第一阶段:C++转行,开始学习Java 第二阶段:Java Web,jsp+servlet 第三阶段:Struct Spring 第四阶段:Spring boot 几乎每一阶段都要从Hello World开头,百度大量的配置,之后会用2、3个月就放弃了。
分治是优化算法中的重要思想。 归并排序的主要技巧,如何处理两个分别已经排好序的数组? 采用额外空间O(n),交替遍历两个数组,时间复杂度为O(n) 将原数组不断向下拆分 举例说明,16个整形数组向下拆分 16-->(8,8)-->(4,4)-->(2...
堆是什么鬼? 在学数据结构的时候,链表、堆栈、树三种数据结构印象最深刻。当时理解有误区,堆栈被当成一种结构,可能因为堆栈有同样的特性——只关心堆顶或栈顶的元素。
原题目 定一个整数数组和一个目标值,找出数组中和为目标值的两个数。 你可以假设每个输入只对应一种答案,且同样的元素不能被重复利用。 示例: 给定 nums = [2, 7, 11, 15], target = 9 因为 nums[0] + nums[1] = 2 + 7 = 9 所以返回 [0, 1] Leetcode给出了三种解法 暴力法 复杂度O(n^2) 两遍Hash表法,创建Hash表一次O(n),遍历查找O(n) 一遍Hash 一遍Hash算法说明 第一个元素添加到hash表,key是num,value是index。
排序 选择排序(适用于线性排序) 思路,2层遍历 第一步:选择最小的元素,与第一个元素交换。 第二步:从第二个元素到最后一个元素,选择最小元素,与第二元素交换 完成前两步,第1第2元素已经排好序。
Tensorflow 目标检测项目 图片logo水印识别。识别中国军网、中国军视网Logo水印。 image image Step 0 下载项目 git clone https://github.com/tensorflow/models/tree/master/research/object_detection Step 1 在将项目目录添加到PYTHONPATH 作者bourdakos1整合了tensorflow中的object-detection和slim两个子项目。
一、Hadoop文件系统HDFS 构建单节点的伪分布式HDFS 构建4个节点的HDFS分布式系统 nameNode secondnameNode datanode1 datanode2 其中 datanode2动态节点,在HDFS系统运行时,==动态加入==。
随着新媒体和移动社交网络的发展,媒介从一张报纸、电视、广播,扩展到各种客户端、微博微信、H5、微信小程序。媒体的发展速度很快,相应的采编运行机制却相对滞后,主要的问题就是各个媒体平台都要维护一支采编队伍,如果人员数量水平跟不上,工作量越来越多,造成新闻生产水平下降。
一个产品要有一个名字: 罗永浩推荐用动物起名字,用动物的特性代表自己产品的特性。 白头雁,又叫斑头雁,是世界上飞的最高的鸟。 大雁有群居,迁徙的习性,很适合描述一起合作的人群。