暂无个人介绍
能力说明:
了解变量作用域、Java类的结构,能够创建带main方法可执行的java应用,从命令行运行java程序;能够使用Java基本数据类型、运算符和控制结构、数组、循环结构书写和运行简单的Java程序。
暂时未有相关云产品技术能力~
阿里云技能认证
详细说明jconsole远程监控linux上的java进程
很久之前老师写的,记录一下,不然找不到了
hdfs生产故障 GC pool 'ConcurrentMarkSweep' had collection(s): count=1 time=
消费语义at most once:最多消费一次,消息可能会丢失-------log日志at least once:至少消费一次,但是会重复消费 例如手动异步提交offsetexactly once:正好一次,不丢失,不重复 0.10.0.1不支持,官方说0.11已支持 例子1.log日志允许丢失 使用第一种2.log日志算钱的不允许丢,使用第二种+去重+redis部分公司去重方法,对每一条日志取一个hash值,存放到redis里面,如果redis里面有了,就不放到下游去处理3.mysql sql语句入库 选择第二种并使用hbase的put保证去重复。
sparkstreamig kafka offset mysql
对于大批量数据,查询es时,需要带条件去查询,否则一下查出所有数据数据量会很大 es查询需要编写json格式的DSL查询语句,对于复杂查询,DSL编写起来也分很复杂,所以我们这里使用sparksql,通过编写sql语句,spark将sql语句自动转化为DSL语句来查询es。
最近项目遇到报错序列化相关问题,于是把这三个拿出来分析一下,先来看下foreachRDD、foreachPartition和foreach的不同之处。不同主要在于它们的作用范围不同,foreachRDD作用于DStream中每一个时间间隔的RDD,foreachPartition作用于每一个时间间隔的RDD中的每一个partition,foreach作用于每一个时间间隔的RDD中的每一个元素。
项目背景,第三方发送数据到kafka。我方负责消费,解码、存储、入库。 开发环境:集群1.0kafka,springboot开发程序 问题:1.kafka服务端与客户端版本不一致,服务端1.0,客户端0.8,导致程序消费到一部分重启后,为消费的数据丢失直接别为已消费,导致剩余数据未走流程。
同时创建kafka生产者produce,kafka消费者consumer,其中我们的topic创建了3个分区, 生产者发送几条数据,使用命令查看消费。 可以看到刚刚生产的这几条数据,当我退出消费命令,重新使用消费者命令来消费数据时,看一下数据 这时候看到的数据时无序的,总结一点 单个分区:有序 全局分区:无序 1 4肯定是同一个分区的数据,如何保证生产环境下,全局有序呢,先说下必须要保持有序的需求情况, 有一张students表,对表操作的消息发送到kafka中,但是操控表有增加有删除的时候,必须增加先执行 完,才去删除,如果先执行删除了,在insert增加就是错误的了。
kafka是Linkedin开源的分布式发布-订阅消息系统(消息队列) kafka特点 1 高吞吐率、低延迟,每秒处理几十万消息,延迟最低几毫秒 2 可扩展性,支持动态扩展节点数据 3 持久性与可靠性,数据被持久化磁盘,支持数据多副本防止数据丢失 4 高容错,允许节点失败 5 高并发,支持上千个客...
使用sparkStreaming消费数据,并使用Dstream的 saveAsTextFile保存数据到hdfs中,通过使用这个方法,生成的文件夹存在问题, 代码例子如下: resultRdd.
1. groupby def groupBy[K: ClassTag](f: T => K): RDD[(K, Iterable[T])] def groupBy[K: ClassTag](f: T => K, numPartitions: Int): RDD[(K, Iterable[T])] def groupBy[K: ClassTag](f: T => K, p: Partitioner): RDD[(K, Iterable[T])] groupBy算子接收一个函数,这个函数返回的值作为key,然后通过这个key来对里面的元素进行分组。
压缩所带来的好处,磁盘、IO,都来带来很多好处,同时也有很多的弊端。 生产环境经常用的集中压缩 gzip 、 bzip2 、LZO、Snappy Bzip2 压缩比30% ---支持分割 gzip 压缩比40% LZO Snappy 压缩比50% --LZO支持分割,前提是有索引 hadoop中压缩的配置使用 core-site.
我们知道,yarn上能够监控运行的spark情况,但是一个程序运行完后就会被销毁,看不到了。 所以我们需要在程序运行完也能看到日志,这是就需要配置我们的参数了 1.进入spark conf下,拷贝一个spark.
kafka
Spark SQL编写流程 1. SparkSession对象 封装了spark sql执行环境信息,是所有Spark SQL程序的唯一入口 sparkSession中包含 sparkContext和sqlContext两个对象,不用再自己创建sparkContext 2.
在大数据的HBase中与Hive中都有用到列(族)式存储,列式存储被广泛应用,有关于HBase讲解,请访问我的 https://yq.aliyun.com/articles/376750?spm=a2c4e.11155435.0.0.62bc19c8kgVjfV。
1. HBase概述 先来看下HBase在Hadoop生态中的位置 HBase是Apache Hadoop⽣态系统中的重要⼀员,主要⽤于海量结构化数据存储。 HBase是一个构建在HDFS上的分布式列存储系统(严格的来说应该是列族存储),数据保存在HDFS上。