BIT_666_社区达人页

个人头像照片
BIT_666
已加入开发者社区835

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
初入江湖
初入江湖

成就

已发布61篇文章
0条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

推荐算法工程师,日常使用 Spark、Flink、Python 以及其他大数据相关

暂无精选文章
暂无更多信息

2022年08月

  • 08.22 13:33:05
    发表了文章 2022-08-22 13:33:05

    Scala/Java - Redis 连接检测与重试

    项目实现中需要连接 redis,为了防止因网络抖动或其他原因造成的客户端连接失败,一般需要增加重试机制判断 client 是否连接成功,之前写了一版重连代码发现有 bug,借此机会看下代码 bug 以及如何更好的重连 redis。...
  • 08.22 13:32:33
    发表了文章 2022-08-22 13:32:33

    Maven - Scala/Java 项目添加自己的 jar 包

    一.引言 scala / java 项目引用非官方依赖 jar 包时,需要自定义并打入最终的 jar 包,经过试验以下方案可以实现。 二.添加 jar 包到 maven 库 ???? 第三方自定义 jar 包可以添加到本地 maven 库中,随后即可 mvn package 打入到最终的项目 jar 包中,该方法最方便。创建 install.sh 文件,jar_path 为第三方自定义 jar 包在设备的位置,groupId、artifactId 和 版本号 version 自己定义,执行脚本后
  • 08.22 13:32:04
    发表了文章 2022-08-22 13:32:04

    Flink / Scala - DataSource 之 DataSet 获取数据总结

    数据源创建初始数据集,这里主要以 DataSet 数据源为例,例如从文件或者从 collection 中创建,后续介绍 DataStreaming 的数据源获取方法。
  • 08.22 13:31:33
    发表了文章 2022-08-22 13:31:33

    Flink / Scala - DataSet Transformations 常用转换函数详解

    ​上一篇文章讲到了 Flink 如何获取数据生成 DataSet,这篇文章主要讨论 DataSet 后续支持的 Transform 转换函数。相较于 Spark,Flink 提供了更多的 API 和更灵活的写法与实现。
  • 08.22 13:31:01
    发表了文章 2022-08-22 13:31:01

    Flink / Scala - DataSet & DataStream Sink 输出数据详解

    一.引言 Flink 的数据处理主要分三步,第一步 Source 为数据源,分为 DataSet 和 DataStreaming ,后一步为 Transformation 负责处理和转换数据,针对不同的 DataSource,Transformation 可能会存在差异,最后一步是 sink 负责将结果输出。前面介绍了 DataSet 的 Source 和 Transformation,这里介绍下 DataSet 和 DataStreaming 的 Sink 相关 API。 Tips: 下述代码区
  • 08.22 13:30:35
    发表了文章 2022-08-22 13:30:35

    Flink / Scala - DataSource 之 DataStream 获取数据总结

    DataStream API 得名于特殊的 DataStream 类,该类用于表示 Flink 程序中的数据集合。你可以认为 它们是可以包含重复项的不可变数据集合。这些数据可以是有界(有限)的,也可以是无界(无限)的,但用于处理它们的API是相同的。下面将介绍 DataStream 的常见初始化方法。...
  • 08.22 13:29:52
    发表了文章 2022-08-22 13:29:52

    Mac-Mini 外接三个显示器教程

    Mac-mini 官方只支持连接2个显示器,ctrl cv 复制粘贴代码和写博客的时候十分不方便,这时候需要外接第三个显示器,下面看看如何操作。
  • 08.22 13:29:23
    发表了文章 2022-08-22 13:29:23

    Flink / Scala - DataStream Broadcast State 模式示例详解

    一.引言 上一篇文章Flink / Scala - DataSet 应用 Broadcast Variables介绍了 DataSet 场景下 Broadcast 的使用,这一边
  • 08.22 13:28:51
    发表了文章 2022-08-22 13:28:51

    Flink - The object probably contains or references non serializable fields 无法序列化问题

    使用 Flink 自定义 Source 生成数据时,集群提交任务时显示 org.apache.log4j.Logger@72c927f1 is not serializable. The object probably contains or references non serializable fields.
  • 08.22 13:28:16
    发表了文章 2022-08-22 13:28:16

    Flink - 新增 BroadcastStream 无 watermark 导致数据流异常

    Flink 任务新增 BroadcastStream 无 watermark 导致数据流异常,修复问题并熟悉单流,双流 Watermark 机制。
  • 08.22 13:27:46
    发表了文章 2022-08-22 13:27:46

    Spark - ml.dmlc.xgboost4j / spark 版本匹配与 NoSuchMethodError 解决

    spark 项目引入 ml.dmlc.xgboost4j 训练并读取 xgboost 模型,load 模型期间报错 NoSuchMethodError,通过源码的分析得到 xgboost 与 spark 版本对应关系。
  • 08.22 13:27:20
    发表了文章 2022-08-22 13:27:20

    Flink - 本地执行 Failed to start the Queryable State Data Server

    Flink 本地执行任务报错 Failed to start the Queryable State Data Server 以及 Unable to start Queryable State Server. All ports in provided range are occupied. 根据报错分析是因为本地端口被占用,没有足够端口供 Flink 本地客户端启动,所以解决方法就是处理被占用的端口。...
  • 08.22 13:26:52
    发表了文章 2022-08-22 13:26:52

    Flink - CountTrigger && ProcessingTimeTriger 详解

    Flink 针对 window 提供了多种自定义 trigger,其中常见的有 CountTrigger 和 ProcessingTimeTrigger,下面通过两个 demo 了解一下两个 Trigger 的内部实现原理与窗口触发的相关知识。
  • 08.22 13:26:24
    发表了文章 2022-08-22 13:26:24

    Flink - CountAndProcessingTimeTrigger 基于 Count 和 Time 触发窗口

    ​上一篇文章提到了CountTrigger && ProcessingTimeTriger,前者 CountTrigger 指定 count 数,当窗口内元素满足逻辑时进行一次触发,后者通过 TimeServer 注册窗口过期时间,到期后进行一次触发,本文自定义 Trigger 实现二者的合并即 Count 和 ProcessingTime 满足任意条件窗口都进行一次触发。...
  • 08.22 13:25:59
    发表了文章 2022-08-22 13:25:59

    Spark - ReturnStatementInClosureException: Return statements aren‘t allowed in Spark closures

    Spark 使用 RDD 调用 Filter 函数时,dirver 端卡住,报错 ReturnStatementInClosureException: Return statements aren't allowed in Spark closures,即闭包内无法使用 return 函数。
  • 08.22 13:25:31
    发表了文章 2022-08-22 13:25:31

    Flink / Scala - DataStream Transformations 常用转换函数详解

    本文介绍 Flink 的主要数据形式: DataStream,即流式数据的常用转换函数,通过 Transformation 可以将一个 DataStream 转换为新的 DataStream。
  • 08.22 13:24:59
    发表了文章 2022-08-22 13:24:59

    MapReduce - 读取 ORC, RcFile 文件

    一.引言 MR 任务处理相关 hive 表数据时格式为 orc 和 rcFile,下面记录两种处理方法。 二.偷懒版读取 ORC,RcFile 文件 最初不太熟悉 mr,只会 textFormat 一种输入模式,于是遇到 orc 和 rcFile 形式的 hive 数据需要在 mr 读取时,都是先通过 INSERTOVERWRITEDIRECTORY 将 hive 表重新输出一份 hdfs 的 text 数据,随后用 mr 读取该 text 文件,该方法适合偷懒且原始 hive 数据不大,..
  • 08.22 13:24:32
    发表了文章 2022-08-22 13:24:32

    Java - MR 读写 orc 之 NoSuchMethodError: hive.ql.exec.vector.VectorizedRowBatch.getMaxSize()

    一.引言 上一篇文章提到了 Java map-reduce 如何单独读取 ORC 文件以及 RcFile 文件,在同一个 MR 任务下分别读取 RcFile 以及 ORC 文件时,报如下错误:java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.exec.vector.VectorizedRowBatch.getMaxSize()I。完整的异常栈如下: 2022-04-20 06:44:47,326 FATAL [main] org.apach.
  • 08.22 13:24:02
    发表了文章 2022-08-22 13:24:02

    Spark/Scala - 读取 RcFile && OrcFile

    ​ 上文提到了MapReduce - 读取 OrcFile, RcFile 文件,这里通过 Java + MapReduce 实现了读取 RcFile 和 OrcFile 文件,后续又遇到MapReduce - 同时读取 RcFile 和 OrcFile 的依赖冲突,也顺利解决,但是平常开发还是习惯 spark 所以改用 spark 实现读取 OrcFile 和 RcFile 以及 Map-Reduce 的功能。......
  • 08.22 13:23:36
    发表了文章 2022-08-22 13:23:36

    Python - openpyxl Excel 操作示例与实践

    Python openpyxl库常用操作与实例分析~
  • 08.22 13:23:09
    发表了文章 2022-08-22 13:23:09

    Python - smtplib 发送 Excel 邮件与数据展示

    ​ 上一篇文章Python - openpyxl Excel 操作示例与实践介绍了如何将数据自动转化至 Excel 并完成自定义标注,节省了大量人工操作的时间,但是后续如果需要将生成的 Excel 和数据发送邮件到指定同学就还需要一步人工操作时间即写邮件发邮件,非常的不奈斯,下面结合smtplib 库实现自定义邮件的发送,从而实现 数据 -> Excel -> 邮件发送的全自动需求。...
  • 08.22 13:22:37
    发表了文章 2022-08-22 13:22:37

    Scala - IEEE754 浮点标准与 Float / Double 转换

    ​上一遍文章介绍了二进制与十进制数字之间的转换,本文介绍现在应用比较广泛的浮点数标准 IEEE754。
  • 08.22 13:22:07
    发表了文章 2022-08-22 13:22:07

    Hive - grouping sets 示例与详解

    介绍 group by 以及 grouping sets 相关用法。
  • 08.22 13:21:39
    发表了文章 2022-08-22 13:21:39

    Hive - Cube, Rollup, GroupingId 示例与详解

    ​上篇文章讲到了Grouping Sets 的使用方法,Grouping Sets 可以看做是将 group by 的内容进行 union 整合,这篇文章将基于同一思想进行扩展介绍两个方法 Cube 以及 Rollup,同时给出辅助函数 GroupingId 的生成方法与使用方法。...
  • 08.22 13:21:11
    发表了文章 2022-08-22 13:21:11

    Maven - 生成的 jar 包容量变大异常排查

    maven 打包 jar 包容量异常原因排查与解决。
  • 08.22 13:20:42
    发表了文章 2022-08-22 13:20:42

    Flink/Hbase - Sink 背压100% 与 hbase.util.RetryCounter.sleepUntilNextRetry 异常分析与排查

    Flink-hbase 任务 hbase.util.RetryCounter.sleepUntilNextRetry 堆栈问题分析与排查。
  • 08.22 13:20:12
    发表了文章 2022-08-22 13:20:12

    Flink - TimeWindow And TimeWindowAll 详解

    Flink 流处理用于处理源源不断的数据,之前介绍过 processFunction,该方法会对单个元素进行处理,除此之外,还有一种批量数据处理的方法就是 TimeWindow 以及 TimeWindowAll,Flink 时间窗口可以看作是对无线数据流设置的有限数据集。...
  • 08.22 13:19:37
    发表了文章 2022-08-22 13:19:37

    Shell - line 2: $‘\r‘: command not found

    拷贝脚本提交后报错 line 2: $'\r': command not found,但是这是别的同学可以运行后发给我的,随后开始排查。安装 dos2unix 需要使用 yum。安装 yum 需要使用 brew。
  • 08.22 13:18:48
    发表了文章 2022-08-22 13:18:48

    Hive - distinct && group by 求 UV,PV 实战

    给定数据表中包含用户 uid 和用户是否点击广告的标签 label,经常有需求统计用户的下发,打开 UV,PV,下面通过 Hive 实现统计并分析 distinct 与 group by 的性能与使用场景。
  • 08.22 13:18:17
    发表了文章 2022-08-22 13:18:17

    Hive - Count && Sum 使用与性能对比

    使用 hive 计数时常使用 Count 和 Sum 两个函数进行统计,下面看看二者的使用方法。
  • 08.22 13:17:49
    发表了文章 2022-08-22 13:17:49

    Spark - Logging 简单使用

    使用 Spark 运行任务打日志经常遇到一个问题就是日志太多,除了自己的 print 日志之外,还有很多 Executor、client 的日志,一方面任务运行期间会占用更多的机器存储,其次也不方便查询自己的 print 日志。下面介绍下常用的日志系统与使用方法。......
  • 08.22 13:13:21
    发表了文章 2022-08-22 13:13:21

    Flink / Scala - 使用 Jedis、JedisPool 作为 Source 读取数据

    现在有一批数据写入多台 Redis 相同 key 的队列中,需要消费 Redis 队列作为 Flink Source,为了提高可用性,下面基于 JedisPool 进行队列的消费。
  • 08.22 13:12:53
    发表了文章 2022-08-22 13:12:53

    Flink / Scala - ProcessFunction 之间共用缓存测试

    Flink 开发中有如下场景,数据需要经过两次 ProcessFunction 处理,第一步 ProcessV1的一些信息重复不想通过每条数据传输至 ProcessV2,这时便捷的方法时对 ProcessV1 需要存储的元素进行去重缓存,保证全局共用一份缓存,可以有效减少储存空间,下面分别尝试三种缓存方式: A.ValueState 缓存 B.HashMapCache 缓存 C.RedisCahce 缓存...
  • 08.22 13:12:24
    发表了文章 2022-08-22 13:12:24

    Flink / Scala- BroadCast 广播流数据先到再处理 Source 数据

    Flink 支持增加 DataStream KeyBy 之后 conncet BroadCastStream 形成 BroadConnectedStream,广播流内数据一般为不间断更新的上下文信息,这里介绍如果等待广播流初始化完毕再处理 Source 数据
  • 08.22 13:11:53
    发表了文章 2022-08-22 13:11:53

    Flink / Scala - java.lang.NumberFormatException: Not a version: 9

    Flink V1.13.1 +Scala 2.11.8 提交任务后,报错Caused by: org.apache.flink.shaded.guava18.com.google.common.util.concurrent.UncheckedExecutionException: java.lang.NumberFormatException: Not a version: 9 ,遂排查与解决。
  • 08.22 13:11:26
    发表了文章 2022-08-22 13:11:26

    Scala / Java - 采用 MD5 加盐 实现 id 均匀分组

    大量 id 场景下经常需要通过 id 进行 AB Test,最常见的就是使用尾号 hash 进行分组,但是由于 id 生成规则以及其他因素,按照尾号分组往往会造成 id 不匀,从而导致 AB Test 效果受影响,所以下文采用 md5 加盐 Hash 的方式,得到更均匀的分组与 AB Test 效果。......
  • 08.22 13:10:38
    发表了文章 2022-08-22 13:10:38

    Flink / Scala - 使用 CountWindow 实现按条数触发窗口

    CountWindow 数量窗口分为滑动窗口与滚动窗口,类似于之前 TimeWindow 的滚动时间与滑动时间,这里滚动窗口不存在元素重复而滑动窗口存在元素重复的情况,下面 demo 场景为非重复场景,所以将采用滚动窗口。......
  • 08.22 12:35:07
    发表了文章 2022-08-22 12:35:07

    Python - 定时自动获取 Bing 首页壁纸

    Bing 首页的壁纸好看且每日更新,下面介绍如何使用 python 每日自动获取壁纸并保存。
  • 08.22 12:34:27
    发表了文章 2022-08-22 12:34:27

    LeetCode / Scala - 无重复字符最长子串 ,最长回文子串

    ​ LeetCode 里有一类字符子串问题,这里主要分析无重复字符的最长子串与最长回文子串,总结相关方法。
  • 08.22 12:33:56
    发表了文章 2022-08-22 12:33:56

    NoClassDefFoundError - hadoop/crypto/key/KeyProviderTokenIssuer && hadoop/fs/BatchListingOperations

    NoClassDefFoundError - hadoop/crypto/key/KeyProviderTokenIssuer && hadoop/fs/BatchListingOperations 报错解决与总结。
  • 08.22 12:33:27
    发表了文章 2022-08-22 12:33:27

    Flink - checkpoint Failure reason: Not all required tasks are currently running

    Flink 程序增加 readFile 生成文件流后,最初运行期间 CheckPoint 存储没有问题,待文件流 Finished 后 CheckPoint 存储报错: checkpoint Failure reason: Not all required tasks are currently running,下面分析并解决下。
  • 08.22 12:32:59
    发表了文章 2022-08-22 12:32:59

    LeetCode / Scala - 两数,三数,四数,N数之和

    ​ LeetCode 里分别有两数之和,三数之和,四数之和,主要实现方法为 Python,Java,C++,下面使用 scala 分别实现。
  • 08.22 12:31:57
    发表了文章 2022-08-22 12:31:57

    Flink - 读取 Parquet 文件 By Scala / Java

    parquet 文件常见与 Flink、Spark、Hive、Streamin、MapReduce 等大数据场景,通过列式存储和元数据存储的方式实现了高效的数据存储与检索,下面介绍 Flink 场景下如何读取 Parquet。
  • 08.22 12:31:29
    发表了文章 2022-08-22 12:31:29

    Goland / Mac - 安装 & HelloWorld Demo

    本文将安装 go 语言常用编辑器 GoLand,其与 idea、pycharm 同属JetBrains 旗下,由于突破试用的限制,下面教程主要安装 2019 版 Goland + Go 1.15.x 版本,有高版本编译器或高版本 Go 语言需求的同学可以忽略后续,如果只是入门熟悉操作可以参考下面教程。...
  • 08.22 12:31:03
    发表了文章 2022-08-22 12:31:03

    Flink - NoSuchMethodError: com.twitter.chill.java.Java8ClosureRegistrar.areOnJava8()Z

    使用 Flink 1.13.1 + scala 2.11.12 的组合进行 Flink 本地测试是,报错.NoSuchMethodError: com.twitter.chill.java.Java8ClosureRegistrar.areOnJava8()Z,经过前面多次的 noSuchMethod 的折磨,现在已经轻车熟路,直接开始排查。...............
  • 08.22 12:30:06
    发表了文章 2022-08-22 12:30:06

    Redis - Redis List 功能详解与工业应用

    Redis 列表 List 是简单的字符串列表,按照插入顺序排序,一个列表最多可以包含 232- 1 个元素 (4294967295, 每个列表超过40亿个元素)。下面介绍下 Redis List 常用功能以及在工业场景下 Redis List 的几种使用场景。......
  • 08.22 12:29:36
    发表了文章 2022-08-22 12:29:36

    Spark - RangePartitioner rangeBounds 生成 源码分析 & 实践

    本文主要探索RangePartitioner 源码中rangeBounds 的生成,rangeBounds 用于对 key 进行范围分区,通过源码可以学习到如何在分布式大数据下采样并获取近似均分的范围。
  • 08.22 12:28:57
    发表了文章 2022-08-22 12:28:57

    Spark - Illegal pattern component: XXX 与org.apache.commons.lang3.time.FastDateFormat incompatible

    使用 sparkSession 读文件时出现java.lang.IllegalArgumentException: Illegal pattern component: XXX 报错,解决后又出现java.io.InvalidClassException: org.apache.commons.lang3.time.FastDateFormat; local class incompatible: stream classdesc serialVersionUID = 2,下面解决一下。...
  • 08.22 12:28:13
    发表了文章 2022-08-22 12:28:13

    Shell - 常用压缩文件处理 zip、gz、tar、rar

    使用 linux 工作中经常遇到 zip,gz,tar 相关的压缩文件,下面整理下几种压缩文件的常用方法。
  • 08.22 12:27:26
    发表了文章 2022-08-22 12:27:26

    Scala/Java - shuffle 数组详解

    本地使用 spark paralize 数组 rdd 时需要构造一个随机数组,分别使用 java.util 和 scala.util 实现,下面记录下不同的 shuffle 方法以及踩到的坑。
  • 发表了文章 2022-08-22

    Scala/Java - Redis 连接检测与重试

  • 发表了文章 2022-08-22

    Maven - Scala/Java 项目添加自己的 jar 包

  • 发表了文章 2022-08-22

    Flink / Scala - DataSource 之 DataSet 获取数据总结

  • 发表了文章 2022-08-22

    Flink / Scala - DataSet Transformations 常用转换函数详解

  • 发表了文章 2022-08-22

    Flink / Scala - DataSet & DataStream Sink 输出数据详解

  • 发表了文章 2022-08-22

    Flink / Scala - DataSource 之 DataStream 获取数据总结

  • 发表了文章 2022-08-22

    Mac-Mini 外接三个显示器教程

  • 发表了文章 2022-08-22

    Flink / Scala - DataStream Broadcast State 模式示例详解

  • 发表了文章 2022-08-22

    Flink - The object probably contains or references non serializable fields 无法序列化问题

  • 发表了文章 2022-08-22

    Flink - 新增 BroadcastStream 无 watermark 导致数据流异常

  • 发表了文章 2022-08-22

    Spark - ml.dmlc.xgboost4j / spark 版本匹配与 NoSuchMethodError 解决

  • 发表了文章 2022-08-22

    Flink - 本地执行 Failed to start the Queryable State Data Server

  • 发表了文章 2022-08-22

    Flink - CountTrigger && ProcessingTimeTriger 详解

  • 发表了文章 2022-08-22

    Flink - CountAndProcessingTimeTrigger 基于 Count 和 Time 触发窗口

  • 发表了文章 2022-08-22

    Spark - ReturnStatementInClosureException: Return statements aren‘t allowed in Spark closures

  • 发表了文章 2022-08-22

    Flink / Scala - DataStream Transformations 常用转换函数详解

  • 发表了文章 2022-08-22

    MapReduce - 读取 ORC, RcFile 文件

  • 发表了文章 2022-08-22

    Java - MR 读写 orc 之 NoSuchMethodError: hive.ql.exec.vector.VectorizedRowBatch.getMaxSize()

  • 发表了文章 2022-08-22

    Spark/Scala - 读取 RcFile && OrcFile

  • 发表了文章 2022-08-22

    Python - openpyxl Excel 操作示例与实践

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息