柯广_社区达人页

个人头像照片
柯广
已加入开发者社区1991

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
初入江湖
初入江湖

成就

已发布102篇文章
3条评论
已回答1个问题
0条评论
已发布0个视频
github地址

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

暂无个人介绍

暂无精选文章
暂无更多信息

2022年04月

  • 04.29 18:25:19
    发表了文章 2022-04-29 18:25:19

    虚拟机搭建hadoop环境

    这里简单用三台虚拟机,搭建了一个两个数据节点的hadoop机群,仅供新人学习。
  • 04.29 18:14:39
    发表了文章 2022-04-29 18:14:39

    Centos 6.5安装Python3.6

    不容易在Centos 6.5上安装成功Python3.6,在这里记录出来,以帮助其他的人第一次不要花太多时间。总的来看,步骤很简单,新手网上搜资料,可能是对于一些问题的解决方案,对于第一次安装可能麻烦甚至不适合,导致花费太多时间。
  • 04.29 18:11:32
    发表了文章 2022-04-29 18:11:32

    linux上java解加密(AES/CBC)异常:java.lang.SecurityException: JCE cannot authenticate the provider BC办法

    用mapreduce做数据清洗的时候,需要对数据进行解密,加密方法是:AES/CBC/PKCS7Padding,由于java本身不支持,需要添加依赖。
  • 04.29 18:08:04
    发表了文章 2022-04-29 18:08:04

    Python系列之环境安装

    Python可以实现强大的数据爬虫功能,并且数据分析与挖掘挺方便,也提供了大量的库,比如numpy, pands,matplotlib等。尤其,使用Python做机器学习也成了近年来的趋势,有人经常会问R语言与Python,该怎么取舍,我觉得都要学习,R语言擅长绘图,Python对于数据采集,各种算法,机器学习可能支持更好。
  • 04.29 18:01:09
    发表了文章 2022-04-29 18:01:09

    redis 删除大key集合的方法

    redis大key,这里指的是大的集合数据类型,如(set/hash/list/sorted set),一个key包含很多元素。由于redis是单线程,在删除大key(千万级别的set集合)的时候,或者清理过期大key数据时,主线程忙于删除这个大key,会导致redis阻塞、崩溃,应用程序异常的情况。
  • 04.29 17:58:15
    发表了文章 2022-04-29 17:58:15

    SpringBoot + thymeleaf 实现分页

    用SpringBoot + thymeleaf可以 实现分页 。
  • 04.29 17:53:22
    发表了文章 2022-04-29 17:53:22

    Python批量删除mysql中千万级大量数据

    线上mysql数据库里面有张表保存有每天的统计结果,每天有1千多万条,这是我们意想不到的,统计结果咋有这么多。运维找过来,磁盘占了200G,最后问了运营,可以只保留最近3天的,前面的数据,只能删了。删,怎么删?
  • 04.29 17:52:00
    发表了文章 2022-04-29 17:52:00

    实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示

    最近有个需求,实时统计pv,uv,结果按照date,hour,pv,uv来展示,按天统计,第二天重新统计,当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,type来展示。这里介绍最基本的pv,uv的展示。
  • 04.29 17:48:36
    发表了文章 2022-04-29 17:48:36

    PyCharm2019激活

    这里主要介绍永久激活的方式,永久激活后,就可以放心使用了,一劳永逸,5分钟就能完成。
  • 04.29 17:46:03
    发表了文章 2022-04-29 17:46:03

    IDEA 支持scala开发

    IDEA 支持scala开发,以下内容教你怎么操作。
  • 04.29 17:43:07
    发表了文章 2022-04-29 17:43:07

    Java中的单例模式最全解析

    单例模式是 Java 中最简单的设计模式之一,它是指一个类在运行期间始终只有一个实例,我们就把它称之为单例模式。它不但被应用在实际的工作中,而且还是面试中最常考的题目之一。通过单例模式我们可以知道此人的编程风格,以及对于基础知识的掌握是否牢固。
  • 04.29 17:38:34
    发表了文章 2022-04-29 17:38:34

    Python装饰器详解

    Python里面,函数可以作为参数传入一个函数,函数也可以复制给变量,通过变量调用函数。装饰器可以扩展一个函数的功能,为函数做一个装饰器注解,可以把装饰器里面定义的功能于所有函数提前执行,提升代码的复用程度。
  • 04.29 17:35:48
    发表了文章 2022-04-29 17:35:48

    Java中的HashTable详解

    HashTable是遗留类,很多映射的常用功能与HashMap类似,不同的是它承自Dictionary类,并且是线程安全的,并发性不如ConcurrentHashMap,因为ConcurrentHashMap引入了分段锁。
  • 04.29 17:29:25
    发表了文章 2022-04-29 17:29:25

    Java动态代理设计模式

    就是为其他对象提供一种代理以控制对这个对象的访问。代理可以在不改动目标对象的基础上,增加其他额外的功能(扩展功能)。
  • 04.29 17:25:20
    发表了文章 2022-04-29 17:25:20

    Markdown实用教程

    Markdown 是用来编写结构化文档的一种纯文本格式,它使我们在双手不离开键盘的情况下,可以对文本进行一定程度的格式排版。markdown语法是通用的,很多写作平台都是支持markdown的,比如简书,这就意味着做自媒体的你写一次文章,就能很快同步到各大平台,而不需要要考虑不同写作平台之间排版的兼容性,从而兼顾各大平台的流量,让你能专注于写作。
  • 04.29 17:19:29
    发表了文章 2022-04-29 17:19:29

    数据仓库建模方法论

    数仓的建模或者分层,其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话,所有的划分都是为了更好的管理。小到JVM 内存区域的划分,JVM 中堆空间的划分(年轻代、老年代、方法区等),大到国家的省市区的划分,无一例外的都是为了更好的组织管理
  • 04.29 17:11:20
    发表了文章 2022-04-29 17:11:20

    数仓建模分层理论

    简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容多了以后,想要重用,就会再拆分一个公共层出来,变成3层架构,这个过程有点类似代码重构,就是在实践中不断的进行抽象、
  • 04.29 17:05:57
    发表了文章 2022-04-29 17:05:57

    数据仓库之拉链表

    拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。
  • 04.29 17:03:01
    发表了文章 2022-04-29 17:03:01

    Hive 分析函数lead、lag实例应用

    Lag和Lead分析函数可以在同一次查询中取出同一字段的后N行的数据(Lag)和前N行的数据(Lead)作为独立的列。这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。
  • 04.29 17:00:46
    发表了文章 2022-04-29 17:00:46

    其它语言通过HiveServer2访问Hive

    其它语言访问hive主要是通过hiveserver2服务,HiveServer2(HS2)是一种能使客户端执行Hive查询的服务。HiveServer2可以支持对 HiveServer2 的嵌入式和远程访问,支持多客户端并发和身份认证。旨在为开放API客户端(如JDBC和ODBC)提供更好的支持。
  • 04.29 16:57:21
    发表了文章 2022-04-29 16:57:21

    Hive中的集合数据类型

    Array的使用.,Map 的使用<Struct 的使用, 不支持组合的复杂数据类型。
  • 04.29 16:53:41
    发表了文章 2022-04-29 16:53:41

    Hive中的UDF详解

    hive作为一个sql查询引擎,自带了一些基本的函数,比如count(计数),sum(求和),有时候这些基本函数满足不了我们的需求,这时候就要写hive hdf(user defined funation),又叫用户自定义函数。
  • 04.29 16:47:48
    发表了文章 2022-04-29 16:47:48

    彻底理解Hive中的锁

    前面遇到过一次因为Hive中表被锁住了,导致定时任务一直失败。这两天又出现了表被锁,原因是连接hiveserver2过于频繁,mysql连接被打满,引发的连锁反应,导致我们的小时任务一直失败,下午重点注意到这个问题,才解决好。
  • 04.29 16:45:00
    发表了文章 2022-04-29 16:45:00

    sqoop用法之mysql与hive数据导入导出

    Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL、Oracle、Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。对于某些NoSQL数据库它也提供了连接器。Sqoop,类似于其他ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。
  • 04.29 16:40:57
    发表了文章 2022-04-29 16:40:57

    Hive动态分区详解

    Hive动态分区注意事项是什么?
  • 04.29 16:38:09
    发表了文章 2022-04-29 16:38:09

    数据湖是谁?那数据仓库又算什么?

    近两年,为什么都开始谈论起 Data Lake 这个”新名词”了?先说说我的想法,其实还是用户需求驱动数据服务,大家开始关注 Data Lake 的根本原因是用户需求发生了质变,过去的数据仓库模式以及相关组件没有办法满足日益进步的用户需求。数据湖概念的诞生,源自企业面临的一些挑战,如数据应该以何种方式处理和存储。最开始,企业对种类庞杂的应用程序的管理都经历了一个比较自然的演化周期。那么到底是什么样的需求和挑战驱动了技术的变革,从而导致了新技术的产生呢?
  • 04.29 16:34:33
    发表了文章 2022-04-29 16:34:33

    Hive基于UDF进行文本分词

    Hive作为一个sql查询引擎,自带了一些基本的函数,比如count(计数),sum(求和),有时候这些基本函数满足不了我们的需求,这时候就要写hive hdf(user defined funation),又叫用户自定义函数。
  • 04.29 16:27:50
    发表了文章 2022-04-29 16:27:50

    Hive 中的四种排序详解,再也不会混淆用法了

    排序操作是一个比较常见的操作,尤其是在数据分析的时候,我们往往需要对数据进行排序,hive 中和排序相关的有四个关键字,今天我们就看一下,它们都是什么作用。
  • 04.29 16:18:02
    发表了文章 2022-04-29 16:18:02

    设计模式也可以这么简单

    设计模式是对大家实际工作中写的各种代码进行高层次抽象的总结,其中最出名的当属 Gang of Four (GoF) 的分类了,他们将设计模式分类为 23 种经典的模式,根据用途我们又可以分为三大类,分别为创建型模式、结构型模式和行为型模式。
  • 04.29 13:32:09
    发表了文章 2022-04-29 13:32:09

    Hive表的基本操作

    create table语句遵从sql语法习惯,只不过Hive的语法更灵活。例如,可以定义表的数据文件存储位置,使用的存储格式等。
  • 04.29 13:29:47
    发表了文章 2022-04-29 13:29:47

    Spark内核解析

    Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理。
  • 04.29 12:57:53
    发表了文章 2022-04-29 12:57:53

    Hive整合Hbase

    HBase 虽然可以存储数亿或数十亿行数据,但是对于数据分析来说,不太友好,只提供了简单的基于 Key 值的快速查询能力,没法进行大量的条件查询。现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要说Hive,Hive方便地提供了Hive QL的接口来简化MapReduce的使用, 而HBase提供了低延迟的数据库访问。如果两者结合,可以利用MapReduce的优势针对HBase存储的大量内容进行离线的计算和分析。
  • 04.29 12:55:22
    发表了文章 2022-04-29 12:55:22

    生男生女概率一样吗?

    生男孩的概率和生女孩的概率是一样的吗,以下内容解决你的疑惑。
  • 04.29 12:51:36
    发表了文章 2022-04-29 12:51:36

    程序员必备的一些数学基础知识

    作为一个标准的程序员,应该有一些基本的数学素养,尤其现在很多人在学习人工智能相关知识,想抓住一波人工智能的机会。很多程序员可能连这样一些基础的数学问题都回答不上来。以下文章会给你答案。
  • 04.29 12:27:38
    发表了文章 2022-04-29 12:27:38

    Flink实时计算topN热榜

    Flink创建kafka数据源;基于 EventTime 处理,如何指定 Watermark; Flink中的Window,滚动(tumbling)窗口与滑动(sliding)窗口; State状态的使用; ProcessFunction 实现 TopN 功能.
  • 04.29 12:18:38
    发表了文章 2022-04-29 12:18:38

    彻底搞清Flink中的Window

    在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次,但是有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口,用来收集最近一分钟内的数据,并对这个窗口内的数据进行计算。
  • 04.29 11:59:39
    发表了文章 2022-04-29 11:59:39

    Flink状态管理与状态一致性(长文)

    状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的数据有重复,想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断去重。 检查输入流是否符合某个特定的模式,需要将之前流入的元素以状态的形式缓存下来。比如,判断一个温度传感器数据流中的温度是否在持续上升。 对一个时间窗口内的数据进行聚合分析,分析一个小时内某项指标的75分位或99分位的数值。
  • 04.27 18:22:58
    发表了文章 2022-04-27 18:22:58
  • 04.27 18:07:41
    发表了文章 2022-04-27 18:07:41

    5分钟安装docker教程

    Centos安装docker需要操作系统是 CentOS 7 or 8,必须启用centos extras存储库。默认情况下,此存储库处于启用状态,但如果已禁用它,则需要重新启用它。
  • 04.26 23:25:29
    发表了文章 2022-04-26 23:25:29

    Docker五分钟搭建Wordpress

    一台linux服务器,新建并启动 MySQL 容器,新建并启动 WordPress 容器,修改WordPress配置文件。
  • 04.26 23:10:03
    发表了文章 2022-04-26 23:10:03

    Hadoop 数据迁移用法详解

    Hadoop 数据迁移怎么使用,以下有详细的解释。
  • 04.26 23:05:46
    发表了文章 2022-04-26 23:05:46

    Flink实时计算pv、uv的几种方法

    我的Git地址实时统计pv、uv是再常见不过的大数据统计需求了,前面出过一篇SparkStreaming实时统计pv,uv的案例,这里用Flink实时计算pv,uv。我们需要统计不同数据类型每天的pv,uv情况。因此计算pv、uv的几种方法。
  • 04.26 22:58:15
    发表了文章 2022-04-26 22:58:15

    hbase统计表的行数的三种方法

    .count命令. 调用Mapreduce.Hive over Hbase三种行数的方法。
  • 04.26 21:57:17
    发表了文章 2022-04-26 21:57:17

    YARN调度器(Scheduler)详解

    Yarn调度器是什么,怎样配置呢。
  • 04.26 21:49:39
    发表了文章 2022-04-26 21:49:39

    一文彻底搞懂Hive的数据存储与压缩

    怎样弄清Hive的数据存储与压缩呢,以下回答告诉你。
  • 04.26 21:36:26
    发表了文章 2022-04-26 21:36:26

    彻底解决Hive小文件问题

    小文件产生的原因和危害以及解决方法。
  • 04.26 21:32:35
    发表了文章 2022-04-26 21:32:35

    docker 安装 wordpress,通过nginx反向代理,绑定域名,配置https

    怎么样配置https呢?以下回答解决你的疑问。
  • 04.26 21:28:48
    发表了文章 2022-04-26 21:28:48

    Hbase修复工具Hbck

    Hbase修复工具是Hbck ,相关的问题有哪些呢?
  • 发表了文章 2022-04-29

    虚拟机搭建hadoop环境

  • 发表了文章 2022-04-29

    Centos 6.5安装Python3.6

  • 发表了文章 2022-04-29

    linux上java解加密(AES/CBC)异常:java.lang.SecurityException: JCE cannot authenticate the provider BC办法

  • 发表了文章 2022-04-29

    Python系列之环境安装

  • 发表了文章 2022-04-29

    redis 删除大key集合的方法

  • 发表了文章 2022-04-29

    SpringBoot + thymeleaf 实现分页

  • 发表了文章 2022-04-29

    Python批量删除mysql中千万级大量数据

  • 发表了文章 2022-04-29

    实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示

  • 发表了文章 2022-04-29

    PyCharm2019激活

  • 发表了文章 2022-04-29

    IDEA 支持scala开发

  • 发表了文章 2022-04-29

    Java中的单例模式最全解析

  • 发表了文章 2022-04-29

    Python装饰器详解

  • 发表了文章 2022-04-29

    Java中的HashTable详解

  • 发表了文章 2022-04-29

    Java动态代理设计模式

  • 发表了文章 2022-04-29

    Markdown实用教程

  • 发表了文章 2022-04-29

    数据仓库建模方法论

  • 发表了文章 2022-04-29

    数仓建模分层理论

  • 发表了文章 2022-04-29

    数据仓库之拉链表

  • 发表了文章 2022-04-29

    Hive 分析函数lead、lag实例应用

  • 发表了文章 2022-04-29

    其它语言通过HiveServer2访问Hive

正在加载, 请稍后...
滑动查看更多
  • 回答了问题 2021-09-26

    使用阿里云的代备案没有居住证怎么办

    有一个备案地址,需要跟身份证地址一模一样,比如我是湖北的,虽然在上海工作,我备案地址写的湖北的,地址跟身份证地址一模一样,一字不差,就不用居住证了。我开始因为手贱多写了一个字,就要居住证了。总而言之,备案地址跟身份证地址,一模一样,就不需要居住证了。当然了,有些地方例外,比如福建个别省就需要居住证,哈哈哈。
    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息