kng32f3vbngrm_社区达人页

个人头像照片
kng32f3vbngrm
已加入开发者社区1271

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
初入江湖
初入江湖

成就

已发布67篇文章
18条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
  • Shell
  • Hive
  • Spark
  • Flume
  • Hadoop
  • DataX
  • FineBI
  • Kafka
擅长领域
技术认证

暂时未有相关云产品技术能力~

大数据的坑,让我来踩吧! -- moon_coder

暂无精选文章
暂无更多信息

2024年05月

  • 05.26 19:36:35
    发表了文章 2024-05-26 19:36:35

    Spark 分析计算连续三周登录的用户数

    本文介绍了如何使用窗口函数`range between`来查询`login_time`为2022-03-10的用户最近连续三周的登录数。首先在MySQL中创建`log_data`表并插入数据,接着定义需求为找出该日期前连续三周活跃的用户数。通过Spark SQL,分步骤实现:1)确定统计周期,2)筛选符合条件的数据,3)计算用户连续登录状态。在初始实现中出现错误,因未考虑日期在周中的位置,修正后正确计算出活跃用户数。
  • 05.26 19:32:19
    发表了文章 2024-05-26 19:32:19

    HBase 相关面试题

    HBase 是一种基于 Hadoop 的分布式 NoSQL 数据库,它是 Google 的Bigtable 的开源实现。
  • 05.26 19:30:47
    发表了文章 2024-05-26 19:30:47
  • 05.26 19:30:16
    发表了文章 2024-05-26 19:30:16

    HBase Shell-org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 已解决

    在HBase Shell遇到错误时,检查Hadoop非安全模式:`hdfs dfsadmin -safemode get`。问题解决在于`hbase-site.xml`中添加配置:Zookeeper客户端端口设为2181和预写日志提供者设为filesystem。
  • 05.26 19:28:34
    发表了文章 2024-05-26 19:28:34

    Hive 求多个字段的中位数(按行求中位数)

    在项目中遇到按行求中位数的Hive需求,本文通过创建测试数据,展示解决方案。首先使用`lateral view`和`explode`将多字段行转为列,然后通过`percentile`函数计算每行数据的中位数,最终得到结果。该方法适用于将行转为列处理复杂需求,欢迎探讨更优解。
  • 05.26 19:27:33
    发表了文章 2024-05-26 19:27:33

    大数据用户画像之基本概念

    大数据用户画像利用大数据技术分析用户基本信息、消费行为、兴趣、社交及地理数据,创建详细用户模型,助力企业精准营销。涉及技术包括数据挖掘、大数据处理(Hadoop、Spark)、数据可视化、机器学习和数据库管理。通过用户画像,企业可实现市场定位、个性化推荐、精准广告、产品优化和风险控制。学习该领域需掌握多个技术栈,包括相关算法、工具及业务理解。
  • 05.26 19:26:54
    发表了文章 2024-05-26 19:26:54

    大数据之 Solr 集群搭建

    Solr是一个基于Java的高性能全文搜索服务器,扩展自Lucene,提供丰富查询语言和优化的查询性能。它支持通过HTTP接口以XML格式进行索引和搜索操作。在集群环境中,涉及解压软件包,配置环境变量,修改Zookeeper参数,文件分发,启动Solr和Zookeeper服务。建议使用非root用户启动,确保安全。启动后,通过WEB UI验证Solr集群部署是否成功,遇到问题如找不到solr.xml文件,可通过指定-Dsolr.solr.home参数解决。
  • 05.26 19:23:31
    发表了文章 2024-05-26 19:23:31

    Cannot request memory (Xms 65536 kb, Xmx 270336 kb) from system for job test, sleep for 60 secs and

    Azkaban任务因内存不足持续运行,日志显示无法申请65536kb至270336kb内存。系统要求至少3GB内存,但当前executor节点内存低于此阈值。解决方案包括释放内存、增加内存或关闭内存检查(通过在`commonprivate.properties`设置`memCheck.enabled=false`)。
  • 05.26 19:21:50
    发表了文章 2024-05-26 19:21:50

    使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常(字段错位)

    在 MySQL 的 `order_info` 表中,包含 `order_id` 等5个字段,主要存储订单信息。执行按 `create_time` 降序的查询,显示了部分结果。在 Hive 中复制此表结构时,所有字段除 `order_id` 外设为 `string` 类型,并添加了 `etl_date` 分区字段。然而,由于使用逗号作为字段分隔符,当 `address` 字段含逗号时,数据写入 Hive 出现错位,导致 `create_time` 值变为中文字符串。问题解决方法包括更换字段分隔符或使用 Hive 默认分隔符 `\u0001`。此案例提醒在建表时需谨慎选择字段分隔符。
  • 05.26 19:21:03
    发表了文章 2024-05-26 19:21:03

    【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分

    标准化Scaler是数据预处理技术,用于将特征值映射到均值0、方差1的标准正态分布,以消除不同尺度特征的影响,提升模型稳定性和精度。Spark ML中的StandardScaler实现此功能,通过`.setInputCol`、`.setOutputCol`等方法配置并应用到DataFrame数据。示例展示了如何在Spark中使用StandardScaler进行数据规范化,包括创建SparkSession,构建DataFrame,使用VectorAssembler和StandardScaler,以及将向量拆分为列。规范化有助于降低特征重要性,提高模型训练速度和计算效率。
  • 05.26 19:20:39
    发表了文章 2024-05-26 19:20:39

    【机器学习】Spark ML 对数据特征进行 One-Hot 编码

    One-Hot 编码是机器学习中将离散特征转换为数值表示的方法,每个取值映射为一个二进制向量,常用于避免特征间大小关系影响模型。Spark ML 提供 OneHotEncoder 进行编码,输入输出列可通过 `inputCol` 和 `outputCol` 参数设置。在示例中,先用 StringIndexer 对类别特征编码,再用 OneHotEncoder 转换,最后展示编码结果。注意 One-Hot 编码可能导致高维问题,可结合实际情况选择编码方式。
  • 05.26 19:20:03
    发表了文章 2024-05-26 19:20:03

    【指标计算】Spark 计算指定用户与其他用户购买的相同商品

    该代码示例使用Spark SQL解决查找指定用户(user01)与其他用户共同购买商品的问题。首先,创建SparkSession和模拟购买数据,然后通过SQL查询获取user01购买的商品集合。接着,对比所有用户购买记录,筛选出购买过相同商品且非user01的用户。输出显示了这些匹配用户的商品ID。关键在于使用`array_contains`函数检查商品是否在指定用户的购买列表中。遇到类似需求时,可参考Spark SQL官方函数文档。欢迎讨论复杂指标计算问题。
  • 05.26 19:19:20
  • 05.26 19:18:49
    发表了文章 2024-05-26 19:18:49

    IDEA 提交代码到 GitHub 时发生错误

    摘要: 在遇到访问 GitHub 时的错误,这两个命令分别用于处理 SSL 连接问题和连接超时问题。
  • 05.26 19:17:38
    发表了文章 2024-05-26 19:17:38

    DataGrip 配置 HiveServer2 远程连接访问(含账号密码验证)

    该文档介绍了如何为HiveServer2配置账号密码鉴权。提供了一个名为`CustomPasswdAuthenticator`的Java类实现`PasswdAuthenticationProvider`接口,用于验证HiveServer2的用户名和密码。此外,还给出了相关依赖的Maven配置,并说明了如何将编译后的Jar包放入Hive的库中。在Hive的`hive-site.xml`和Hadoop的`core-site.xml`中需配置相应的参数以启用自定义认证。文档还列举了可能遇到的问题及解决方法,包括权限问题、数据插入错误和JVM内存溢出。
  • 05.26 19:15:06
    发表了文章 2024-05-26 19:15:06

    Hive Cli / HiveServer2 中使用 dayofweek 函数引发的BUG!

    在Hive 3.1.2和Spark 3.0.2集群环境中,遇到`dayofweek`函数bug。当`create_date`为字符串类型时,`dayofweek`函数结果错位。修复方法是将`create_date`转换为`date`类型。在Spark SQL中,原始代码能正常运行,未出现此问题。因此建议在Hive中使用转换后的日期类型以避免错误。
  • 05.26 19:13:35
    发表了文章 2024-05-26 19:13:35

    Vmware 虚拟机挂起恢复后发现无法 Ping 通,无法连接到主机

    在Linux主机上,以`root`用户停止NetworkManager服务并重启网络: ```shell systemctl stop NetworkManager systemctl restart network ``` 或修改网卡配置文件`ifcfg-ens33`,添加`NM_CONTROLLED="no"`,然后重启`network`服务: ```shell vim /etc/sysconfig/network-scripts/ifcfg-ens33 systemctl restart network ```
  • 05.26 19:12:45
    发表了文章 2024-05-26 19:12:45

    Hadoop Yarn 核心调优参数

    这是一个关于测试集群环境的配置说明,包括3台服务器(master, slave1, slave2)运行CentOS 7.5,每台有4核CPU和4GB内存。集群使用Hadoop 3.1.3,JDK1.8。Yarn核心配置涉及调度器选择、ResourceManager线程数、节点检测、逻辑处理器使用、核心转换乘数、NodeManager内存和CPU设置,以及容器的内存和CPU限制。配置完成后,需要重启Hadoop并检查yarn配置。
  • 05.26 19:11:57
    发表了文章 2024-05-26 19:11:57

    Hadoop Yarn 配置多队列的容量调度器

    配置Hadoop多队列容量调度器,编辑`capacity-scheduler.xml`,新增`hive`队列,`default`队列占总内存40%,最大60%;`hive`队列占60%,最大80%。配置包括队列容量、用户权限和应用生存时间等,配置后使用`yarn rmadmin -refreshQueues`刷新队列,无需重启集群。多队列配置可在Yarn WEB界面查看。
  • 05.26 19:11:04
    发表了文章 2024-05-26 19:11:04

    NameNode 处理线程配置(心跳并发)

    NameNode线程池处理客户端和数据节点请求,如读写文件及心跳、块报告。通过调整`dfs.namenode.handler.count`(默认10,示例设为21)在`hdfs-site.xml`中可控制并发处理能力。线程数过多或过少都可能影响性能,需平衡资源使用并进行基准测试以确定最佳值。合理线程数可通过公式`int(math.log(N) * 20)`计算,N为服务器数量。例如,3台服务器的计算结果为21。
  • 05.26 19:10:11
    发表了文章 2024-05-26 19:10:11

    HDFS 集群读写压测

    在虚拟机中配置集群时,需设置每台服务器网络为百兆,以模拟实际网络环境。使用Hadoop的`TestDFSIO`进行HDFS性能测试,包括写入和读取数据。写测试中,创建11个128MB文件,平均写入速度为3.86 MB/sec,总处理数据量1408 MB,测试时间137.46秒。资源分配合理,传输速度超过单台服务器理论最大值12.5M/s,说明网络资源已充分利用。读测试主要依赖硬盘传输速率,速度快。测试完成后使用`TestDFSIO -clean`删除测试数据。
  • 05.26 19:09:04
    发表了文章 2024-05-26 19:09:04

    NameNode 故障无法重新启动解决方法

    当NameNode进程挂掉时,若无数据丢失,可直接使用`hdfs --daemon start namenode`重启。但若数据丢失,需从SecondaryNameNode恢复。首先查看启动日志,确认因数据丢失导致的未启动成功问题。接着,将SecondaryNameNode的备份数据拷贝至NameNode的数据存储目录,目录路径在`core-site.xml`中设定。进入NameNode节点,使用`scp`命令从SecondaryNameNode复制数据后,重启NameNode进程,故障即可修复。
  • 05.26 19:07:09
    发表了文章 2024-05-26 19:07:09

    Hadoop 集群一直处于安全模式,强制退出后出现数据丢失警告。解决方法

    本文介绍了Hadoop集群安全模式的相关命令和问题解决。当集群处于安全模式时,可使用`hdfs dfsadmin -safemode get`检查状态,`enter`进入,`leave`或`forceExit`离开。若因数据块不一致导致安全模式持续,可通过强制退出,然后删除丢失数据块的文件以恢复正常。如果遇到权限问题,可以使用`chmod`授权或关闭HDFS权限验证(不推荐),配置修改后需重启集群生效。
  • 05.26 19:06:11
    发表了文章 2024-05-26 19:06:11

    Hadoop 集群小文件归档 HAR、小文件优化 Uber 模式

    该文介绍了Hadoop中两种小文件管理策略。首先,通过Hadoop Archive (HAR)将小文件归档成大文件以减少存储和管理开销。操作包括使用`hadoop archive`命令进行归档和解档。其次,文章讨论了小文件优化的Uber模式,这种模式在同一JVM中运行所有MapReduce任务以提高效率和局部性,但可能引发单点故障和资源限制问题。启用Uber模式需在`mapred-site.xml`配置文件中设置相关参数。文中还提供了使用WordCount例子验证Uber模式配置的步骤。
  • 05.26 19:04:39
    发表了文章 2024-05-26 19:04:39

    Hadoop MapReduce 调优参数

    对于 Hadoop v3.1.3,针对三台4核4G服务器的MapReduce调优参数包括:`mapreduce.reduce.shuffle.parallelcopies`设为10以加速Shuffle,`mapreduce.reduce.shuffle.input.buffer.percent`和`mapreduce.reduce.shuffle.merge.percent`分别设为0.8以减少磁盘IO。
  • 05.26 19:03:56
    发表了文章 2024-05-26 19:03:56

    一文看懂 Hive 优化大全(参数配置、语法优化)

    以下是对提供的内容的摘要,总长度为240个字符: 在Hadoop集群中,服务器环境包括3台机器,分别运行不同的服务,如NodeManager、DataNode、NameNode等。集群组件版本包括jdk 1.8、mysql 5.7、hadoop 3.1.3和hive 3.1.2。文章讨论了YARN的配置优化,如`yarn.nodemanager.resource.memory-mb`、`yarn.nodemanager.vmem-check-enabled`和`hive.map.aggr`等参数,以及Map-Side聚合优化、Map Join和Bucket Map Join。
  • 05.26 19:00:09
    发表了文章 2024-05-26 19:00:09

    Hive 表注释乱码解决

    Hive元数据在MySQL默认使用`latin1`字符集导致注释乱码。可通过修改MySQL配置文件`/etc/my.cnf`,在`[mysqld]`和末尾添加`character-set-server=utf8`等设置,重启MySQL。然后在Hive数据库中调整表字段、分区字段、索引注释的字符集。注意,这仅对新表生效。测试创建带注释的Hive表,问题解决。
  • 05.26 18:59:04
    发表了文章 2024-05-26 18:59:04

    Hive 和 HDFS、MySQL 之间的关系

    Hive是Hadoop上的数据仓库工具,用HiveQL进行大数据查询;HDFS是分布式文件系统,用于存储大规模数据,常与Hive结合,提供数据存储和高可靠性。MySQL是RDBMS,适用于结构化数据管理,在大数据环境里可存储Hive的元数据,提升查询效率和元数据管理。三者协同处理数据管理和分析任务。
  • 05.26 18:58:23
    发表了文章 2024-05-26 18:58:23

    【Hive SQL 每日一题】统计用户连续下单的日期区间

    该SQL代码用于统计用户连续下单的日期区间。首先按`user_id`和`order_date`分组并去除重复,然后使用`row_number()`标记行号,并通过`date_sub`与行号计算潜在的连续日期。接着按用户ID和计算后的日期分组,排除连续订单数少于2的情况,最后提取连续下单的起始和结束日期。输出结果展示了用户连续下单的日期范围。
  • 05.26 18:57:36
    发表了文章 2024-05-26 18:57:36

    Zookeeper 启动失败【Cannot open channel to 3 at election address...】

    解决Hadoop Zookeeper连接问题:检查Zookeeper目录权限,使用`sudo chown -R username:username /your_zookeeper_path`授权。确保`zoo.cfg`配置`quorumListenOnAllIPs=true`并监听所有IP。关键是机器ID(如`server.0`, `server.1`等)需与IP或主机名对应,修正`zoo.cfg`中的设置,例如`server.0=hadoop120:2888:3888`等。重启Zookeeper后,问题解决。
  • 05.26 18:56:30
    发表了文章 2024-05-26 18:56:30

    Maxwell 概述、安装、数据同步【一篇搞定】!

    Maxwell 是一个由 Zendesk 开源的用于 MySQL 数据库实时数据捕获和同步的工具,支持多种数据库系统,以 JSON 格式输出变更数据。它实时监控数据库中的更新,将变化传递给其他系统,常用于实时数据管道、数据仓库和事件驱动架构。Maxwell 具有实时性、可配置性和高性能等特点。其工作流程包括 Binlog 解析、数据解析、重构、发布到消息队列(如 Kafka)以及事件处理。安装时需注意 JDK 版本,并配置 MySQL、Zookeeper 和 Kafka。此外,Maxwell 支持定向监听特定库表,并能进行历史和增量数据同步。
  • 05.26 17:40:06
    发表了文章 2024-05-26 17:40:06

    DataX 概述、部署、数据同步运用示例

    DataX是阿里巴巴开源的离线数据同步工具,支持多种数据源之间的高效传输。其特点是多数据源支持、可扩展性、灵活配置、高效传输、任务调度监控和活跃的开源社区支持。DataX通过Reader和Writer插件实现数据源的读取和写入,采用Framework+plugin架构。部署简单,解压即可用。示例展示了如何配置DataX同步MySQL到HDFS,并提供了速度和内存优化建议。此外,还解决了NULL值同步问题及配置文件变量传参的方法。
  • 05.26 17:34:54
    发表了文章 2024-05-26 17:34:54

    Git 快速入门

    初始化Git仓库、移除远程仓库连接、添加新远程仓库如`https://gitee.com/xxx.git`,使用`git pull --rebase`同步、`git add .`添加改动、`git commit -m "message"`提交,放弃提交用`git reset --hard`,最后`git push origin master`推送至远程主分支。
  • 05.26 17:33:22
    发表了文章 2024-05-26 17:33:22

    Ubuntu 20.04 安装部署 TiDB DM v7.3.0 集群【全网独家】

    在Ubuntu上搭建TiDB DM集群的详细步骤分享,作者因工作需求克服了部署难题。测试环境包括3台Ubuntu 20.04主机:1台master和2台worker。首先,确保所有主机安装TiDB单机环境,使用TiUP工具下载并部署。接着,设置主机间免密登录,安装必要组件如sudo、systemd、iproute2和DM组件。配置文件可通过在线或离线方式获取。部署时,根据需求编辑`topology.yaml`,然后使用`tiup dm deploy`命令安装。最后,启动集群并检查节点状态,确认DM集群正常运行。注意,解决内存不足和端口连通性问题以避免错误。
  • 05.26 17:31:38
    发表了文章 2024-05-26 17:31:38

    Ubuntu 20.04 卸载与安装 MySQL 5.7 详细教程

    该文档提供了在Ubuntu上卸载和安装MySQL 5.7的步骤。首先,通过`apt`命令卸载所有MySQL相关软件包及配置。然后,下载特定版本(5.7.32)的MySQL安装包,解压并安装所需依赖。接着,按照特定顺序安装解压后的deb包,并在安装过程中设置root用户的密码。安装完成后,启动MySQL服务,连接数据库并验证。最后,提到了开启GTID和二进制日志的配置方法。
  • 05.26 17:28:42
    发表了文章 2024-05-26 17:28:42

    Ubuntu 报错:System has not been booted with systemd as init system (PID 1). Can‘t operate.

    系统未使用 `systemd` 初始化导致错误。解决方法是通过 `apt` 安装。首先备份并更换`sources.list`,添加阿里云镜像源,然后更新源并以管理员权限运行 `apt-get install systemd -y` 和 `apt-get install systemctl -y` 安装所需组件。
  • 05.26 17:21:37
    发表了文章 2024-05-26 17:21:37

    ARM 堆栈寻址类型区分

    该文介绍了堆栈的两种指向分类:向上生成型(递增堆栈)和向下生成型(递减堆栈),以及堆栈的两种数据状态:满堆栈(指针指向最后数据)和空堆栈(指针指向存放数据的位置)。满递增和满递减是在完整数据单元上操作,而空递增和空递减则允许自定义步长。文中通过图示说明了不同情况下的堆栈存储方式。
  • 05.26 17:20:36
    发表了文章 2024-05-26 17:20:36

    【Hive SQL 每日一题】环比增长率、环比增长率、复合增长率

    该文介绍了环比增长率、同比增长率和复合增长率的概念及计算公式,并提供了SQL代码示例来计算商品的月度增长率。环比增长率是相邻两期数据的增长率,同比增长率是与去年同期相比的增长率,复合增长率则是连续时间段内平均增长的速率。文章还包含了一组销售数据用于演示如何运用这些增长率进行计算。
  • 05.26 17:19:54
    发表了文章 2024-05-26 17:19:54

    【Hive SQL】字符串操作函数你真的会用吗?

    本文介绍了SQL中判断字符串是否包含子串的几种方法。`IN`函数判断元素是否完全等于给定元素组中的某项,而非包含关系。`INSTR`和`LOCATE`函数返回子串在字符串中首次出现的位置,用于检测是否存在子串。`SUBSTR`则用于提取字符串的子串。`LIKE`用于模糊匹配,常与通配符配合使用。注意`IN`并非用于判断子串包含。
  • 05.26 17:18:41
    发表了文章 2024-05-26 17:18:41

    Flume 快速入门【概述、安装、拦截器】

    Apache Flume 是一个开源的数据采集工具,用于从各种数据源(如日志、网络数据、消息队列)收集大规模数据,并将其传输和加载到数据存储系统(如 HDFS、HBase、Hive)。Flume 由数据源(Source)、通道(Channel)、拦截器(Interceptor)和接收器(Sink)组成,支持灵活配置以适应不同的数据流处理需求。安装 Flume 包括解压软件包、配置环境变量和调整日志及内存设置。配置文件定义数据源、通道、拦截器和接收器,拦截器允许预处理数据。Flume 适用于构建数据管道,整合分散数据到中心存储系统,便于分析和报告。
  • 05.26 17:12:42
    发表了文章 2024-05-26 17:12:42

    Hive 解析 JSON 字符串数据的实现方式

    Hive 提供 `get_json_object` 函数解析 JSON 字符串,如 `{"database":"maxwell"}`。`path` 参数使用 `$`、`.`、`[]` 和 `*` 来提取数据。示例中展示了如何解析复杂 JSON 并存储到表中。此外,Hive 3.0.0及以上版本内置 `JsonSerDe` 支持直接处理 JSON 文件,无需手动解析。创建表时指定 `JsonSerDe` 序列化器,并在 HDFS 上存放 JSON 文件,可以直接查询字段内容,方便快捷。
  • 05.26 17:11:14
    发表了文章 2024-05-26 17:11:14

    大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

    数据仓库建模是组织和设计数据以支持数据分析的过程,包括ER模型和维度建模。ER模型通过实体和关系描述数据结构,遵循三范式减少冗余。维度建模,特别是Kimball方法,用于数据仓库设计,便于分析和报告。事实表存储业务度量,如销售数据,分为累积、快照、事务和周期性快照类型。维度表提供描述性信息,如时间、产品、地点和客户详情。数仓通常分层为ODS(源数据)、DWD(明细数据)、DIM(公共维度)、DWS(数据汇总)和ADS(应用数据),以优化数据管理、质量、查询性能和适应性。
  • 05.26 11:44:08
    发表了文章 2024-05-26 11:44:08

    retry.RetryInvocationHandler: java.net.NoRouteToHostException: No Route to Host from hadoop100/192.

    Error: NoRouteToHostException connecting hadoop100 to hadoop101. Possible causes include firewall issues or misconfigured IP mappings. Check firewall status with `ufw` (Ubuntu) or `firewalld` (CentOS), ensure correct hosts and hostname entries, and verify passwordless SS
  • 05.26 11:42:57
    发表了文章 2024-05-26 11:42:57

    在 Linux 中通过 SSH 执行远程命令时,无法自动加载环境变量(已解决)

    SSH远程执行命令时遇到“命令未找到”问题,原因是Linux登录方式不同导致环境变量加载差异。解决方案:将环境变量写入`/etc/profile.d/`下的文件,或手动在命令前加载环境变量,如`source /etc/profile`。
  • 05.26 11:40:09
    发表了文章 2024-05-26 11:40:09

    Linux(CentOS7.5) 安装部署 Python3.6(超详细!包含 Yum 源配置!)

    该指南介绍了在Linux系统中配置Yum源和安装Python3的步骤。首先,通过`yum install`和`wget`命令更新和备份Yum源,并从阿里云获取CentOS和EPEL的repo文件。接着,清理和更新Yum缓存。然后,下载Python3源代码包,推荐使用阿里云镜像加速。解压后,安装必要的依赖,如gcc。在配置和编译Python3时,可能需要解决缺少C编译器的问题。完成安装后,创建Python3和pip3的软链接,并更新环境变量。最后,验证Python3安装成功,并可选地升级pip和配置pip源以提高包下载速度。
  • 05.26 11:37:20
    发表了文章 2024-05-26 11:37:20

    Flume 配置文件编写技巧(包会的,抄就完了)

    本文介绍了Apache Flume的基础配置,包括数据源(Source)、数据通道(Channel)和数据处理器(Sink)三大部分。配置文件编写流程包括查阅官方文档、参考样例配置、实际操作配置。文章提供了一个经典例子,展示如何从本地端口收集数据并通过内存通道缓冲,最终记录到日志。配置流程包括声明组件、配置Source、Sink和Channel,然后将它们绑定。通过示例展示了如何配置HTTP Source和HDFS Sink,并给出了完整的配置文件示例及测试步骤,帮助读者理解Flume配置文件的编写。
  • 05.26 11:33:39
    发表了文章 2024-05-26 11:33:39

    Flume 拦截器概念及自定义拦截器的运用

    Apache Flume 的拦截器是事件处理组件,位于Source和Channel之间,用于在写入Channel前对数据进行转换、提取或删除。它们支持数据处理和转换、数据增强、数据过滤以及监控和日志功能。要创建自定义拦截器,需实现Interceptor接口,包含initialize、intercept、intercept(List<Event>)和close方法。配置拦截器时,通过Builder模式实现Interceptor.Builder接口。在Flume配置文件中指定拦截器全类名,如`TestInterceptor$Builder`,然后启动Flume进行测试。
  • 05.26 11:30:55
    发表了文章 2024-05-26 11:30:55

    org.apache.hadoop.security.AccessControlException Permission denied: user=anonymous, access=WRITE...

    在尝试通过 HiveServer2 远程执行 DDL 操作时遇到权限错误,错误信息显示匿名用户(`anonymous`)无权执行写操作。解决方案包括:1) 使用 `hdfs dfs -chmod -R +777 /warehouse` 给目录授权(不推荐,仅适用于测试环境);2) 配置 Hive 和 Hadoop,创建具有权限的用户,如 `ad`,并将该用户添加到 Hive 的管理员角色和 Hadoop 的 proxyuser 配置中,然后重启相关服务。通过 `beeline` 测试连接和操作,确认权限问题已解决。
  • 05.26 11:27:15
    发表了文章 2024-05-26 11:27:15

    Hive 之 UDF 运用(包会的)

    Hive的UDF允许用户自定义数据处理函数,扩展其功能。`reflect()`函数通过Java反射调用JDK中的方法,如静态或实例方法。例如,调用`MathUtils.addNumbers()`进行加法运算。要创建自定义UDF,可以继承`GenericUDF`,实现`initialize`、`evaluate`和`getDisplayString`方法。在`initialize`中检查参数类型,在`evaluate`中执行业务逻辑。最后,打包项目成JAR,上传到HDFS,并在Hive中注册以供使用。
  • 05.26 11:23:37
    发表了文章 2024-05-26 11:23:37

    IDEA 打包 Spark 项目 POM 文件依赖

    这是一个 Maven POM 示例,用于构建一个使用 Spark 与 Hive 的项目,目标是将数据从 Hive 导入 ClickHouse。POM 文件设置了 Scala 和 Spark 的依赖,包括 `spark-core_2.12`, `spark-sql_2.12`, 和 `spark-hive_2.12`。`maven-assembly-plugin` 插件用于打包,生成包含依赖的和不含依赖的两种 JAR 包。`scope` 说明了依赖的使用范围,如 `compile`(默认),`provided`,`runtime`,`test` 和 `system`。
  • 发表了文章 2024-05-26

    Spark 分析计算连续三周登录的用户数

  • 发表了文章 2024-05-26

    HBase 相关面试题

  • 发表了文章 2024-05-26

    Exception in thread “main“ java.io.IOException: No FileSystem for scheme: hdfs

  • 发表了文章 2024-05-26

    HBase Shell-org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 已解决

  • 发表了文章 2024-05-26

    大数据之 Solr 集群搭建

  • 发表了文章 2024-05-26

    Hive 求多个字段的中位数(按行求中位数)

  • 发表了文章 2024-05-26

    大数据用户画像之基本概念

  • 发表了文章 2024-05-26

    Cannot request memory (Xms 65536 kb, Xmx 270336 kb) from system for job test, sleep for 60 secs and

  • 发表了文章 2024-05-26

    使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常(字段错位)

  • 发表了文章 2024-05-26

    【机器学习】Spark ML 对数据特征进行 One-Hot 编码

  • 发表了文章 2024-05-26

    Caused by: java.lang.ClassNotFoundException: com.fasterxml.jackson.core.exc.InputCoercionException

  • 发表了文章 2024-05-26

    【指标计算】Spark 计算指定用户与其他用户购买的相同商品

  • 发表了文章 2024-05-26

    IDEA 提交代码到 GitHub 时发生错误

  • 发表了文章 2024-05-26

    Hadoop 集群一直处于安全模式,强制退出后出现数据丢失警告。解决方法

  • 发表了文章 2024-05-26

    【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分

  • 发表了文章 2024-05-26

    DataGrip 配置 HiveServer2 远程连接访问(含账号密码验证)

  • 发表了文章 2024-05-26

    Vmware 虚拟机挂起恢复后发现无法 Ping 通,无法连接到主机

  • 发表了文章 2024-05-26

    Hadoop Yarn 核心调优参数

  • 发表了文章 2024-05-26

    Hive Cli / HiveServer2 中使用 dayofweek 函数引发的BUG!

  • 发表了文章 2024-05-26

    NameNode 处理线程配置(心跳并发)

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息