kng32f3vbngrm_社区达人页-阿里云开发者社区

kng32f3vbngrm

已加入开发者社区1271天

勋章更多

专家博主

星级博主

技术博主

初入江湖

成就

已发布67篇文章

18条评论

已回答0个问题

0条评论

已发布0个视频

github地址

我关注的人更多

粉丝更多

技术能力

兴趣领域

Shell
Hive
Spark
Flume
Hadoop
DataX
FineBI
Kafka

擅长领域

技术认证

暂时未有相关云产品技术能力~

大数据的坑，让我来踩吧！ -- moon_coder

精选

高分内容

最新动态

文章
问答
视频

暂无精选文章

暂无更多信息

2024年05月

05.26 19:36:35

发表了文章 2024-05-26 19:36:35

Spark 分析计算连续三周登录的用户数

本文介绍了如何使用窗口函数`range between`来查询`login_time`为2022-03-10的用户最近连续三周的登录数。首先在MySQL中创建`log_data`表并插入数据，接着定义需求为找出该日期前连续三周活跃的用户数。通过Spark SQL，分步骤实现：1)确定统计周期，2)筛选符合条件的数据，3)计算用户连续登录状态。在初始实现中出现错误，因未考虑日期在周中的位置，修正后正确计算出活跃用户数。
05.26 19:32:19

发表了文章 2024-05-26 19:32:19

HBase 相关面试题

HBase 是一种基于 Hadoop 的分布式 NoSQL 数据库，它是 Google 的Bigtable 的开源实现。
05.26 19:30:47

发表了文章 2024-05-26 19:30:47

Exception in thread “main“ java.io.IOException: No FileSystem for scheme: hdfs

错误解决方法
05.26 19:30:16

发表了文章 2024-05-26 19:30:16

HBase Shell-org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 已解决

在HBase Shell遇到错误时，检查Hadoop非安全模式：`hdfs dfsadmin -safemode get`。问题解决在于`hbase-site.xml`中添加配置：Zookeeper客户端端口设为2181和预写日志提供者设为filesystem。
05.26 19:28:34

发表了文章 2024-05-26 19:28:34

Hive 求多个字段的中位数（按行求中位数）

在项目中遇到按行求中位数的Hive需求，本文通过创建测试数据，展示解决方案。首先使用`lateral view`和`explode`将多字段行转为列，然后通过`percentile`函数计算每行数据的中位数，最终得到结果。该方法适用于将行转为列处理复杂需求，欢迎探讨更优解。
05.26 19:27:33

发表了文章 2024-05-26 19:27:33

大数据用户画像之基本概念

大数据用户画像利用大数据技术分析用户基本信息、消费行为、兴趣、社交及地理数据，创建详细用户模型，助力企业精准营销。涉及技术包括数据挖掘、大数据处理（Hadoop、Spark）、数据可视化、机器学习和数据库管理。通过用户画像，企业可实现市场定位、个性化推荐、精准广告、产品优化和风险控制。学习该领域需掌握多个技术栈，包括相关算法、工具及业务理解。
05.26 19:26:54

发表了文章 2024-05-26 19:26:54

大数据之 Solr 集群搭建

Solr是一个基于Java的高性能全文搜索服务器，扩展自Lucene，提供丰富查询语言和优化的查询性能。它支持通过HTTP接口以XML格式进行索引和搜索操作。在集群环境中，涉及解压软件包，配置环境变量，修改Zookeeper参数，文件分发，启动Solr和Zookeeper服务。建议使用非root用户启动，确保安全。启动后，通过WEB UI验证Solr集群部署是否成功，遇到问题如找不到solr.xml文件，可通过指定-Dsolr.solr.home参数解决。
05.26 19:23:31

发表了文章 2024-05-26 19:23:31

Cannot request memory (Xms 65536 kb, Xmx 270336 kb) from system for job test, sleep for 60 secs and

Azkaban任务因内存不足持续运行，日志显示无法申请65536kb至270336kb内存。系统要求至少3GB内存，但当前executor节点内存低于此阈值。解决方案包括释放内存、增加内存或关闭内存检查（通过在`commonprivate.properties`设置`memCheck.enabled=false`）。
05.26 19:21:50

发表了文章 2024-05-26 19:21:50

使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常（字段错位）

在 MySQL 的 `order_info` 表中，包含 `order_id` 等5个字段，主要存储订单信息。执行按 `create_time` 降序的查询，显示了部分结果。在 Hive 中复制此表结构时，所有字段除 `order_id` 外设为 `string` 类型，并添加了 `etl_date` 分区字段。然而，由于使用逗号作为字段分隔符，当 `address` 字段含逗号时，数据写入 Hive 出现错位，导致 `create_time` 值变为中文字符串。问题解决方法包括更换字段分隔符或使用 Hive 默认分隔符 `\u0001`。此案例提醒在建表时需谨慎选择字段分隔符。
05.26 19:21:03

发表了文章 2024-05-26 19:21:03

【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分

标准化Scaler是数据预处理技术，用于将特征值映射到均值0、方差1的标准正态分布，以消除不同尺度特征的影响，提升模型稳定性和精度。Spark ML中的StandardScaler实现此功能，通过`.setInputCol`、`.setOutputCol`等方法配置并应用到DataFrame数据。示例展示了如何在Spark中使用StandardScaler进行数据规范化，包括创建SparkSession，构建DataFrame，使用VectorAssembler和StandardScaler，以及将向量拆分为列。规范化有助于降低特征重要性，提高模型训练速度和计算效率。
05.26 19:20:39

发表了文章 2024-05-26 19:20:39

【机器学习】Spark ML 对数据特征进行 One-Hot 编码

One-Hot 编码是机器学习中将离散特征转换为数值表示的方法，每个取值映射为一个二进制向量，常用于避免特征间大小关系影响模型。Spark ML 提供 OneHotEncoder 进行编码，输入输出列可通过 `inputCol` 和 `outputCol` 参数设置。在示例中，先用 StringIndexer 对类别特征编码，再用 OneHotEncoder 转换，最后展示编码结果。注意 One-Hot 编码可能导致高维问题，可结合实际情况选择编码方式。
05.26 19:20:03

发表了文章 2024-05-26 19:20:03

【指标计算】Spark 计算指定用户与其他用户购买的相同商品

该代码示例使用Spark SQL解决查找指定用户（user01）与其他用户共同购买商品的问题。首先，创建SparkSession和模拟购买数据，然后通过SQL查询获取user01购买的商品集合。接着，对比所有用户购买记录，筛选出购买过相同商品且非user01的用户。输出显示了这些匹配用户的商品ID。关键在于使用`array_contains`函数检查商品是否在指定用户的购买列表中。遇到类似需求时，可参考Spark SQL官方函数文档。欢迎讨论复杂指标计算问题。
05.26 19:19:20

发表了文章 2024-05-26 19:19:20

Caused by: java.lang.ClassNotFoundException: com.fasterxml.jackson.core.exc.InputCoercionException

添加依赖
05.26 19:18:49

发表了文章 2024-05-26 19:18:49

IDEA 提交代码到 GitHub 时发生错误

摘要：在遇到访问 GitHub 时的错误,这两个命令分别用于处理 SSL 连接问题和连接超时问题。
05.26 19:17:38

发表了文章 2024-05-26 19:17:38

DataGrip 配置 HiveServer2 远程连接访问（含账号密码验证）

该文档介绍了如何为HiveServer2配置账号密码鉴权。提供了一个名为`CustomPasswdAuthenticator`的Java类实现`PasswdAuthenticationProvider`接口，用于验证HiveServer2的用户名和密码。此外，还给出了相关依赖的Maven配置，并说明了如何将编译后的Jar包放入Hive的库中。在Hive的`hive-site.xml`和Hadoop的`core-site.xml`中需配置相应的参数以启用自定义认证。文档还列举了可能遇到的问题及解决方法，包括权限问题、数据插入错误和JVM内存溢出。
05.26 19:15:06

发表了文章 2024-05-26 19:15:06

Hive Cli / HiveServer2 中使用 dayofweek 函数引发的BUG！

在Hive 3.1.2和Spark 3.0.2集群环境中，遇到`dayofweek`函数bug。当`create_date`为字符串类型时，`dayofweek`函数结果错位。修复方法是将`create_date`转换为`date`类型。在Spark SQL中，原始代码能正常运行，未出现此问题。因此建议在Hive中使用转换后的日期类型以避免错误。
05.26 19:13:35

发表了文章 2024-05-26 19:13:35

Vmware 虚拟机挂起恢复后发现无法 Ping 通，无法连接到主机

在Linux主机上，以`root`用户停止NetworkManager服务并重启网络： ```shell systemctl stop NetworkManager systemctl restart network ``` 或修改网卡配置文件`ifcfg-ens33`，添加`NM_CONTROLLED="no"`，然后重启`network`服务： ```shell vim /etc/sysconfig/network-scripts/ifcfg-ens33 systemctl restart network ```
05.26 19:12:45

发表了文章 2024-05-26 19:12:45

Hadoop Yarn 核心调优参数

这是一个关于测试集群环境的配置说明，包括3台服务器（master, slave1, slave2）运行CentOS 7.5，每台有4核CPU和4GB内存。集群使用Hadoop 3.1.3，JDK1.8。Yarn核心配置涉及调度器选择、ResourceManager线程数、节点检测、逻辑处理器使用、核心转换乘数、NodeManager内存和CPU设置，以及容器的内存和CPU限制。配置完成后，需要重启Hadoop并检查yarn配置。
05.26 19:11:57

发表了文章 2024-05-26 19:11:57

Hadoop Yarn 配置多队列的容量调度器

配置Hadoop多队列容量调度器，编辑`capacity-scheduler.xml`，新增`hive`队列，`default`队列占总内存40%，最大60%；`hive`队列占60%，最大80%。配置包括队列容量、用户权限和应用生存时间等，配置后使用`yarn rmadmin -refreshQueues`刷新队列，无需重启集群。多队列配置可在Yarn WEB界面查看。
05.26 19:11:04

发表了文章 2024-05-26 19:11:04

NameNode 处理线程配置（心跳并发）

NameNode线程池处理客户端和数据节点请求，如读写文件及心跳、块报告。通过调整`dfs.namenode.handler.count`（默认10，示例设为21）在`hdfs-site.xml`中可控制并发处理能力。线程数过多或过少都可能影响性能，需平衡资源使用并进行基准测试以确定最佳值。合理线程数可通过公式`int(math.log(N) * 20)`计算，N为服务器数量。例如，3台服务器的计算结果为21。
05.26 19:10:11

发表了文章 2024-05-26 19:10:11

HDFS 集群读写压测

在虚拟机中配置集群时，需设置每台服务器网络为百兆，以模拟实际网络环境。使用Hadoop的`TestDFSIO`进行HDFS性能测试，包括写入和读取数据。写测试中，创建11个128MB文件，平均写入速度为3.86 MB/sec，总处理数据量1408 MB，测试时间137.46秒。资源分配合理，传输速度超过单台服务器理论最大值12.5M/s，说明网络资源已充分利用。读测试主要依赖硬盘传输速率，速度快。测试完成后使用`TestDFSIO -clean`删除测试数据。
05.26 19:09:04

发表了文章 2024-05-26 19:09:04

NameNode 故障无法重新启动解决方法

当NameNode进程挂掉时，若无数据丢失，可直接使用`hdfs --daemon start namenode`重启。但若数据丢失，需从SecondaryNameNode恢复。首先查看启动日志，确认因数据丢失导致的未启动成功问题。接着，将SecondaryNameNode的备份数据拷贝至NameNode的数据存储目录，目录路径在`core-site.xml`中设定。进入NameNode节点，使用`scp`命令从SecondaryNameNode复制数据后，重启NameNode进程，故障即可修复。
05.26 19:07:09

发表了文章 2024-05-26 19:07:09

Hadoop 集群一直处于安全模式，强制退出后出现数据丢失警告。解决方法

本文介绍了Hadoop集群安全模式的相关命令和问题解决。当集群处于安全模式时，可使用`hdfs dfsadmin -safemode get`检查状态，`enter`进入，`leave`或`forceExit`离开。若因数据块不一致导致安全模式持续，可通过强制退出，然后删除丢失数据块的文件以恢复正常。如果遇到权限问题，可以使用`chmod`授权或关闭HDFS权限验证（不推荐），配置修改后需重启集群生效。
05.26 19:06:11

发表了文章 2024-05-26 19:06:11

Hadoop 集群小文件归档 HAR、小文件优化 Uber 模式

该文介绍了Hadoop中两种小文件管理策略。首先，通过Hadoop Archive (HAR)将小文件归档成大文件以减少存储和管理开销。操作包括使用`hadoop archive`命令进行归档和解档。其次，文章讨论了小文件优化的Uber模式，这种模式在同一JVM中运行所有MapReduce任务以提高效率和局部性，但可能引发单点故障和资源限制问题。启用Uber模式需在`mapred-site.xml`配置文件中设置相关参数。文中还提供了使用WordCount例子验证Uber模式配置的步骤。
05.26 19:04:39

发表了文章 2024-05-26 19:04:39

Hadoop MapReduce 调优参数

对于 Hadoop v3.1.3，针对三台4核4G服务器的MapReduce调优参数包括：`mapreduce.reduce.shuffle.parallelcopies`设为10以加速Shuffle，`mapreduce.reduce.shuffle.input.buffer.percent`和`mapreduce.reduce.shuffle.merge.percent`分别设为0.8以减少磁盘IO。
05.26 19:03:56

发表了文章 2024-05-26 19:03:56

一文看懂 Hive 优化大全（参数配置、语法优化）

以下是对提供的内容的摘要，总长度为240个字符：在Hadoop集群中，服务器环境包括3台机器，分别运行不同的服务，如NodeManager、DataNode、NameNode等。集群组件版本包括jdk 1.8、mysql 5.7、hadoop 3.1.3和hive 3.1.2。文章讨论了YARN的配置优化，如`yarn.nodemanager.resource.memory-mb`、`yarn.nodemanager.vmem-check-enabled`和`hive.map.aggr`等参数，以及Map-Side聚合优化、Map Join和Bucket Map Join。
05.26 19:00:09

发表了文章 2024-05-26 19:00:09

Hive 表注释乱码解决

Hive元数据在MySQL默认使用`latin1`字符集导致注释乱码。可通过修改MySQL配置文件`/etc/my.cnf`，在`[mysqld]`和末尾添加`character-set-server=utf8`等设置，重启MySQL。然后在Hive数据库中调整表字段、分区字段、索引注释的字符集。注意，这仅对新表生效。测试创建带注释的Hive表，问题解决。
05.26 18:59:04

发表了文章 2024-05-26 18:59:04

Hive 和 HDFS、MySQL 之间的关系

Hive是Hadoop上的数据仓库工具，用HiveQL进行大数据查询；HDFS是分布式文件系统，用于存储大规模数据，常与Hive结合，提供数据存储和高可靠性。MySQL是RDBMS，适用于结构化数据管理，在大数据环境里可存储Hive的元数据，提升查询效率和元数据管理。三者协同处理数据管理和分析任务。
05.26 18:58:23

发表了文章 2024-05-26 18:58:23

【Hive SQL 每日一题】统计用户连续下单的日期区间

该SQL代码用于统计用户连续下单的日期区间。首先按`user_id`和`order_date`分组并去除重复，然后使用`row_number()`标记行号，并通过`date_sub`与行号计算潜在的连续日期。接着按用户ID和计算后的日期分组，排除连续订单数少于2的情况，最后提取连续下单的起始和结束日期。输出结果展示了用户连续下单的日期范围。
05.26 18:57:36

发表了文章 2024-05-26 18:57:36

Zookeeper 启动失败【Cannot open channel to 3 at election address...】

解决Hadoop Zookeeper连接问题：检查Zookeeper目录权限，使用`sudo chown -R username:username /your_zookeeper_path`授权。确保`zoo.cfg`配置`quorumListenOnAllIPs=true`并监听所有IP。关键是机器ID（如`server.0`, `server.1`等）需与IP或主机名对应，修正`zoo.cfg`中的设置，例如`server.0=hadoop120:2888:3888`等。重启Zookeeper后，问题解决。
05.26 18:56:30

发表了文章 2024-05-26 18:56:30

Maxwell 概述、安装、数据同步【一篇搞定】！

Maxwell 是一个由 Zendesk 开源的用于 MySQL 数据库实时数据捕获和同步的工具，支持多种数据库系统，以 JSON 格式输出变更数据。它实时监控数据库中的更新，将变化传递给其他系统，常用于实时数据管道、数据仓库和事件驱动架构。Maxwell 具有实时性、可配置性和高性能等特点。其工作流程包括 Binlog 解析、数据解析、重构、发布到消息队列（如 Kafka）以及事件处理。安装时需注意 JDK 版本，并配置 MySQL、Zookeeper 和 Kafka。此外，Maxwell 支持定向监听特定库表，并能进行历史和增量数据同步。
05.26 17:40:06

发表了文章 2024-05-26 17:40:06

DataX 概述、部署、数据同步运用示例

DataX是阿里巴巴开源的离线数据同步工具，支持多种数据源之间的高效传输。其特点是多数据源支持、可扩展性、灵活配置、高效传输、任务调度监控和活跃的开源社区支持。DataX通过Reader和Writer插件实现数据源的读取和写入，采用Framework+plugin架构。部署简单，解压即可用。示例展示了如何配置DataX同步MySQL到HDFS，并提供了速度和内存优化建议。此外，还解决了NULL值同步问题及配置文件变量传参的方法。
05.26 17:34:54

发表了文章 2024-05-26 17:34:54

Git 快速入门

初始化Git仓库、移除远程仓库连接、添加新远程仓库如`https://gitee.com/xxx.git`，使用`git pull --rebase`同步、`git add .`添加改动、`git commit -m "message"`提交，放弃提交用`git reset --hard`，最后`git push origin master`推送至远程主分支。
05.26 17:33:22

发表了文章 2024-05-26 17:33:22

Ubuntu 20.04 安装部署 TiDB DM v7.3.0 集群【全网独家】

在Ubuntu上搭建TiDB DM集群的详细步骤分享，作者因工作需求克服了部署难题。测试环境包括3台Ubuntu 20.04主机：1台master和2台worker。首先，确保所有主机安装TiDB单机环境，使用TiUP工具下载并部署。接着，设置主机间免密登录，安装必要组件如sudo、systemd、iproute2和DM组件。配置文件可通过在线或离线方式获取。部署时，根据需求编辑`topology.yaml`，然后使用`tiup dm deploy`命令安装。最后，启动集群并检查节点状态，确认DM集群正常运行。注意，解决内存不足和端口连通性问题以避免错误。
05.26 17:31:38

发表了文章 2024-05-26 17:31:38

Ubuntu 20.04 卸载与安装 MySQL 5.7 详细教程

该文档提供了在Ubuntu上卸载和安装MySQL 5.7的步骤。首先，通过`apt`命令卸载所有MySQL相关软件包及配置。然后，下载特定版本（5.7.32）的MySQL安装包，解压并安装所需依赖。接着，按照特定顺序安装解压后的deb包，并在安装过程中设置root用户的密码。安装完成后，启动MySQL服务，连接数据库并验证。最后，提到了开启GTID和二进制日志的配置方法。
05.26 17:28:42

发表了文章 2024-05-26 17:28:42

Ubuntu 报错：System has not been booted with systemd as init system (PID 1). Can‘t operate.

系统未使用 `systemd` 初始化导致错误。解决方法是通过 `apt` 安装。首先备份并更换`sources.list`，添加阿里云镜像源，然后更新源并以管理员权限运行 `apt-get install systemd -y` 和 `apt-get install systemctl -y` 安装所需组件。
05.26 17:21:37

发表了文章 2024-05-26 17:21:37

ARM 堆栈寻址类型区分

该文介绍了堆栈的两种指向分类：向上生成型（递增堆栈）和向下生成型（递减堆栈），以及堆栈的两种数据状态：满堆栈（指针指向最后数据）和空堆栈（指针指向存放数据的位置）。满递增和满递减是在完整数据单元上操作，而空递增和空递减则允许自定义步长。文中通过图示说明了不同情况下的堆栈存储方式。
05.26 17:20:36

发表了文章 2024-05-26 17:20:36

【Hive SQL 每日一题】环比增长率、环比增长率、复合增长率

该文介绍了环比增长率、同比增长率和复合增长率的概念及计算公式，并提供了SQL代码示例来计算商品的月度增长率。环比增长率是相邻两期数据的增长率，同比增长率是与去年同期相比的增长率，复合增长率则是连续时间段内平均增长的速率。文章还包含了一组销售数据用于演示如何运用这些增长率进行计算。
05.26 17:19:54

发表了文章 2024-05-26 17:19:54

【Hive SQL】字符串操作函数你真的会用吗？

本文介绍了SQL中判断字符串是否包含子串的几种方法。`IN`函数判断元素是否完全等于给定元素组中的某项，而非包含关系。`INSTR`和`LOCATE`函数返回子串在字符串中首次出现的位置，用于检测是否存在子串。`SUBSTR`则用于提取字符串的子串。`LIKE`用于模糊匹配，常与通配符配合使用。注意`IN`并非用于判断子串包含。
05.26 17:18:41

发表了文章 2024-05-26 17:18:41

Flume 快速入门【概述、安装、拦截器】

Apache Flume 是一个开源的数据采集工具，用于从各种数据源（如日志、网络数据、消息队列）收集大规模数据，并将其传输和加载到数据存储系统（如 HDFS、HBase、Hive）。Flume 由数据源（Source）、通道（Channel）、拦截器（Interceptor）和接收器（Sink）组成，支持灵活配置以适应不同的数据流处理需求。安装 Flume 包括解压软件包、配置环境变量和调整日志及内存设置。配置文件定义数据源、通道、拦截器和接收器，拦截器允许预处理数据。Flume 适用于构建数据管道，整合分散数据到中心存储系统，便于分析和报告。
05.26 17:12:42

发表了文章 2024-05-26 17:12:42

Hive 解析 JSON 字符串数据的实现方式

Hive 提供 `get_json_object` 函数解析 JSON 字符串，如 `{"database":"maxwell"}`。`path` 参数使用 `$`、`.`、`[]` 和 `*` 来提取数据。示例中展示了如何解析复杂 JSON 并存储到表中。此外，Hive 3.0.0及以上版本内置 `JsonSerDe` 支持直接处理 JSON 文件，无需手动解析。创建表时指定 `JsonSerDe` 序列化器，并在 HDFS 上存放 JSON 文件，可以直接查询字段内容，方便快捷。
05.26 17:11:14

发表了文章 2024-05-26 17:11:14

大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

数据仓库建模是组织和设计数据以支持数据分析的过程，包括ER模型和维度建模。ER模型通过实体和关系描述数据结构，遵循三范式减少冗余。维度建模，特别是Kimball方法，用于数据仓库设计，便于分析和报告。事实表存储业务度量，如销售数据，分为累积、快照、事务和周期性快照类型。维度表提供描述性信息，如时间、产品、地点和客户详情。数仓通常分层为ODS(源数据)、DWD(明细数据)、DIM(公共维度)、DWS(数据汇总)和ADS(应用数据)，以优化数据管理、质量、查询性能和适应性。
05.26 11:44:08

发表了文章 2024-05-26 11:44:08

retry.RetryInvocationHandler: java.net.NoRouteToHostException: No Route to Host from hadoop100/192.

Error: NoRouteToHostException connecting hadoop100 to hadoop101. Possible causes include firewall issues or misconfigured IP mappings. Check firewall status with `ufw` (Ubuntu) or `firewalld` (CentOS), ensure correct hosts and hostname entries, and verify passwordless SS
05.26 11:42:57

发表了文章 2024-05-26 11:42:57

在 Linux 中通过 SSH 执行远程命令时，无法自动加载环境变量（已解决）

SSH远程执行命令时遇到“命令未找到”问题，原因是Linux登录方式不同导致环境变量加载差异。解决方案：将环境变量写入`/etc/profile.d/`下的文件，或手动在命令前加载环境变量，如`source /etc/profile`。
05.26 11:40:09

发表了文章 2024-05-26 11:40:09

Linux（CentOS7.5）安装部署 Python3.6（超详细！包含 Yum 源配置！）

该指南介绍了在Linux系统中配置Yum源和安装Python3的步骤。首先，通过`yum install`和`wget`命令更新和备份Yum源，并从阿里云获取CentOS和EPEL的repo文件。接着，清理和更新Yum缓存。然后，下载Python3源代码包，推荐使用阿里云镜像加速。解压后，安装必要的依赖，如gcc。在配置和编译Python3时，可能需要解决缺少C编译器的问题。完成安装后，创建Python3和pip3的软链接，并更新环境变量。最后，验证Python3安装成功，并可选地升级pip和配置pip源以提高包下载速度。
05.26 11:37:20

发表了文章 2024-05-26 11:37:20

Flume 配置文件编写技巧（包会的，抄就完了）

本文介绍了Apache Flume的基础配置，包括数据源(Source)、数据通道(Channel)和数据处理器(Sink)三大部分。配置文件编写流程包括查阅官方文档、参考样例配置、实际操作配置。文章提供了一个经典例子，展示如何从本地端口收集数据并通过内存通道缓冲，最终记录到日志。配置流程包括声明组件、配置Source、Sink和Channel，然后将它们绑定。通过示例展示了如何配置HTTP Source和HDFS Sink，并给出了完整的配置文件示例及测试步骤，帮助读者理解Flume配置文件的编写。
05.26 11:33:39

发表了文章 2024-05-26 11:33:39

Flume 拦截器概念及自定义拦截器的运用

Apache Flume 的拦截器是事件处理组件，位于Source和Channel之间，用于在写入Channel前对数据进行转换、提取或删除。它们支持数据处理和转换、数据增强、数据过滤以及监控和日志功能。要创建自定义拦截器，需实现Interceptor接口，包含initialize、intercept、intercept(List<Event>)和close方法。配置拦截器时，通过Builder模式实现Interceptor.Builder接口。在Flume配置文件中指定拦截器全类名，如`TestInterceptor$Builder`，然后启动Flume进行测试。
05.26 11:30:55

发表了文章 2024-05-26 11:30:55

org.apache.hadoop.security.AccessControlException Permission denied: user=anonymous, access=WRITE...

在尝试通过 HiveServer2 远程执行 DDL 操作时遇到权限错误，错误信息显示匿名用户（`anonymous`）无权执行写操作。解决方案包括：1) 使用 `hdfs dfs -chmod -R +777 /warehouse` 给目录授权（不推荐，仅适用于测试环境）；2) 配置 Hive 和 Hadoop，创建具有权限的用户，如 `ad`，并将该用户添加到 Hive 的管理员角色和 Hadoop 的 proxyuser 配置中，然后重启相关服务。通过 `beeline` 测试连接和操作，确认权限问题已解决。
05.26 11:27:15

发表了文章 2024-05-26 11:27:15

Hive 之 UDF 运用（包会的）

Hive的UDF允许用户自定义数据处理函数，扩展其功能。`reflect()`函数通过Java反射调用JDK中的方法，如静态或实例方法。例如，调用`MathUtils.addNumbers()`进行加法运算。要创建自定义UDF，可以继承`GenericUDF`，实现`initialize`、`evaluate`和`getDisplayString`方法。在`initialize`中检查参数类型，在`evaluate`中执行业务逻辑。最后，打包项目成JAR，上传到HDFS，并在Hive中注册以供使用。
05.26 11:23:37

发表了文章 2024-05-26 11:23:37

IDEA 打包 Spark 项目 POM 文件依赖

这是一个 Maven POM 示例，用于构建一个使用 Spark 与 Hive 的项目，目标是将数据从 Hive 导入 ClickHouse。POM 文件设置了 Scala 和 Spark 的依赖，包括 `spark-core_2.12`, `spark-sql_2.12`, 和 `spark-hive_2.12`。`maven-assembly-plugin` 插件用于打包，生成包含依赖的和不含依赖的两种 JAR 包。`scope` 说明了依赖的使用范围，如 `compile`（默认），`provided`，`runtime`，`test` 和 `system`。

发表了文章 2024-05-26

Spark 分析计算连续三周登录的用户数
发表了文章 2024-05-26

HBase 相关面试题
发表了文章 2024-05-26

Exception in thread “main“ java.io.IOException: No FileSystem for scheme: hdfs
发表了文章 2024-05-26

HBase Shell-org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 已解决
发表了文章 2024-05-26

大数据之 Solr 集群搭建
发表了文章 2024-05-26

Hive 求多个字段的中位数（按行求中位数）
发表了文章 2024-05-26

大数据用户画像之基本概念
发表了文章 2024-05-26

Cannot request memory (Xms 65536 kb, Xmx 270336 kb) from system for job test, sleep for 60 secs and
发表了文章 2024-05-26

使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常（字段错位）
发表了文章 2024-05-26

【机器学习】Spark ML 对数据特征进行 One-Hot 编码
发表了文章 2024-05-26

Caused by: java.lang.ClassNotFoundException: com.fasterxml.jackson.core.exc.InputCoercionException
发表了文章 2024-05-26

【指标计算】Spark 计算指定用户与其他用户购买的相同商品
发表了文章 2024-05-26

IDEA 提交代码到 GitHub 时发生错误
发表了文章 2024-05-26

Hadoop 集群一直处于安全模式，强制退出后出现数据丢失警告。解决方法
发表了文章 2024-05-26

【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分
发表了文章 2024-05-26

DataGrip 配置 HiveServer2 远程连接访问（含账号密码验证）
发表了文章 2024-05-26

Vmware 虚拟机挂起恢复后发现无法 Ping 通，无法连接到主机
发表了文章 2024-05-26

Hadoop Yarn 核心调优参数
发表了文章 2024-05-26

Hive Cli / HiveServer2 中使用 dayofweek 函数引发的BUG！
发表了文章 2024-05-26

NameNode 处理线程配置（心跳并发）

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

正在加载, 请稍后...

暂无更多信息

kng32f3vbngrm_社区达人页

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

勋章 更多

成就

我关注的人 更多

粉丝 更多

技术能力

Spark 分析计算连续三周登录的用户数

HBase 相关面试题

Exception in thread “main“ java.io.IOException: No FileSystem for scheme: hdfs

HBase Shell-org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 已解决

大数据之 Solr 集群搭建

Hive 求多个字段的中位数（按行求中位数）

大数据用户画像之基本概念

Cannot request memory (Xms 65536 kb, Xmx 270336 kb) from system for job test, sleep for 60 secs and

使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常（字段错位）

【机器学习】Spark ML 对数据特征进行 One-Hot 编码

Caused by: java.lang.ClassNotFoundException: com.fasterxml.jackson.core.exc.InputCoercionException

【指标计算】Spark 计算指定用户与其他用户购买的相同商品

IDEA 提交代码到 GitHub 时发生错误

Hadoop 集群一直处于安全模式，强制退出后出现数据丢失警告。解决方法

【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分

DataGrip 配置 HiveServer2 远程连接访问（含账号密码验证）

Vmware 虚拟机挂起恢复后发现无法 Ping 通，无法连接到主机

Hadoop Yarn 核心调优参数

Hive Cli / HiveServer2 中使用 dayofweek 函数引发的BUG！

NameNode 处理线程配置（心跳并发）

勋章更多

我关注的人更多

粉丝更多