网站流量日志分析--数据导出--增量数据导出详解 | 学习笔记

简介: 快速学习网站流量日志分析--数据导出--增量数据导出详解

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第五阶段):网站流量日志分析--数据导出--增量数据导出详解】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/697/detail/12247


网站流量日志分析--数据导出--增量数据导出详解

增量导数据到 mysql

应用场景:

将 Hive 表中的增量记录同步到目标表中

使用技术:

使用 sqoopexport 中 -update-mode 的 allowinsert 模式进行增量数据导入目标表中。该模式用于将 Hive中有但目标表中无的记录同步到目标表中,但同时也会同步不一致的记录。

实现逻辑:

以 dw_webflow_basic_info 基础信息指标表为例进行增量导出操作。

1. Mysql 手动创建目标表

打开终端,使用 select 粘贴dw_webflow_basic_info,复制表格信息至 Notpad ;查看表格,其中有具体的月份、日期、pv、uv、ip 及分区等

使用 Navicat Premium,复制以下代码并右键进行执行

create table dw webflow basic info(

monthstr varchar(20),

daystr  varchar(10),

pv bigint,

uv bigint

ip bigint,

vv  bigint

)

2. 先执行全量导入,把当前的 hive 中 2018101 分区数据全部导出至 mysql 中

浏览器打开 Browse Directory,导出数据;在 SecureCRT 中可利用 desc formatted 直接导出 ;其中 Location 选项中显示出其具体路径;复制该路径并加上分区目录。

导出数据后刷新并检查所导出数据是否正确

bin/sqoopexport \

--connect jdbc:mysgl://node-1:3306/weblog\

--username root--password hadoop \

--table_dw_webflow_basic info\

--fields-terminated-by’\001’\

--export-dir/user/hive/warehouse/itheimadb/dwwebflowbasicinfo/datestr=20181101/

3. 为方便演示,手动生成往 hive 中添加 20181103 的数据

insert into table dw webflow basic info

partition(datestr=20181103" )

values{‘’201811’’,’’03’’14250,1341,1341,96}刷新后产生新一组数据,即产生增量数据。导出末尾为03的数据,且原数据01保持不动。

4. Sqoop 增量导出

运用参数进行控制

bin/sqoop export\

--connect jdbc:mysql://node-1:3306/weblog\

--username root\

--password hadoop\

--table dw_webflow_basic_info\

--fields-terminated-by’\001'\

--update-key monthstr,daystr\

--update-mode allowinsert\

--export-dir/user/hive/warehouse/itheima.db/dw_webflow_basic_info/datestr=20181103/

其中 --update-mode allowinsert\ 叫做增量更新模式;

--update-key monthstr,daystr\ 用于指定更新时间差的判断依据,可以多个字段,中间用逗号分隔;

如果检查的字段在 hive 中有更新,mysql 目标表中没有,那么 sqoop 就会执行更新操作。

导入成功后刷新进行检验,每天均会产生数据,则该数据会日日更新,即完成了增量操作。

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
9月前
|
存储 SQL Oracle
|
9月前
|
人工智能 运维 监控
一招高效解析 Access Log,轻松应对泼天流量
一招高效解析 Access Log,轻松应对泼天流量
174 0
一招高效解析 Access Log,轻松应对泼天流量
|
PyTorch 算法框架/工具
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
本文介绍了PyTorch中的F.softmax()和F.log_softmax()函数的语法、参数和使用示例,解释了它们在进行归一化处理时的作用和区别。
1352 1
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
|
jenkins 持续交付
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
【Azure Policy】分享Policy实现对Azure Activity Log导出到Log A workspace中
在Policy Rule部分中,选择资源的类型为 "Microsoft.Resources/subscriptions", 效果使用 DeployIfNotExists (如果不存在,则通过修复任务进行修正。 在 existenceCondition 条件中,如果当前订阅已经启用了 diagnostic setting并且输出日志到同一个Log A workspace,表示满足Policy要求,不需要进行修正。 在 deployment 中,使用了 ARM 模板, 为订阅添加Diagnostic Setting并且所有的日志Category均启用。
121 3
|
监控 网络协议 CDN
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
|
SQL 关系型数据库 MySQL
Hadoop-25 Sqoop迁移 增量数据导入 CDC 变化数据捕获 差量同步数据 触发器 快照 日志
Hadoop-25 Sqoop迁移 增量数据导入 CDC 变化数据捕获 差量同步数据 触发器 快照 日志
177 0
|
监控 数据管理 关系型数据库
数据管理DMS使用问题之是否支持将操作日志导出至阿里云日志服务(SLS)
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
|
SQL DataWorks Oracle
DataWorks产品使用合集之datax解析oracle增量log日志该如何操作
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
178 0