助力工业物联网,工业大数据之DWD层构建:数据抽取分析【十一】

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 助力工业物联网,工业大数据之DWD层构建:数据抽取分析【十一】

知识点18:DWD层构建:数据抽取分析

  • 目标实现DWD层的构建思路分析
  • 路径
  • step1:抽取目标
  • step2:抽取语法
  • 实施
  • 抽取目标:将ODS层中每张表的数据抽取到DWD层对应的数据表中
  • 抽取语法
insert overwrite table dwd.tbname partition(dt = '20210101')
select
  字段1,
  字段2,
  字段3,
  ……
from ods.tbname
where dt = '20210101';
  • 小结
  • 实现DWD层的构建思路分析

知识点19:DWD层构建:数据抽取测试

  • 目标实现DWD层数据抽取的测试
  • 路径
  • step1:代码讲解
  • step2:代码测试
  • 实施
  • 代码讲解
  • step1:如何获取所有表名?
  • 所有表名都在list中
  • step2:如何获取所有字段的信息?
  • 从Oracle中获取
  • 代码测试
  • 取消第6段代码的注释
  • 运行代码,查看结果
  • 小结
  • 实现DWD层数据抽取的测试

知识点20:整体代码重难点回顾

  • 目标掌握整体代码的重难点
  • 实施
  • 问题1:怎么读取表名的?
  • 表名:文件
  • FileUitil:读取文件
  • TableNameUtil:将表名拆分全量列表和增量列表
  • 问题2:怎么构建连接的?
  • Oracle:cx_Oracle
  • conn(hostname,port,username,password,sid)
  • Hive/SparkSQL:PyHive
  • conn(hostname,port,username,password)
  • 执行SQL规则
  • step1:必须构建一个连接
  • step2:从连接中获取游标,定义SQL
  • step3:使用游标执行SQL语句
  • step4:释放资源
  • 问题3:为什么要把连接地址写在文件里?
  • 开发规范
  • df.write.jdbc(url,table,properties)
  • 地址
  • 端口
  • 用户名
  • 密码
  • 表名
  • 问题4:怎么拼接SQL语句的?
  • 字符串的拼接
  • 问题5:怎么执行SQL语句的?
  • 游标:execute(SQL)
  • 问题6:怎么获取Oracle的表的信息的?
  • Oracle将每张表的每一列的信息都存储Oracle系统表中
  • 通过SQL就可以查询到表的这些信息
  • TableMeta:表的信息
  • 表名:String
  • 表的注释:String
  • 列的信息:List[ColumnMeta]
  • ColumnMeta:列的信息
  • 列名
  • 列注释
  • 列类型
  • 长度
  • 精度
  • 小结
  • 掌握整体代码的重难点


相关实践学习
钉钉群中如何接收IoT温控器数据告警通知
本实验主要介绍如何将温控器设备以MQTT协议接入IoT物联网平台,通过云产品流转到函数计算FC,调用钉钉群机器人API,实时推送温湿度消息到钉钉群。
阿里云AIoT物联网开发实战
本课程将由物联网专家带你熟悉阿里云AIoT物联网领域全套云产品,7天轻松搭建基于Arduino的端到端物联网场景应用。 开始学习前,请先开通下方两个云产品,让学习更流畅: IoT物联网平台:https://iot.console.aliyun.com/ LinkWAN物联网络管理平台:https://linkwan.console.aliyun.com/service-open
目录
相关文章
|
6天前
|
传感器 人工智能 大数据
高科技生命体征探测器、情绪感受器以及传感器背后的大数据平台在健康监测、生命体征检测领域的设想与系统构建
本系统由健康传感器、大数据云平台和脑机接口设备组成。传感器内置生命体征感应器、全球无线定位、人脸识别摄像头等,搜集超出现有科学认知的生命体征信息。云平台整合大数据、云计算与AI,处理并传输数据至接收者大脑芯片,实现实时健康监测。脑机接口设备通过先进通讯技术,实现对健康信息的实时感知与反馈,确保身份验证与数据安全。
|
2月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
572 7
|
2月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
71 2
|
16天前
|
分布式计算 Shell MaxCompute
odps测试表及大量数据构建测试
odps测试表及大量数据构建测试
|
3天前
|
数据采集 存储 分布式计算
解密大数据:从零开始了解数据海洋
解密大数据:从零开始了解数据海洋
38 17
|
20天前
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
19天前
|
SQL 存储 运维
从建模到运维:联犀如何完美融入时序数据库 TDengine 实现物联网数据流畅管理
本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品。文章从一个具体的业务场景出发,分析了企业在面对海量时序数据时的挑战,并提出了利用 TDengine 高效处理和存储数据的方法,帮助企业解决在数据采集、存储、分析等方面的痛点。通过这篇文章,作者不仅展示了自己对数据处理技术的理解,还进一步阐释了时序数据库在行业中的潜力与应用价值,为读者提供了很多实际的操作思路和技术选型的参考。
31 1
|
2月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
135 4
|
2月前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
35 4
|
2月前
|
人工智能 监控 物联网
深度探索人工智能与物联网的融合:构建未来智能生态系统###
在当今这个数据驱动的时代,人工智能(AI)与物联网(IoT)的深度融合正引领着一场前所未有的技术革命。本文旨在深入剖析这一融合背后的技术原理、探讨其在不同领域的应用实例及面临的挑战与机遇,为读者描绘一幅关于未来智能生态系统的宏伟蓝图。通过技术创新的视角,我们不仅揭示了AI与IoT结合的强大潜力,也展望了它们如何共同塑造一个更加高效、可持续且互联的世界。 ###

热门文章

最新文章