MaxCompute 异构数据源与非结构化数据处理 | 学习笔记

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习 MaxCompute 异构数据源与非结构化数据处理

开发者学堂课程【SaaS  模式云数据仓库系列课程 —— 2021数仓必修课 MaxCompute  异构数据源与非结构化数据处理】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/55/detail/1048


MaxCompute  异构数据源与非结构化数据处理

 

主要内容:

一、MaxCompute  外部表概述

二、功能和特点介绍

三、常见使用场景

四、代码示例

 


一、MaxCompute  外部表概述

MaxCompute  外部表解决什么问题?

通过建立外部表,可以在  MaxCompute  中关联异构数据(oss  等云存储)中的数据,从而轻松的使用  sSQL  对这些数据进行分析和处理。

 


二、功能和特点介绍

云存储与  MaxCompute SQL  无缝对接

●使用  Hive  兼容的  DDL  语句建立外表

●支持  OSS  和  TableStore

●复用持续优化的高性能  MaxCompute SQL  引擎进行计算

●除数据存储在异构数据源以外,其他操作与内部表无异

●外表  JOIN 外表、外表   JOIN  内部表一实现异构数据关联

支持多种数据格式

● CSV、TSV  等文本格式

● JSON

●压缩文本

●广泛使用的开源格式

●ORC

●Parquet

 

直接访问云存储数据

●不加载数据,没有 ETL  过程

●按数据的原始格式查询数据

●自动并行处理,无需关心分布式处理细节

●计算节点直接访问,避免数据进行额外传输的性能损耗

 

三、常见使用场景

使用场景样例

●高性能的数据导入导出

●追求更高性能计算∶一条简单的  CREATE TABLE AS  语句将外表数据导入到MaxCompute

●TableStore  数据全量备份到  MaxCompute  或者  OSS

●MaxCompute  冷数据备份到  OSS

●数据分析∶ 即席查询  OSS/TableStore  中的数据

●将OSS  文本数据转为   ORC、Parquet  列存储格式提高查询性能和节省存储成本

 


四、代码示例

●非结构化数据处理

代码示例∶存储在  OSS  上的  CSV  数据即席查询

通过外部表  (EXTERNAL TABLE),描述数据的存储位置(OSS)和处理方(CSV)

直接对数据进行读取,抽取出的数据可直接参数与SQL运算,无缝连接

 image.png

即席查询  TableStore  中的数据

image.png 

高级特性∶

使用  Java  扩展支持任意非结构化数据。

 image.png

 

Java SDK  接口∶

以Extractor  为例

image.png 

 

 

非结构化数据处理示例1∶

处理存储在  OSS  上的语音数据

image.png

 

非结构化示例2:图像处理

image.jpeg

 

MaxCompute  外表总结

支持多种异构数据源

●Oss

●TableStore

支持多种数据格式

●CSV、TSV  等文本数据

●ORC、Parquet  等开源格式数据

高自由度的扩展特性

●使用  Java  扩展自定义格式处理任意非结构化数据 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
消息中间件 分布式计算 关系型数据库
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
74 0
|
2月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
135 4
|
2月前
|
数据采集 算法 大数据
大数据中噪声数据处理
【10月更文挑战第20天】
534 2
|
3月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
88 0
|
5月前
|
分布式计算 大数据 分布式数据库
"揭秘HBase MapReduce高效数据处理秘诀:四步实战攻略,让你轻松玩转大数据分析!"
【8月更文挑战第17天】大数据时代,HBase以高性能、可扩展性成为关键的数据存储解决方案。结合MapReduce分布式计算框架,能高效处理HBase中的大规模数据。本文通过实例展示如何配置HBase集群、编写Map和Reduce函数,以及运行MapReduce作业来计算HBase某列的平均值。此过程不仅限于简单的统计分析,还可扩展至更复杂的数据处理任务,为企业提供强有力的大数据技术支持。
94 1
|
5月前
|
分布式计算 Hadoop 大数据
Spark 与 Hadoop 的大数据之战:一场惊心动魄的技术较量,决定数据处理的霸权归属!
【8月更文挑战第7天】无论是 Spark 的高效内存计算,还是 Hadoop 的大规模数据存储和处理能力,它们都为大数据的发展做出了重要贡献。
104 2
|
5月前
|
存储 分布式计算 大数据
惊了!大数据时代来袭,传统数据处理OUT了?创新应用让你眼界大开,看完这篇秒变专家!
【8月更文挑战第6天】在数据爆炸的时代,高效利用大数据成为关键挑战与机遇。传统数据处理手段难以胜任现今海量数据的需求。新兴的大数据技术,如HDFS、NoSQL及MapReduce、Spark等框架,为大规模数据存储与处理提供了高效解决方案。例如,Spark能通过分布式计算极大提升处理速度。这些技术不仅革新了数据处理方式,还在金融、电商等领域催生了风险识别、市场预测及个性化推荐等创新应用。
127 1
|
5月前
|
存储 分布式计算 NoSQL
惊呆了!大数据处理竟然这么牛?挑战与机遇并存,看完这篇,你也能成为数据处理大师!
【8月更文挑战第6天】信息时代中,数据成为关键资源。企业需分析海量数据洞察市场、优化流程、提效决策。面对TB乃至PB级数据量及其多样性与复杂性的挑战,HDFS与NoSQL确保高效存储,而MapReduce和Spark等框架支持分布式计算,大幅提升处理效率。在金融、电商和医疗等领域,大数据正推动风险识别、精准营销与精准医疗等应用的发展,展现广阔前景。
88 1
|
5月前
|
存储 运维 Cloud Native
"Flink+Paimon:阿里云大数据云原生运维数仓的创新实践,引领实时数据处理新纪元"
【8月更文挑战第2天】Flink+Paimon在阿里云大数据云原生运维数仓的实践
306 3
|
5月前
|
大数据 数据处理 分布式计算
JSF 逆袭大数据江湖!看前端框架如何挑战数据处理极限?揭秘这场技术与勇气的较量!
【8月更文挑战第31天】在信息爆炸时代,大数据已成为企业和政府决策的关键。JavaServer Faces(JSF)作为标准的 Java Web 框架,如何与大数据技术结合,高效处理大规模数据集?本文探讨大数据的挑战与机遇,介绍 JSF 与 Hadoop、Apache Spark 等技术的融合,展示其实现高效数据存储和处理的潜力,并提供示例代码,助您构建强大的大数据系统。
71 0

热门文章

最新文章