实用干货!大数据入门的常用技术栈全在这里了

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据自 2009 年走向人们的视野,亦如所有新技术的发展,经历了一波炒作后,由风口回归理性发展。我们可以看到,随着 IOT 技术的发展和成熟,以及 5G 业务的全面铺开,数据规模还将持续增长。新晋技术风口 AI、区块链、RPA 的发展也都离不开大数据技术。大数据技术将作为一项基础技术,应用在各个角落。

转自: Cassandra技术社区
原文链接:https://mp.weixin.qq.com/s/Wv_DTdqLp7ExENNZefx4SQ

大数据自 2009 年走向人们的视野,亦如所有新技术的发展,经历了一波炒作后,由风口回归理性发展。我们可以看到,随着 IOT 技术的发展和成熟,以及 5G 业务的全面铺开,数据规模还将持续增长。新晋技术风口 AI、区块链、RPA 的发展也都离不开大数据技术。大数据技术将作为一项基础技术,应用在各个角落。

同时,大数据技术也由解决数据规模问题,发展到如何更高效地消费大数据,数据的实时性、云上迁移等成为大数据圈的新挑战。我们挑选了一些能应对这些新挑战的有代表性的技术栈,绘制了如下大数据圈生态图,并在下文对主流的技术栈进行了介绍:

image.png

image.png
OLAP 分析引擎:Apache Kylin™
Apache Kylin™ 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,与多种数据可视化工具(如 Tableau,Power BI 等)的整合能力。Apache Kylin™ 已被eBay、腾讯、美团点评、滴滴等全球上千家企业采用。
Apache Kylin™ 仅需三步,即可实现超大数据集上的亚秒级查询:
1.定义数据集上的一个星形或雪花形模型
2.在定义的数据表上构建 Cube
3.使用标准 SQL 通过 ODBC、JDBC 或 RESTFUL API 进行查询

image.png
新一代大数据计算引擎:Apache Flink
Apache Flink 能够以高吞吐低延时的优异实时计算能力帮助企业和开发者实现数据算力升级,支持海量数据的亚秒级快速响应。随着 Flink 1.9 版本发布实现的架构升级、Table & SQL 的重构以及批、流数据处理的改进,Flink 的实时计算性能更加强大,易用性也有了极大提升。

image.png
下一代云原生分布式流数据平台:Apache Pulsar
Apache Pulsar 源于 Yahoo,2016 年开源,2018 年正式成为 Apache 顶级项目,集消息、存储和函数式轻量化计算的流数据平台。
技术上采用业界领先的计算和存储分离架构,使用 Apache BookKeeper 作为其分片存储,配合层级存储,具备“高吞吐、低延时、分布式强一致、瞬时弹性扩容、Balance-Free、故障自恢复的高可用” 等核心特性。

image.png
开源的非关系型分布式数据库:Apache HBase
Apache HBase 是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌 BigTable 的开源实现,主要用来存储非结构化和半结构化的松散数据。HBase 的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过 10 亿行数据和数百万列元素组成的数据表。

image.png
开源分布式 NoSQL 数据库系统:Apache Cassandra
Apache Cassandra 最初由 Facebook 开发,于 2008 年开源。它集 Google BigTable 的数据模型与Amazon Dynamo的完全分布式架构于一身,表现出良好的可扩展性和性能。在数据库排行榜“DB-Engines Ranking”中位于宽列存储模型数据库第一名, 同时也被 Apple, eBay, Netflix, 360,饿了么等知名国内外公司广泛使用,是当下一种流行的分布式结构化数据存储方案。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
8月前
|
存储 分布式计算 Hadoop
大数据之hadoop3入门到精通(一)
大数据之hadoop3入门到精通(一)
325 1
|
7月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(3)
ODPS开发大全:入门篇
289 19
|
7月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(1)
ODPS开发大全:入门篇
591 14
|
8月前
|
分布式计算 Hadoop 分布式数据库
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
223 2
|
8月前
|
分布式计算 大数据 数据处理
Python入门与大数据处理环境配置指南
**Python入门与大数据处理环境配置** Python作为高级编程语言,因其简洁语法和丰富库资源,成为数据处理、AI和大数据分析首选。本文旨在介绍Python基础和环境配置,特别是针对大数据处理的环境搭建。首先,讲解Python语言基础,包括语言概述、基本语法(变量、数据类型、控制流语句、函数和模块)。接着,讨论如何安装Python环境,以及安装NumPy、Pandas等大数据处理库。对于大数据处理,可以选择本地环境或搭建分布式环境,如Hadoop和Spark,并提供相关API示例。最后,列出环境配置中可能遇到的问题及解决方案,如版本不兼容、库安装失败等,并提供参考资料以供深入学习。
203 3
|
6月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
6月前
|
SQL 存储 分布式计算
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
880 0
|
7月前
|
SQL 分布式计算 MaxCompute
ODPS开发大全:入门篇(2)
ODPS开发大全:入门篇
213 14
|
6月前
|
分布式计算 大数据 Java
Scala 入门指南:从零开始的大数据开发
Scala 入门指南:从零开始的大数据开发
|
7月前
|
存储 SQL 机器学习/深度学习
阿里云数加大数据计算服务MaxCompute学习路线图:从入门到精通
将所学知识应用于实际工作中并不断进行实践和创新是提升技术能力的关键所在。用户可以结合业务需求和技术发展趋势积极探索新的应用场景和解决方案,并在实践中不断总结经验和教训以提升自己的技术水平和实践能力。