4.互联网、电商离线大数据分析最佳实践(一)|学习笔记

简介: 快速学习4.互联网、电商离线大数据分析最佳实践

开发者学堂课程【DataWorks一站式大数据开发治理平台精品课程:4.互联网、电商离线大数据分析最佳实践】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1252


4.互联网、电商离线大数据分析最佳实践(一 )

内容介绍

一、场景描述

二、实现架构

三、MaxCompute产品介绍

四、MaxCompute五大产品特性

五、MaxCompute优缺点

六、方案优势

七、操作

一、场景描述

电商网站销售数据通过大数据分析后将业务指标数据在大屏幕上展示,如销售指标、客户指标、销售排名、订单地区分布等。大屏上销售数据可视化动态展示,效果震撼,触控大屏支持用户自助查询数据,极大地增强数据的可读性。通过 maxcompute 里面进行一个etl,最后把数据通过 datav 展示出来。有一些场景满足7+1的这些需求就可以,没有特别实时性的要求,可就可以使用这个方案,也可以降低计算的成本。

1、适用场景

电商网站数据看板

全国/全球业务态势分析

互联网金融风险数据监控

最后通过阿里云组合的使用,搭建以下这种数据看板。

2、行业标签

这个方案是通过电商网站进行模拟的,实际上这个方案是一个通用的

方案

基本上可以应用在其他的行业,互联网、新零售、金融、通用,都是

针对离线场景做的。

3、产品标签

MaxCompute、RDS、ECS、Dataworks.DataV、VPC、EIP 等。


二、实现架构

架构说明

1、用户订单等数据同步到 MaxCompute.

2、通过 Dataworks 对原始数据进行处理并形成开放API。

3、需要展示的结果数据以API的形式通过 DataV 在大屏上展示。

是阿里云技术产品事业部业务支撑平台的解决方案架构师闲逛,下午跟分享的是互联网电商一线大数据分析首先会给介绍离线大数据分析的一个基本的业务场景,主要是会通过线上实操的方式完整的搭建这样的一套线上的环境通过 stepbystep 的一个操作,带着看这离线大数据分析如何通过阿里云的产品来实现。

4、首先有一个电商网站的 demo 的环境,对于自己线上的系统,肯定有自己的一套系统,对于如果要做 PoC 的测试,快速的做模拟,这里面提供了一个电商网站搭建的教程,主要是通过前端的SlV作为一个负债均衡来,应用部署在的ecs上,后端的数据库用的res,非常简单的电商的一套业务系统,数据分析的这一部分,把业务数据放到rds里面,如果有日志可以放到的日志服务里面,这些数据业务数据日志数据都可以通过 maxcompute 通过 dataworks的di,数据集成的功能,把它同步到 maxcompute 里面,用 maxcompute 做大数据的数仓,再使用 dataworks 对数据进行 etl 进行处理,处理完了结果数据再写到 maxcompute。再使用 dataworks 里面的数据服务,开发 openAPI,openAPI 对接 datav,用 datav展示,这里面除了对接 datav,像有自己的业务系统,需要对接的数据,就可以使用数据服务里面包装openAPI,提供服务,比如应用需要调用数据的API,都可以试用到这个场景,报表展示出用 datav,这里面也可以使用,比如跟di的分析,也可以对接的 quickbi,都是可以使用的一个方案。

三、MaxCompute产品介绍

MaxCompute 向用户提供了丰富的大数据开发工具、完善的数据导入导出方案以及多种经典的分布式计算模型。能够最快速地解决用户海量数据计算问题,有效降低企业大数据计算平台的总体拥有成本,提高大数据应用开发效率,并保障数据在云计算环境的安全。

产品特点

1.云原生服务架构:

1.全托管的 Serverless、多租户模式,作业级别的自动弹性伸缩,免平台运维及配置调优势。

2.支持按作业付费、预占计算资源付费、打包套餐等多种付费方案,满足最灵活的客户购买需求。

3.多功能:

提供SQL/MR/Spark/机器学习/图计算等多种计算能力,避免为计算而

搬数据。

4.高性能计算引擎:

随若数据规模的增加,性能线性增长,超越竞品的性能优势。

5.安全的数据平台:

原生的多租户系统,以项目进行隔离;所有计算任务在安全沙箱中运

行,支持ACL+Policy+Label细粒度授权,支持数据KM加密,支持行为

审计(即将发布)。

6.生态开放:

高度兼容 Hive、支持原生的 Spark 应用、支持 Python 生态(PyODPS)、第三方BI工具。

7.企业级管理能力:

完整的批量(Tunnel)/实时(Datahub)数据接入能力、Dataworks数据开发/应用生产运维/数据管理数据质量,快速构建企业级数据服务

平台。

目前在 dataworks 里面支持的最小的调度时间是5分钟,在针对除了t+1场景之外,如果是业务上需要更短的时间,可以做到5分钟的延时,maxcompute 里面的最大优势,是能够针对海量的数据做计算存储,能够支持到1b级别数据。它能够降低企业总体的开发速度,因为它是一套免运维的全托管大数据的数仓,也支持了非常丰富的付费括开源生态的产品,按需求付费或者预付费都可以支持的,能够对接阿里云包括开源生态的产品,能够支持odpssql、maxcompute、图计算、spark、交互式分析 hologres 这样的产品都能够直接进行对接。比如要做自定义的开发,能够使用 Java 或者 Python 做开发,都是高度兼容各个生态的,包括阿里云的产品和开源生态的产品。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
阿里云实时数仓实战 - 用户行为数仓搭建
课程简介 1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个组件之间如何配合联动。 3 )前置知识要求:熟练掌握 SQL 语法熟悉 Linux 命令,对 Hadoop 大数据体系有一定的了解   课程大纲 第一章 了解数据仓库概念 初步了解数据仓库是干什么的 第二章 按照企业开发的标准去搭建一个数据仓库 数据仓库的需求是什么 架构 怎么选型怎么购买服务器 第三章 数据生成模块 用户形成数据的一个准备 按照企业的标准,准备了十一张用户行为表 方便使用 第四章 采集模块的搭建 购买阿里云服务器 安装 JDK 安装 Flume 第五章 用户行为数据仓库 严格按照企业的标准开发 第六章 搭建业务数仓理论基础和对表的分类同步 第七章 业务数仓的搭建  业务行为数仓效果图  
相关文章
|
安全 网络协议 网络安全
curl使用
curl使用
348 0
|
设计模式 Java 应用服务中间件
Tomcat 架构原理解析到设计借鉴
Tomcat 架构原理解析到设计借鉴
494 0
|
开发框架 监控 搜索推荐
GoFly快速开发框架集成ZincSearch全文搜索引擎 - Elasticsearch轻量级替代为ZincSearch全文搜索引擎
本文介绍了在项目开发中使用ZincSearch作为全文搜索引擎的优势,包括其轻量级、易于安装和使用、资源占用低等特点,以及如何在GoFly快速开发框架中集成和使用ZincSearch,提供了详细的开发文档和实例代码,帮助开发者高效地实现搜索功能。
767 0
|
存储 Prometheus Cloud Native
SLS Prometheus存储问题之为什么SLS时序引擎最终选择了使用C++实现PromQL的部分算子
SLS Prometheus存储问题之为什么SLS时序引擎最终选择了使用C++实现PromQL的部分算子
|
关系型数据库 MySQL 网络安全
实时计算 Flink版操作报错合集之Debezium引擎因为其他错误而关闭,导致无法检索到引擎的schema历史记录,该如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用问题之在自定义RichSinkFunction中,如何获取source的schema
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
消息中间件 监控 关系型数据库
实时计算 Flink版产品使用问题之运行后,怎么进行监控和报警
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
Kubernetes 调度 异构计算
Kubernetes 调用 GPU解析
Kubernetes (K8s) 支持调用GPU以利用其统一调度和分配集群资源的能力,管理异构计算,如加速部署、提高资源使用率和保证资源独享。通过容器化和设备隔离,K8s确保GPU高效、安全地被应用使用。要调用GPU,需安装NVIDIA GPU驱动、CUDA工具包和Device Plugin,然后在Pod配置中指定GPU需求。安装步骤包括:确保GPU节点、安装GPU驱动和NVIDIA容器运行时、创建GPU资源要求的Pod并部署到集群。
|
Web App开发 XML Java
Servlet执行流程&生命周期&方法介绍&体系结构、Request和Response的功能详解(1)
Servlet执行流程&生命周期&方法介绍&体系结构、Request和Response的功能详解
431 2
|
前端开发 Java 数据安全/隐私保护
Jpom插件端管理项目部署
Jpom插件端管理项目部署
324 0