CDP企业数据云产品详情

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
注册配置 MSE Nacos/ZooKeeper,118元/月
云原生网关 MSE Higress,422元/月
简介: 基于阿里云部署的CDP是部署在阿里云ECS集群上的集成的分析和数据管理平台,在该平台上提供广泛的数据分析和人工智能功能以及安全的用户访问和数据治理功能。

1.1.           产品亮点

1)    阿里云支持:使得用户在阿里云上使用CDP,获取CDP的功能和性能,同时实现最大的选择和灵活性。

2)    多功能分析:解决最苛刻的业务用例 跨数据分析生命周期集成大数据管理和分析,为大规模地应用实时流处理、数据仓库、数据科学和迭代机器学习提供跨数据共享,可以随时随地的访问数据。

3)    安全性和治理:通过通用的安全模型来控制任何云(公有云、私有云和混合云)上的数据,简化了各种企业数据的数据隐私和合规性,在所有环境中提供安全性、合规性、数据迁移和元数据管理。

4)    开放:促进开源社区的创新、提供开放存储和计算架构的选择性以及促进广泛的生态系统的信心和灵活性,提供开放集成,可扩展架构以及对多个数据存储和计算架构开放。

1.2.           产品说明

CDP平台不但提供企业级的安全性和治理能力,还同时提供多种分析功能用于数据分析,具备在内部和外部部署相同功能的能力,支持主要的公有云和私有云环境、使得用户获得弹性的云体验,并不再存在数据孤岛和单一供应商锁定的威胁。

image.png

CDP不但可以灵活地运行各种企业工作负载(例如:实时摄取和分析、数据工程、交互式SQL、企业搜索、高级分析和机器学习),还满足企业的要求:与企业现有的系统进行集成,同时提供强大的安全性、数据治理、数据保护和管理能力。CDP是企业数据管理的新兴中心。

CDPCloudera公司的最新产品,该新产品结合了Cloudera Enterprise Data HubHortonworks Data Platform Enterprise的优点,并在技术堆栈中增加了新功能和对已有技术提供了增强功能。这种统一的发行是一个可扩展且可自定义的平台,您可以在其中安全地运行多种类型的工作负载。


除了需要企业数据云外,企业还希望将这种强大的数据管理基础架构迁移或添加到云中,以提高运营效率、降低成本、提供计算和容量灵活性以及速度和敏捷性。

随着组织在云环境中采用基于Hadoop的大数据部署,他们还需要企业级的安全性和治理、多种分析功能、管理工具和技术支持-所有这些需求都是CDP平台的一部分,下图展示了CDP平台的功能地图。

image.png

CDP支持各种混合解决方案,其中计算任务与数据存储分离,并且可以从远程集群访问数据。这种混合方法通过管理存储、表Schema、身份验证、授权和治理,并为容器化应用程序提供了基础。

CDP包括各种组件,例如Apache HDFSApache Hive 3Apache HBaseApache Impala,以及许多其他用于特殊工作负载的组件。您可以选择这些服务的任意组合来创建满足您的业务需求和工作负载的集群。几个预配置的服务包也可用于常见的工作负载。

Cloudera Manager是用于管理、配置和监控CDP集群和Cloudera Runtime服务的应用程序。

Cloudera Manager服务器在CDP部署中的主机上运行,并使用在集群中每个主机上运行的Cloudera Manager代理来管理一个或多个集群。

Cloudera Manager是用于管理集群的端到端应用程序。借助Cloudera Manager,您可以轻松地部署和集中操作完整的Cloudera Runtime堆栈和其他托管服务。该应用程序可自动执行安装和升级过程,并为您提供主机和正在运行的服务的整个群集的实时视图。Cloudera Manager管理控制台提供了一个中央控制台,您可以在其中对整个集群进行配置更改,并结合了各种报告和诊断工具来帮助您优化性能和利用率。Cloudera Manager还管理安全性和加密功能。使用Cloudera Manager管理控制台,您可以启动和停止集群以及单个服务、配置和添加新服务、管理安全性以及升级集群。您还可以使用Cloudera Manager API以编程方式执行管理任务。

Cloudera Manager的单个实例可以管理多个集群,包括较旧版本的Cloudera RuntimeCDH

CDP还包括以下工具来管理和保护您的部署:

·         Cloudera Manager允许您使用Cloudera Manager管理控制台的Web应用程序或Cloudera Manager API管理、监控和配置集群和服务。

·         Apache Atlas提供了一组元数据管理和治理服务,使您能够管理CDP集群资产。

·         Apache Ranger通过用户界面管理访问控制,以确保CDP集群中一致的策略管理。

Cloudera RuntimeCDP Private Cloud Base中的核心开源软件发行版。Cloudera Runtime包括大约50个开源项目,这些项目构成CDP中数据管理工具的核心分发。

1.2.1.      CDH用户获得的新功能

1.2.2.      HDP用户获得的新功能

 

1.2.3.      CDP节点类型

Cloudera建议在生产环境中部署CDP多达四种机器类型:

·主节点-主要运行Hadoop主守护程序,例如NameNode, Standby NameNode, YARN Resource Manager and History Server, the HBase Master daemon, Ranger server, Atlas Server, and the Impala StateStore Server and Catalog Server。主节点也是ZookeeperJournalNodes的安装位置。守护程序可以共享一个服务器池。根据集群大小、角色可以在专用服务器上运行。Kudu Master Servers也应该部署在主节点上。生产集群建议打开高可用HA,生产集群建议在创建集群的硬件配置步骤开启高可用。如果购买时未开启高可用,在后续使用过程中开启高可用功能。Master节点主要用来存储HDFS元数据和组件Log文件,属于计算密集型,对磁盘IO要求不高。HDFS元数据存储在内存中,建议根据文件数量选择32 GB以上内存空间。

·工作节点-主要用来存储数据和执行计算,运行HDFS DataNode,YARN NodeManagerHBase RegionServerImpala impaladSearch worker daemons Kudu Tablet Servers。推荐使用SSD云盘存储数据。

·工具节点-运行Cloudera ManagerCloudera Management Services。它还可以运行托管的MariaDB(或其他受支持的)数据库实例,Cloudera ManagerHiveRanger和其他与Hadoop相关的项目将使用该数据库实例。

·边缘节点-包含所有面向客户端的配置和服务,包括HDFSYARNImpalaHiveHBase的网关配置。Hue Oozie HiveServer2Impala HAProxy HiveServer2 Impala  HAProxy  server充当通往外部应用程序(如商务智能(BI)工具)的网关也部署在边缘节点上。边缘节点也称为网关节点。

注意:在较小的集群中边缘和工具节点可以合并在一起。

阿里云上的CDP存储目前支持ESSD云盘。底层存储目前支持HDFSKuduHDFS的数据可用性由云盘或本地盘存储的可靠性来保证。

 

1.2.4.   CDP集群角色分布

没有启用HA3-10个工作节点角色分配

主节点

工具节点

网关节点

工作节点

主节点1:

NameNode

YARN ResourceManager

JobHistory Server

ZooKeeper

Kudu master

Spark History Server

单一主机用于所有的工具和网关角色:

Secondary NameNode

Cloudera Manager

Cloudera Manager Management Service

Hive Metastore

HiveServer2

Impala Catalog Server

Impala StateStore

Hue

Oozie

Flume

Gateway configuration

HBase backup master

Ranger Admin, Tagsync, Usersync servers

Atlas server

Solr server

Streams Messaging Manager

Streams Replication Manager Service

ZooKeeper

3 - 10 工作节点:

DataNode

NodeManager

Impalad

Kudu tablet server

启用HA3-20个工作节点角色分配

主节点

工具节点

网关节点

工作节点

主节点1:

NameNode

JournalNode

FailoverController

YARN ResourceManager

ZooKeeper

JobHistory Server

Kudu master

HBase master

Schema Registry

主节点2:

NameNode

JournalNode

FailoverController

YARN ResourceManager

ZooKeeper

Kudu master

HBase master

Schema Registry

主节点3:

Kudu master (Kudu 需要奇数节点来做HA.)

Spark History Server

JournalNode (需要专用磁盘)

ZooKeeper

工具节点1:

Cloudera Manager

Cloudera Manager Management Service

Cruise Control

Hive Metastore

Impala Catalog Server

Impala StateStore

Oozie

Ranger Admin, Tagsync, Usersync servers

Atlas server

Solr server

Streams Messaging Manager

Streams Replication Manager Service

工具节点2:

Ranger Admin server

Atlas server

Solr server

一个或者多个网关节点:

Hue

HiveServer2

Gateway configuration

3 - 20 工作节点:

DataNode

NodeManager

Impalad

Kudu tablet server

Kafka Broker (推荐最少3brokers)

Kafka Connect

HBase RegionServer

Solr server (对于Cloudera Search, 推荐至少台服务器)

Streams Replication Manager Driver

1.3.           设置对基于阿里云部署的CDP的访问权限

阿里云或者内外网环境中,Cloudera的平台产品CDP需要访问很多Web UI,但系统网络可能仅支持SSH访问(22端口)。要访问Cloudera Manager7180端口)或者其他服务,可以通过下列两种方式:

·       在客户端计算机上设置SOCKS套接字安全协议)代理。Cloudera建议您使用此选项。

·       CDP/CDP部署到阿里云之后,将入站规则添加到阿里云实例中的网络安全组。

1.3.1.       配置SOCKS代理

SOCKS5协议是作为客户端和服务器进程实现的,它可以遍历IP网络防火墙。配置SOCKS代理后,浏览器使用公有云网络(通过代理服务器)解析DNS查找,并允许您使用内部FQDN或专用IP地址连接到服务。

使用这种方法,您可以完成以下任务:

  • 设置到网络上主机之一的单个SSH隧道,并在主机上创建SOCKS代理。
  • 更改浏览器配置,以通过SOCKS代理主机执行所有查找。

1.3.1.1.       网络先决条件

在使用SOCKS代理连接到集群之前,请验证以下先决条件:

  • 您必须能够从公共Internet或您要从其连接的网络中访问要代理的主机。
  • 您要代理的主机必须与您要连接的Cloudera服务位于同一网络上。例如,如果您使用的是Cloudera CDP产品,请通过SSH隧道连接到Cloudera Manager主机。

1.3.2.       启动SOCKS代理

1.3.2.1.             Linux

要通过SSH启动SOCKS代理,请运行以下命令:

ssh -i your-key-file.pem -CND 1080

the_username_you_specified@publicIP_of_VM

该命令使用以下参数:

  • -i your-key-file.pem指定SSHCloudera CDP/EDH服务器所需的私钥的路径。如果使用SSH密码,则省略。
  • C设置压缩。
  • N建立后禁止执行任何命令。
  • D在端口上设置SOCKS代理。
  • 1080用于在本地设置SOCKS代理的端口。

1.3.2.2.             Windows

按照Microsoft网站上说明进行操作

1.3.3.       配置Google Chrome浏览器以使用代理

默认情况下,Chrome浏览器会按配置文件使用系统范围的代理设置。要在没有这些设置的情况下启动Chrome,请通过命令行打开Chrome并指定以下内容:

  • SOCKS代理端口。该端口必须与启动代理时使用的端口相同。
  • 配置文件。下面的示例创建了一个新的配置文件。

使用以下命令之一创建配置文件并启动与当前任何正在运行的Chrome实例不冲突的Chrome的新实例。

1.3.3.1.             Linux

/usr/bin/google-chrome \

--user-data-dir="$HOME/chrome-with-proxy" \

--proxy-server="socks5://localhost:1080"

1.3.3.2.             Mac OS X

"/Applications/Google Chrome.app/Contents/MacOS/Google Chrome" \

--user-data-dir="$HOME/chrome-with-proxy" \

--proxy-server="socks5://localhost:1080"

1.3.3.3.             微软Windows

"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" ^

--user-data-dir="%USERPROFILE%\chrome-with-proxy" ^

--proxy-server="socks5://localhost:1080"

在此Chrome会话中,您可以使用私有IP地址或内部FQDN连接到Cloudera CDP可访问的任何主机。

这样就可以通过内网访问Cloudera Manager和其他Web UI

image.png

也可以通过CM中的web UI跳转直接跳转过去。

image.png

1.3.4.    网络安全组

警告:除概念验证以外,不建议将此方法用于任何其他目的。如果没有仔细锁定数据,那么黑客和恶意实体将可以访问这些数据。

1.4.           用例场景

CDP提供全球首个企业数据云的愿景和战略,使我们的客户能够管理从EdgeAI的整个数据生命周期。

image.png

通过对用户的数据分析使用场景进行分析,发现所有的数据分析都可以归纳为这样六个步骤,六个步骤为:

1)         数据收集边缘端的数据摄取和监控(边缘端可能是工业传感器,也可能是实体零售店中的人员或者终端服务器等)

2)         数据丰富能实现处理、聚合和管理的数据管道,准备数据以进行进一步完善

3)         报告提供企业的业务见解(例如:销售分析和预测、市场研究、预算编制)

4)         服务控制和运行基本的业务操作(例如:ATM交易、零售结帐或生产监控)

5)         预测分析基于AI和机器学习的预测分析(例如:欺诈检测、预测性维护、基于需求的库存优化为例)

6)         安全与治理在整个数据生命周期中的一组集成的安全、管理和治理技术

通过这六个步骤,能够管理从EdgeAI的整个数据生命周期,使得企业能够在同一个平台上进行整个数据生命周期的分析,避免产生各种数据孤岛,减少了数据在不同平台之间的移动时间,从而加速用户的业务实现。

image.png

企业里面有各种各样的数据,包括实时数据和非实时交易数据,包括结构化数据、半结构化数据和非结构化数据、以及外部数据等等;这些数据通过企业数据云提供的完整的数据分析生命周期能力进行数据收集、数据加工、然后提供各种各样数据的使用,包括分析报表、数据服务和机器学习;通过企业数据云的支持,企业就可以在上面去构建各种各样的用例,在制造业中例如预测性维护、供应链优化、全面优化等,在金融业有客户画像、风控等,在零售业有交叉营销、客户推荐等用例。

1.4.1.      现代数据仓库

构建现代化数据仓库来替代传统数据仓库以解决企业对数据来源、数据量及数据服务时效的需求,使得现代化数据仓库可以使用强大的自助服务工具来为数千名BI分析用户提供支持,同时系统提供快速和大规模的向导和自动化管理工具,并且存储所有的数据(包括各种类型和数据量的数据)。


1.4.2.       流式消息处理

Apache Kafka是一个高性能、高可用性的冗余流消息平台,可以替代更传统的消息代理。消息代理的使用有多种原因(将数据生成和处理分离,缓冲未处理的消息等)。与大多数消息传递系统相比,Kafka具有更好的吞吐量、内置分区、复制和容错功能,这使其成为大规模消息处理应用程序的理想解决方案。

CDP中提供了Kafka及其周边的小伙伴,来使得Kafka更易用,更好用。

image.png

该图是一种简化的动态数据参考架构,在边缘端显示为Apache MiNiFi,它从移动资产中提取了机器生成的数据。Apache NiFi收集数据并转换、解析和过滤到Kafka的主题,以便Apache Flink/Spark Streaming等流处理引擎和其他应用程序可以快速构建和运行分析。

1)         使用CDP7.1,您将获得最新的Kafka服务。

2)         Kafka Connect支持可用于增强与HDFSS3Kafka Streams的连接。可以直接将Kafka的数据写入到对应的存储中。

3)         Schema Registry将在整个Kafka集群中存储和访问您的Schema。它与Apache Ranger集成,来支持对Schema Registry的访问控制。

4)         Stream Replication Manager可实现业务连续性,该业务连续性支持您的Kafka群集的复制,以实现灾难恢复和高可用性需求。

5)         Cruise Control支持提供基于API的工具,以监视和协助Kafka集群和主题的重新平衡和扩展。

6)         Streams Messaging Manager用于监控和管理发布者、代理、使用者和主题。

1.4.3.      运营数据库

Cloudera运营数据库提供了实时的、始终可用的、可扩展的运营数据库,该数据库在统一的运营和仓储平台中为传统结构化数据和非结构化数据提供服务。运营数据库由Apache HBaseApache Phoenix提供支持。

image.png

1.4.4.      准实时分析

准实时分析需要对变化中的数据提供快速分析能力,包括结合历史数据和实时流数据进行汇总分析、预测和明细查询。

准实时分析的典型场景需要同时支持顺序和随机读/写的应用场景,包括:

·         在线交互式BI分析/决策辅助

o 场景举例:  贷后风险实时监测,实时资产偏好视图,历史风险偏好趋势,市场监测

o 应用类型: 需要准实时的同步插入/修改,同时汇总分析和单条查询

·         时间序列数据

o 场景举例:  股市行情数据; 欺诈检测和预防; 风险监控;线上实时反欺诈

o 应用类型:需要实时捕获流数据,同时结合已有的T+1数据进行汇总、分析和计算

·         机器日志数据分析

o 场景举例: 台机监控、故障预警

o 应用类型:需要过滤大量流数据,同时结合已有的T+1数据进行汇总、分析和计算

CDP平台上通过使用Kudu+Impala的架构来提供准实时数据分析,这里只使用一套系统,不再需要后台定时的批处理任务来同步数据,可以轻松应对数据延迟和数据修复工作,新数据可以立即用于分析和业务运营。

image.png

1.4.5.      多租户和虚拟专用集群

虚拟专用集群使用Cloudera共享数据体验(SDX)来简化内部部署和基于云的应用程序的部署,并使在不同集群中运行的工作负载能够安全灵活地共享数据。

借助虚拟专用集群和SDX框架,Cloudera Manager中提供了一种称为计算集群的新型集群。 Compute集群运行诸如Hive Execution ServiceSparkYARN之类的计算服务,但是您可以配置这些服务以访问托管在另一个称为Base集群的常规群集中的数据。使用此体系结构,您可以通过多种方式分离计算和存储资源,以灵活地最大化资源。

image.png

相关文章
|
3月前
|
Web App开发 DataWorks 安全
DataWorks产品使用合集之如何查看生产表权限
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之要获取DataWorks线下集群的IP信息,该如何操作
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
数据采集 分布式计算 监控
MaxCompute产品使用问题之如何配置数据质量监控
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
弹性计算 DataWorks 安全
DataWorks产品使用合集之打通网络时,如何排查安全组问题
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
42 1
|
5月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之如何判断资源组的数据源是否已经打通内网
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
491 0
|
5月前
|
SQL DataWorks 安全
DataWorks产品使用合集之如何处理跨境访问场景中的敏感数据
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
运维 监控 DataWorks
DataWorks智能监控 规则管理是什么?
DataWorks智能监控 规则管理是什么?
78 2
|
SQL DataWorks NoSQL
阿里云DataWorks的数据服务可以帮助企业统一管理对内对外的API服务
阿里云DataWorks的数据服务可以帮助企业统一管理对内对外的API服务
218 2
|
SQL 数据采集 关系型数据库
Dataphin(数据建设与治理)V3.12版本升级详情
本次发布的V3.12 版本中,核心重点能力主要有 支持 StarRocks计算引擎适配;部署去除OSS/Ceph等存储依赖;分析平台支持query任务;质量分,数据标准结构升级支持标准模板,批量导入导出;实时研发支持等Flink SQL支持访问MySQL、Hologres、MaxCompute数据源中的表等 在下一个版本中,将支持自定义消息渠道,支持质量知识库,标准、安全支持跨租户发布,分析平台支持手工表等功能,还有很多其他新增能力与功能升级,敬请期待。
544 0
|
SQL JSON 运维
数据服务最佳实践(1):支持注册外部API,打造企业数据服务中心【Dataphin V3.11】
在DataphinV3.11版本中,我们支持了注册外部API的能力,用于支持客户统一管理企业所有的API,打造企业的数据服务中心。API注册到Dataphin之后,可以由Dataphin统一纳管,和其他方式创建的API共用相同的服务市场、权限管控、运维监控能力。 同时我们支持了Json文本解析能力,支持编写类似正则表达式的语法定义注册API返回参数的取值路径,满足企业自定义取数的场景。
780 0
下一篇
无影云桌面