暂无个人介绍
Cloudera 流处理 (CSP) 通过提供分析流数据的复杂模式并获得可操作的情报的功能,使客户能够将流转化为数据产品。例如,一家大型生物技术公司使用 CSP 通过分析和警告超出规格的分辨率颜色不平衡来制造符合精确规格的设备。许多大型金融服务公司使用 CSP 为其全球欺诈处理管道提供动力,并防止用户在贷款审批过程中利用竞争条件。
在本系列的前一篇博客“将流转化为数据产品”中,我们谈到了减少数据生成/摄取之间的延迟以及从这些数据中产生分析结果和洞察力的日益增长的需求。我们讨论了如何使用带有 Apache Kafka 和 Apache Flink 的Cloudera 流处理(CSP) 来实时和大规模地处理这些数据。在这篇博客中,我们将展示一个真实的例子来说明如何做到这一点,看看我们如何使用 CSP 来执行实时欺诈检测。
Data Fabric是较为成熟的现代数据架构之一。Forrester Research 于 2006 年确定了该范式并创造了该术语。Enterprise Data Fabric,Q2 2022将 Cloudera 评为表现强劲的公司。
我们现在推出 Cloudera 流处理社区版 (CSP-CE),它使所有这些工具和技术可供开发人员和任何想要试验它们并了解流处理、Kafka 和他的朋友、Flink 和 SSB 的人随时可用。
客户旅程正在从单一数据集群、单一云和简单的基础设施演变为健壮、容错的架构,使得可以在故障事件中幸存下来并保持客户正常运行。目标是在运营危机期间尽量减少对客户数据驱动决策的影响。为此,我们需要为 CDP 实施建立标准,以解决故障、缓解故障。
构建实时流分析数据管道需要能够处理流中的数据。流内处理的一个关键先决条件是能够收集和移动在源点生成的数据。这就是我们所说的第一英里问题。本博客将分两部分发布。在第一部分中,我们将研究由 Apache NiFi 提供支持的Cloudera DataFlow如何通过轻松高效地获取、转换和移动数据来解决第一英里问题,以便我们可以轻松实现流分析用例。我们还将简要讨论在 Cloudera DataFlow 的云原生 Kubernetes 部署中运行此流程的优势。
CSP 由 Apache Flink 和 Kafka 提供支持,并提供完整的企业级流管理和状态处理解决方案。Kafka 作为存储流媒体基板,Flink 作为核心流处理引擎,以及对 SQL 和 REST 等行业标准接口的一流支持,使开发人员、数据分析师和数据科学家能够轻松构建实时数据管道为数据产品、仪表板、商业智能应用程序、微服务和数据科学笔记本提供动力。
我们很高兴地宣布在CDP 中全面推出 Apache Iceberg。Iceberg 是 100% 开放的表格格式,由Apache Software Foundation开发,帮助用户避免供应商锁定。今天的一般可用性公告涵盖了在 Cloudera 数据平台 (CDP) 中的关键数据服务中运行的 Iceberg,包括Cloudera 数据仓库 ( CDW )、Cloudera 数据工程 ( CDE ) 和 Cloudera 机器学习 ( CML ))。这些工具使分析师和数据科学家能够通过他们选择的工具和分析引擎轻松地就相同的数据进行协作。
Cloudera 客户运行着地球上一些最大的数据湖。这些数据湖为关键任务大规模数据分析、商业智能 (BI) 和机器学习用例(包括企业数据仓库)提供动力。近年来,创造了“数据湖仓(Data Lakehouse)”一词来描述这种对数据湖中的数据进行表格分析的架构模式。在急于拥有这个术语的过程中,许多供应商忽略了这样一个事实,即数据架构的开放性是其持久性和寿命的保证。
21 年 12 月 10 日,Apache 软件基金会发布了 Apache Log4j 2.0-2.14 的安全公告。此漏洞非常严重,在 CVSS 3.1 评分量表上的评分为 10 分(满分 10 分)。 Cloudera 的安全和工程团队已确定此 CVE 对我们产品套件的影响,并且 Cloudera 客户已通过 Cloudera 的技术支持公告 (TSB) 和My Cloudera支持案例收到详细的更新。
Apache Impala 是 Cloudera 支持的大规模并行内存 SQL 引擎,专为分析和针对存储在 Apache Hive、Apache HBase 和 Apache Kudu 表中的数据的即席查询而设计。支持强大的查询和高并发性 Impala 可以使用大量的集群资源。在多租户环境中,这可能会无意中影响相邻的服务,例如 YARN、HBase 甚至 HDFS。Impala 准入控制通过将查询引导到离散资源池中以实现工作负载隔离、集群利用率和优先级排序,从而在 Impala 内实现细粒度的资源分配。
据 Domo 称, 2020 年每个人平均每秒至少创建1.7 MB 的数据。这是很多数据。对于企业而言,最终的结果是一个复杂的数据管理挑战,而且这种挑战在短期内不会变得不那么复杂。 企业需要找到一种方法,从这个庞大的数据宝库中获取洞察力,让需要它的人掌握。对于相对较少的数据量,公共云是一些组织的可能途径。对于其他人来说,PB 级规模、对控制和效率的需求、市场监管和数据位置使他们无法效仿。相反,这些公司选择利用其现有的数据中心投资。
Cloudera Data Platform (CDP)通过合并来自Cloudera Enterprise Data Hub (CDH)和Hortonworks Data Platform (HDP)这两个传统平台的技术,为客户带来了许多改进。CDP 包括新功能以及一些先前存在的安全和治理功能的替代方案。CDH 用户的一项重大变化是将 Sentry 替换为 Ranger 以进行授权和访问控制。
当您将 Kudu 数据从 CDH 迁移到 CDP 时,您必须使用 Kudu 备份工具来备份和恢复您的 Kudu 数据。
您可以使用 authzmigrator 工具将 Hive 对象和 URL 权限以及 Kafka 权限从 CDH 集群迁移到 CDP 私有云基础 集群。您可以使用 DistCp 工具将 HDFS 数据从安全的 HDP 集群迁移到安全或不安全的CDP 私有云基础集群。
Replication Manager 可用于将 Hive、Impala 和 HDFS 工作负载迁移到 CDP私有云基础.