如果您是CDH或HDP用户,则除了从CDH和HDP版本转移到CDP的功能之外,还可以查看CDP私有云基础版中可用的新功能。
1.从CDH到CDP的新功能
1.1.Ranger2.0
· 动态行过滤和列屏蔽
· 基于属性的访问控制和SparkSQL细粒度访问控制
· Sentry到Ranger迁移工具
· 新的RMS提供HDFS ACL同步
1.2.Atlas2.0
· 通过提供实体模型扩展来支持业务元数据
· 批量导入业务元数据属性关联和词汇表术语
· 增强的基本搜索和过滤搜索
· 多租户支持并通过增强的UI简化了管理
· 数据血缘和监管链
· 先进的数据发现和业务词汇表
· Navigator到Atlas的迁移
· 改进的性能和可伸缩性
· 将Ozone与Apache Atlas集成
1.3.Hive3
· Hive-on-Tez提供更好的ETL性能
· 支持原子性、一致性、隔离性和持久性(ACID)事务
· 全面的ANSI 2016 SQL覆盖
· 支持重大性能改进
· 查询结果缓存
· 代理键
· 物化视图
· 预定查询,使用SQL自动重建物化视图
· 自动翻译Spark-Hive读取,无需HWC会话
· Hive Warehouse Connector Spark直接读取
· 从Spark授权外部文件写入
· 改进的CBO和矢量化覆盖率
1.4.Ozone
· HDFS的10倍可扩展性
· 支持十亿个对象和S3原生支持
· 支持密集数据节点
· 快速重启,易于维护
1.5.HBase
· HBase-Spark连接器
· 重新设计中等大小的对象(MOB),以实现更好的压缩和性能
1.6.Hue
· 使用Knox的基于网关的SSO
· 支持Ranger KMS-Key Trustee集成
1.7.Kudu
· 使用Ranger进行细粒度的授权
· 支持Knox
· 通过滚动重启和自动重新平衡来增强操作
· 大量改进可用性
· 添加了新的数据类型,如DATE,VARCHAR和对HybridClock时间戳的支持
1.8.Yarn
· 新的Yarn队列管理器
· 放置规则使您无需指定队列名称即可提交作业
· Capacity Scheduler利用延迟调度来满足任务位置约束
· 抢占允许优先级较高的应用程序抢占优先级较低的应用程序
· 不同层次结构下的相同队列名称
· 在队列之间移动应用程序
· Yarn绝对模式支持
这是CDH堆栈中组件的通用服务级别体系结构。“ Cloudera Applications”,“ Operations and Management”和 “ Encryption”框中的组件在CDH Cluster Services周界中定义的群集包络之外运行。
标有红色“ X”的组件将被弃用并删除,或者用CDP中的备用组件替换。CDP群集体系结构幻灯片中记录了这些更改。
1.9.服务变更
从CDH到CDP的服务更改为:
· Flume 到 Cloudera Data Flow
· Navigator 到 Ranger/Atlas
· Sentry 到 Ranger
· KeytrusteeKMS到RangerKMS
· HSM KMS到Key HSM
· Hive-on-Spark/MR到Hive-on-Tez
· YARN Fairshare到YARN Capacity
· Spark 1.6到Spark 2.4
· NavOpt到WorkloadXM
· Pig到Hive or Spark
2.从HDP到CDP的新功能
2.1.ClouderaManager
· 虚拟私有集群
· 自动传输加密设置
· 管理员的基于角色的细粒度访问控制(RBAC)
· 简化的维护工作流程
2.2.Solr8.4
· 在非结构化数据(文本,pdf,.jpg等)上基于相关性的文本搜索
2.3.Impala
· 更适合Data Mart迁移用例(交互式,BI样式查询)
· 能够查询大型集群中的大量数据(“大数据”)
· 集群环境中的分布式查询,方便扩展
· 与Kudu集成以获取快速数据,与Ranger集成以获取授权策略
· 快速BI查询支持使用单个系统进行大数据处理和分析,因此客户避免了昂贵的建模和ETL将分析添加到数据湖中。
2.4.Hue
· 内置SQL编辑器,可自动完成智能查询
· 共享查询,图表结果并下载任何数据库
· 轻松搜索,浏览和导入数据集或作业
2.5.Kudu
· 更好的提取和查询性能,可快速更改/更新数据。通过Kudu和Impala更新支持报告
· 带有Kudu + Spark的实时和流式应用程序
· 时间序列分析,事件分析和实时数据仓库以最智能的自动完成功能提供最佳的查询体验
2.6.Yarn
· 过渡到Capacity Scheduler的工具
· 新的Yarn队列管理器
· Capacity Scheduler利用延迟调度来满足任务位置约束
· 抢占允许优先级较高的应用程序抢占优先级较低的应用程序
· 不同层次结构下的相同队列名称
· 在队列之间移动应用程序
· Yarn的绝对模式支持
2.7.加密
· 自动TLS功能可自动执行启用TLS加密所需的所有步骤
· Ranger KMS与Key Trustee Server集成以提供附加的密钥提供程序存储
· 使用NavEncrypt进行静态加密