开源大数据平台 E-MapReduce的搜索结果_热门

开源大数据EMR

|

博文

|

来自：大数据与机器学习

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

预聚合是高性能分析中的常用技术，通过预先聚合降低纬度，从而在查询时大幅减少计算量，提升响应速度。本文介绍了 spark-alchemy 这个开源库中的 HyperLogLog 这一个高级功能，并且探讨它是如何解决大数据中数据聚合的问题。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 分布式计算 # Spark # 大数据 # 算法 # Apache

开源大数据EMR

|

博文

|

来自：大数据与机器学习

从数砖开源 Delta Lake 说起

Spark AI 北美峰会的第一天，坊间传闻被证实，Databrics（俗称数砖，亦称砖厂）的杀手锏 Delta 产品特性作为 Delta Lake 项目开源！会前，笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流，谈到 Delta 时被告知会有相关重磅在大会上宣布，但却没想到是开源出去。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # 大数据 # Apache # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

钉钉群直播【Spark Relational Cache 原理和实践】

主要介绍Relational Cache/物化视图的历史和背景，以及EMR Spark基于Relational Cache加速Spark查询的技术方案，及如何通过基于Relational Cache的数据预计算和预组织，使用Spark支持亚秒级响应的交互式分析使用场景。

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

EMR Spark Relational Cache的执行计划重写

作者：王道远，花名健身，阿里巴巴计算平台EMR技术专家。背景 EMR Spark提供的Relational Cache功能，可以通过对数据模型进行预计算和高效地存储，加速Spark SQL，为客户实现利用Spark SQL对海量数据进行即时查询的目的。

# 开源大数据平台 E-MapReduce # 云解析DNS # SQL # 存储 # 缓存 # 分布式计算 # Spark # HIVE # Apache # 数据挖掘 # 数据库 # 大数据

寒沙牧

|

博文

|

来自：大数据与机器学习

HAS-插件式Kerberos认证框架

HAS (Hadoop Authentication Service), 致力于解决开源大数据服务和生态系统的认证支持。目前开源大数据（Hadoop/Spark）在安全认证上只内置支持了Kerberos方式，HAS提出了一种新的认证方式, 通过与现有的认证和授权体系进行对接，使得在Hadoop/Spark在上面支持Kerberos以外的认证方式变成可能，并对最终用户简化和隐藏Kerberos的复杂性。