Spark的搜索结果_文章_第19页-阿里云开发者社区

FeelTouchLabs

|

博文

airflow是什么

Apache Airflow是一个用于调度和监控有依赖任务的工作流平台，它使用Python编程定义任务和工作流，提供了命令行和Web界面工具，支持包括Spark、MR、Hive在内的多种数据处理任务的提交和管理。

# 分布式计算 # 监控 # 调度 # Spark # Python

土木林森

|

博文

《数据湖的时空穿越：Delta Lake如何用版本控制解锁历史迷雾》

【8月更文挑战第27天】Delta Lake作为一个开源的存储层为Apache Spark及大数据工作流带来了事务性支持与数据版本控制功能。通过将数据表视作一系列不可变的事务日志记录，Delta Lake实现了数据一致性的保障。它支持ACID事务并允许用户追踪和管理数据表的不同版本。利用提供的示例代码可以看到如何对Delta Lake表进行操作、查询特定版本甚至回滚至早期版本。随着数据湖架构的发展，Delta Lake正逐渐成为管理大规模数据集的关键工具。

# 日志服务 # 存储 # 分布式计算 # 大数据 # Apache # Spark

土木林森

|

博文

【大数据管理新纪元】EMR Delta Lake 与 DLF 深度集成：解锁企业级数据湖的无限潜能！

【8月更文挑战第26天】随着大数据技术的发展，Apache Spark已成为处理大规模数据集的首选工具。亚马逊的EMR服务简化了Spark集群的搭建和运行流程。结合使用Delta Lake（提供ACID事务保证和数据版本控制）与DLF（加强数据访问控制及管理），可以显著提升数据湖的可靠性和性能。本文通过一个电商公司的具体案例展示了如何在EMR上部署集成Delta Lake和DLF的环境，以及这一集成方案带来的几大优势：增强的可靠性、细粒度访问控制、性能优化以及易于管理的特性。这为数据工程师提供了一个高效且灵活的数据湖平台，简化了数据湖的建设和维护工作。

# 数据管理 # 访问控制 # 分布式计算 # 大数据 # 数据处理 # 数据安全/隐私保护 # Spark

番茄酱脑袋

|

博文

联通实时计算平台问题之实时计算平台对于用户订阅和数据下发是如何支持的

# 云消息队列 Kafka 版 # 实时计算 Flink版 # 消息中间件 # 分布式计算 # Kafka # 流计算 # Spark

格格的阿里云

|

博文

元宇宙技术创新问题之运用多种创新技术如何解决

# 云原生大数据计算服务 MaxCompute # 分布式计算 # 供应链 # 数据可视化 # 大数据 # Spark

格格的阿里云

|

博文

Spark在供应链核算中应用问题之帮助提升核算效率如何解决

# 云原生大数据计算服务 MaxCompute # 分布式计算 # 供应链 # 数据处理 # MaxCompute # Spark

格格的阿里云

|

博文

Spark在供应链核算中应用问题之调整Spark读取ODPS离线表分区大小如何解决

# 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # 供应链 # MaxCompute # Spark

格格的阿里云

|

博文

Spark在供应链核算中应用问题之生成LogView地址失败如何解决

# 分布式计算 # 供应链 # Java # MaxCompute # Spark

格格的阿里云

|

博文

Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决

# 存储 # 分布式计算 # 供应链 # 安全 # Spark

格格的阿里云

|

博文

EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决

# 分布式计算 # 测试技术 # 调度 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark