Spark的搜索结果_文章_第7页-阿里云开发者社区

Echo_Wish

|

10月前

|

博文

|

来自：大数据与机器学习

从Excel到Hadoop：数据规模的进化之路

# 分布式计算 # Hadoop # 大数据 # 数据库 # Spark

赵渝强老师

|

10月前

|

博文

|

来自：大数据与机器学习

【赵渝强老师】Spark RDD的缓存机制

Spark RDD通过`persist`或`cache`方法可将计算结果缓存，但并非立即生效，而是在触发action时才缓存到内存中供重用。`cache`方法实际调用了`persist(StorageLevel.MEMORY_ONLY)`。RDD缓存可能因内存不足被删除，建议结合检查点机制保证容错。示例中，读取大文件并多次调用`count`，使用缓存后执行效率显著提升，最后一次计算仅耗时98ms。

# 存储 # 缓存 # 分布式计算 # Spark

阿里云大数据

|

10月前

|

博文

|

来自：大数据与机器学习

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台，实现了数据与 AI 技术的有效融合，解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台，最终实现不同场景下整体性能提升50%以上，同时综合成本下降30%。

# 云原生数据仓库AnalyticDB MySQL版 # 云消息队列 Kafka 版 # 开源大数据平台 E-MapReduce # 函数计算 # 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # 物联网 # Serverless # Spark

Echo_Wish

|

10月前

|

博文

|

来自：大数据与机器学习

大数据与云计算：无缝结合，开启数据新纪元

# 云原生大数据计算服务 MaxCompute # 日志服务 # 存储 # 分布式计算 # 大数据 # 云计算 # Spark

Echo_Wish

|

10月前

|

博文

|

来自：大数据与机器学习

从Excel到大数据：别让工具限制你的思维！

# 云原生大数据计算服务 MaxCompute # 分布式计算 # 大数据 # 数据处理 # Spark # Python

赵渝强老师

|

10月前

|

博文

|

来自：大数据与机器学习

【赵渝强老师】Spark的容错机制：检查点

Spark通过Checkpoint机制将RDD状态持久化到磁盘，以支持容错。当任务执行出错时，可以从检查点位置重新计算，减少开销。Checkpoint目录可设置为本地文件夹或HDFS。建议生产系统使用高可靠的文件系统保存检查点。文中详细介绍了在本地和HDFS上设置检查点目录的步骤，并附有代码示例和视频讲解。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # Spark

阿里云大数据

|

10月前

|

博文

|

来自：大数据与机器学习

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

面对机器学习场景下的训练瓶颈，微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark，微财突破了单机训练使用的数据规模瓶颈，大幅提升了训练效率，解决了存算分离架构下 Shuffle 稳定性和性能困扰，为智能风控等业务提供了强有力的技术支撑。

# 函数计算 # 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # 机器学习/深度学习 # 分布式计算 # 大数据 # Serverless # Spark

赵渝强老师

|

10月前

|

博文

|

来自：大数据与机器学习

【赵渝强老师】Spark RDD的依赖关系和任务阶段

Spark RDD之间的依赖关系分为窄依赖和宽依赖。窄依赖指父RDD的每个分区最多被一个子RDD分区使用，如map、filter操作；宽依赖则指父RDD的每个分区被多个子RDD分区使用，如分组和某些join操作。窄依赖任务可在同一阶段完成，而宽依赖因Shuffle的存在需划分不同阶段执行。借助Spark Web Console可查看任务的DAG图及阶段划分。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # Spark

Echo_Wish

|

11月前

|

博文

|

来自：大数据与机器学习

玩转数据：初学者的大数据处理工具指南

# 云原生大数据计算服务 MaxCompute # 实时计算 Flink版 # 分布式计算 # 大数据 # 流计算 # Spark # Python

游客tvgb6vci6chtq

|

11月前

|

博文

|

来自：大数据与机器学习

Spark Master HA 主从切换过程不会影响到集群已有作业的运行，为什么？

Spark Master 的高可用性（HA）机制确保主节点故障时，备用主节点能无缝接管集群管理，保障稳定运行。关键在于： 1. **Driver 和 Executor 独立**：任务执行不依赖 Master。 2. **应用状态保持**：备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**：快速选举新 Master 并同步状态。 4. **容错机制**：任务可在其他 Executor 上重新调度。这些特性保证了集群在 Master 故障时仍能正常运行。

# 微服务引擎 # 存储 # 分布式计算 # 调度 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark