开发者社区云原生容器服务文章正文

【Spark Summit East 2017】从容器化Spark负载中获取的经验

2017-02-18 2106

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Tom Phelan在Spark Summit East 2017上的演讲，Tom Phelan探讨了如何实现高可用性的分布式大数据应用和数据中心主机，并分享了学到的经验教训，并对于如何在一个可靠的、可伸缩的、高性能的环境将大数据应用程序容器化给出了一些提示。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Tom Phelan在Spark Summit East 2017上的演讲，主要介绍了在Spark集群上部署分布式大数据应用程序面对的容器生命周期管理、智能调度优化资源利用率、网络配置和安全以以及性能等诸多挑战，Tom Phelan探讨了如何实现高可用性的分布式大数据应用和数据中心主机，并分享了学到的经验教训，并对于如何在一个可靠的、可伸缩的、高性能的环境将大数据应用程序容器化给出了一些提示。

aa086cfd0ca85e22e6b6969c9b8003bce38aef15

248293a9b2bda56d11d6f37a6622641241181e66

f55d68645e6405060b52082a7adc5f15f50b4b13

c555b163aedd01a122466b7dabeecc95ee142da0

8bb05e07aa3140916eefaa3b2e2ed001b489d0b7

9d39c8b27086e5d91e19c6bceca6749d1617fe30

d719024d8ef22d6b1d56b30e5711449796ace480

80763d94afc0ccbb9db9bc3959aed51e66cd4bee

6857f80a917cd3af91f86bcb2c18ba01a13b31b5

439e18c4e0af31fcde2b4722fec0c929d91d53ae

33aa13334a53ed382667fa05545732cbf26092e0

9a11b0995abf5c3915cd2a86287f11bdac162ca2

3c7612ef9e38bcfe8d1bb0320c00798f8d594bba

f267b29b2f1cfa9b4e6d279681fbbec3fbd17395

6a4be138295f16145920fced485ce5db89084e33

f112ec6f811a68bc603599d6b76867becb541dfa

63746de2d37e12e48d69b8e4d74a5acb74273f9e

21cd2662a3c54143e630b971c258589a6f19b0de

a6b62011cbb8a64662383ffc365fc90fe7d93bec

039aed429e310573af0b7a402e72efc4ea304dd7

2ccce4a6db5d5a3bb80f05e7b210897751fc351f

bc199e7ced4cd986c51f6995702fc3e97568da40

460d1087a9c38edbc986f6b9bfe01f2c9e747d35

7829dd43e1afe41dd0c5f5e96169e35ef4a09abf

8692d875744933841f5cc28413a3fde82408191b

e030239d553d331474c9f28b1d6a1f452b9cff25

712c88f2e5dd9bf05f7530e352cfae56af288025

54a3bded79095498339df82e2ca8c748e1289cd2

e011c6b5ab597c356ed208ca9e34cffb2f615593

a749436d96d3826740b0674aba54f96cbf7bd6f9

6f7a721488da4f0854167b2ca1f8154db53a615e

023a706ddb0197a0a0e3163d0667c209018f9142

790eec804049fcf4e2ebf42dde08fa9bb814aee6

ccc25750fea9aa3550f52f48f74e296c04016163

文章标签：

云原生大数据计算服务 MaxCompute

容器

安全

数据中心

大数据

分布式计算

Spark

调度

MaxCompute

关键词：

容器负载

apache spark容器

apache spark容器化

apache spark east

apache spark summit

相关实践学习

基于MaxCompute的热门话题分析

Apsara Clouder大数据专项技能认证配套课程：基于MaxCompute的热门话题分析

小猫吃鱼569

真的很搞笑

分布式计算 Kubernetes 监控

容器服务Kubernetes版产品使用合集之怎么实现把 spark 跑在k8s

容器服务Kubernetes版，作为阿里云提供的核心服务之一，旨在帮助企业及开发者高效管理和运行Kubernetes集群，实现应用的容器化与微服务化。以下是关于使用这些服务的一些建议和合集，涵盖基本操作、最佳实践、以及一些高级功能的使用方法。

真的很搞笑

286 1 1

故事未完·

资源调度分布式计算 Hadoop

大数据平台搭建（容器环境）——Spark3.X on Yarn安装配置

故事未完·

1816 1 1

阿里云E-MapReduce团队

SQL 人工智能分布式计算

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

超乎你想象的干货合集打包带走！

阿里云E-MapReduce团队

23199 0 0

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

阿里云E-MapReduce团队

人工智能分布式计算 Spark

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

阿里云E-MapReduce团队

1112 0 0

阿里云E-MapReduce团队

机器学习/深度学习人工智能分布式计算

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍

阿里云E-MapReduce团队

1983 0 0

阿里云E-MapReduce团队

分布式计算 Prometheus Kubernetes

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布

阿里云E-MapReduce团队

2717 0 0

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

阿里云E-MapReduce团队

SQL 人工智能缓存

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

在Spark + AI Summit 2020上， Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰，在性能上大幅超越 Presto。在过去几年，我们见过了太多的 benchmark，大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心，可谓及时雨。

阿里云E-MapReduce团队

3001 0 0

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

大熊计算机

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

697 0 0

郑小健

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

1251 2 3

Echo_Wish

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

789 79 80

云原生

【Spark Summit East 2017】从容器化Spark负载中获取的经验

容器服务

热门文章

最新文章

相关课程

相关电子书