EMR Serverless Spark PySpark流任务体验报告

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 阿里云EMR Serverless Spark是一款全托管的云原生大数据计算服务,旨在简化数据处理流程,降低运维成本。测评者通过EMR Serverless Spark提交PySpark流任务,体验了从环境准备、集群创建、网络连接到任务管理的全过程。通过这次测评,可以看出阿里云EMR Serverless Spark适合有一定技术基础的企业,尤其是需要高效处理大规模数据的场景,但新用户需要投入时间和精力学习和适应。

一、引言

在当今的大数据时代,数据处理和分析已成为企业运营不可或缺的一部分。阿里云EMR Serverless Spark作为一款全托管的云原生计算产品,旨在为企业提供高效、便捷的数据处理与分析服务。本次测评将重点围绕通过EMR Serverless Spark提交PySpark流任务的体验进行,希望能够帮助大家了解该产品的实际应用效果。

二、产品概述

阿里云EMR Serverless Spark是一款云原生、全托管的Spark计算产品,它为企业提供了围绕Spark任务的一站式开发、调试、调度以及运维等服务。该产品无需用户管理基础设施,能够自动伸缩资源,满足各种规模的数据处理需求。同时,EMR Serverless Spark还提供了丰富的生态系统支持,包括PySpark等编程接口,使得数据处理和分析变得更加灵活和高效。

三、产品体验

由于这次测评官方没有提供可直接使用的案例和教程,那么我们从产品文档中选择一种实践教程作为这次的主要体验。

1.png


1. 环境准备

根据文档的要求,在进行这个操作之前,我们需要确保已经完成了阿里云账号的注册和登录,以及EMR Serverless Spark的开通和配置。接下来我开始创建工作空间。进入工作台页面,由于是第一次使用,需要授权后才能进一步操作。


2.png

3.png


完成授权之后,我们可以按照操作文档,开始进入Spark页面,点击创建工作空间,然后配置相关参数即可。


4.png

5.png

6.png



创建完成之后,我们可以在EMR Serverless > Spark中找到我们创建的工作空间。

7.png


2. 创建集群

完成工作空间创建之后,我们开始创建集群。登录E-MapReduce控制台在顶部菜单栏处,根据实际情况选择地域和资源组。在创建过程中出现了一些小插曲,问题的原因是OSS中的bulid节点名称重复了。但是根据错误提示,却很难一眼找出问题所在。需要自行排查!!!


8.png

9.png


完成以上配置之后,我们接着完成网络的配置,这里有一个点需要主要,由于专有网络选择的区域限制,需要在可用区H、可用区I、可用区J中的交换机才可用。其他区的一直选择不了,不知道是什么原因。另外就是服务器的选择,系统是默认了4核16GB的服务器,无法做出更改,同时还需要添加Core或Task节点。这样算下来费用一个小时在5.4元!!!体验费用不低,所以使用完之后,记得及时删除资源!!!)。


10.png

11.png

12.png


3. 创建网络连接

在EMR控制台的左侧导航栏,选择EMR Serverless > Spark。在Spark页面,单击目标工作空间名称。在EMR Serverless Spark页面,单击左侧导航栏中的网络连接

13.png

14.png

15.png


4. 上传JAR包到OSS

下载官方提供的kafak.zip包,然后上传到对应的oss节点下。

16.png

17.png


5. 创建流任务

在EMR Serverless Spark中提交PySpark流任务非常简单。用户只需通过EMR控制台或SDK将任务代码打包上传,并配置相关参数(如资源规格、引擎版本、运行参数、Spark配置等),即可发布任务。发布后,我看可以前往运维管理中,启动该任务。(注意事项:Spark配置的内容一定要根据自己的实际情况,调整oss的目录地址!!!


18.png

19.png


6. 任务监控与管理

通过EMR控制台,用户可以实时监控PySpark流任务的执行状态、资源消耗情况等信息。同时,还可以对任务进行暂停、恢复、取消等操作,实现对任务的灵活管理。


20.png

21.png


22.png



7. 资源释放

完成体验之后,切记释放资源!!!


23.png

24.png

25.png


四、体验感受

1. 优点

  • 无需管理基础设施:用户无需关心计算资源的分配和管理,系统提供了快速创建功能,只需关注数据处理和分析的逻辑。

26.png

27.png


  • 高效灵活:通过Spark提供的丰富任务类型,用户可以轻松地实现各种复杂的数据处理和分析需求。

28.png


  • 实时监控与管理:通过EMR控制台,用户可以实时监控任务执行状态和资源消耗情况,实现对任务的灵活管理。

29.png


2. 不足

  • 学习成本:对于初次接触EMR Serverless Spark的用户来说,需要一定的学习成本来熟悉相关概念和操作。Serverless Spark和PySpark流任务结合使用涉及了多个高级技术组件,对于非专业技术人员来说,理解这些技术的核心概念、配置细节以及最佳实践可能是一个巨大的挑战。

30.png


  • 错误提示不清晰:按照产品手册,一步步的执行,中间过程出现了几次问题,但是从错误提示来看,非常不友好。

31.png

32.png


  • 配置复杂:Serverless环境下,资源的自动管理和配置优化是核心优势,但这也带来了配置上的复杂性。一不小心一个错误的配置就会带来任务失败。
  • 最佳实践缺乏:产品手册虽然提供了不少实践操作,但是对于用户来说,每一个都需要在实践中不断摸索和调整,以找到最适合自己业务场景的配置和策略。碰到一些问题,这需要用户具备较高的自主学习能力和问题解决能力。

33.png


五、小结

在之前,参加过不少阿里云的体验测评活动。这次在体验通过EMR Serverless Spark提交PySpark流任务之后,给我的感觉是不太舒服,过程不太流畅!

首先,我们说说产品手册。在体验过程中,虽然EMR Serverless Spark提供了相对丰富的产品内引导和文档帮助。用户可以通过官方文档快速了解产品的基本概念、使用方法和最佳实践。然而,在某些高级功能或特定场景的配置上,文档内容的深度略显不足(由于个人能力有限,部分配置不能理解)。

还有就是产品手册提供的实践案例,它应该更直观地让用户了解产品在实际业务场景中的应用,用户需要更多真实的案例分析,这些案例可以详细展示如何配置和使用产品来解决问题。而官方提供的这么多案例中,没有突出它在实际运用中解决那些问题?会带来什么样的收益等。

其次,我们从接入便捷性、数据开发体验、弹性伸缩等方面来看,EMR Serverless Spark的产品功能基本满足预期。用户可以通过简单的配置和操作,快速接入EMR Serverless Spark,开始使用其提供的数据处理和分析服务。EMR Serverless Spark提供了丰富的数据处理和分析工具,使得用户可以高效地进行数据开发。

最后,可能是由于时间匆促,这次没有完整的体验EMR Serverless Spark的多个应用场景,有点遗憾。从最后的结果来看,EMR Serverless Spark在PySpark流任务方面还是值得表扬的。特别是它提供了良好的技术支持,高效的运维管理,能够为企业提供了高效、便捷的数据处理和分析服务。相信它将在未来会创造更大的价值。

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
目录
相关文章
|
3月前
|
存储 缓存 分布式计算
Spark任务OOM问题如何解决?
大家好,我是V哥。在实际业务中,Spark任务常因数据量过大、资源分配不合理或代码瓶颈导致OOM(Out of Memory)。本文详细分析了各种业务场景下的OOM原因,并提供了优化方案,包括调整Executor内存和CPU资源、优化内存管理策略、数据切分及减少宽依赖等。通过综合运用这些方法,可有效解决Spark任务中的OOM问题。关注威哥爱编程,让编码更顺畅!
238 3
|
19天前
|
SQL 存储 缓存
EMR Serverless StarRocks 全面升级:重新定义实时湖仓分析
本文介绍了EMR Serverless StarRocks的发展路径及其架构演进。首先回顾了Serverless Spark在EMR中的发展,并指出2021年9月StarRocks开源后,OLAP引擎迅速向其靠拢。随后,EMR引入StarRocks并推出全托管产品,至2023年8月商业化,已有500家客户使用,覆盖20多个行业。 文章重点阐述了EMR Serverless StarRocks 1.0的存算一体架构,包括健康诊断、SQL调优和物化视图等核心功能。接着分析了存算一体架构的挑战,如湖访问不优雅、资源隔离不足及冷热数据分层困难等。
|
3月前
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
217 2
|
4月前
|
SQL 分布式计算 Serverless
阿里云 EMR Serverless Spark 版正式开启商业化
阿里云 EMR Serverless Spark 版正式开启商业化,内置 Fusion Engine,100% 兼容开源 Spark 编程接口,相比于开源 Spark 性能提升300%;提供 Notebook 及 SQL 开发、调试、发布、调度、监控诊断等一站式数据开发体验!
192 3
阿里云 EMR Serverless Spark 版正式开启商业化
|
4月前
|
消息中间件 分布式计算 Java
Linux环境下 java程序提交spark任务到Yarn报错
Linux环境下 java程序提交spark任务到Yarn报错
58 5
|
4天前
|
人工智能 运维 物联网
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。
|
4月前
|
人工智能 自然语言处理 Serverless
阿里云函数计算 x NVIDIA 加速企业 AI 应用落地
阿里云函数计算与 NVIDIA TensorRT/TensorRT-LLM 展开合作,通过结合阿里云的无缝计算体验和 NVIDIA 的高性能推理库,开发者能够以更低的成本、更高的效率完成复杂的 AI 任务,加速技术落地和应用创新。
205 13
|
13天前
|
存储 人工智能 Serverless
7分钟玩转 AI 应用,函数计算一键部署 AI 生图大模型
人工智能生成图像(AI 生图)的领域中,Stable Diffusion WebUI 以其强大的算法和稳定的输出质量而闻名。它能够快速地从文本描述中生成高质量的图像,为用户提供了一个直观且高效的创作平台。而 ComfyUI 则以其用户友好的界面和高度定制化的选项所受到欢迎。ComfyUI 的灵活性和直观性使得即使是没有技术背景的用户也能轻松上手。本次技术解决方案通过函数计算一键部署热门 AI 生图大模型,凭借其按量付费、卓越弹性、快速交付能力的特点,完美实现低成本,免运维。
|
30天前
|
人工智能 Serverless API
尽享红利,Serverless构建企业AI应用方案与实践
本次课程由阿里云云原生架构师计缘分享,主题为“尽享红利,Serverless构建企业AI应用方案与实践”。课程分为四个部分:1) Serverless技术价值,介绍其发展趋势及优势;2) Serverless函数计算与AI的结合,探讨两者融合的应用场景;3) Serverless函数计算AIGC应用方案,展示具体的技术实现和客户案例;4) 业务初期如何降低使用门槛,提供新用户权益和免费资源。通过这些内容,帮助企业和开发者快速构建高效、低成本的AI应用。
74 12
|
5月前
|
Serverless API 异构计算
函数计算产品使用问题之修改SD模版应用的运行环境
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。