Spark的搜索结果_第17页-阿里云开发者社区

提问的橘子

|

4月前

|

问答

|

来自：大数据与机器学习

dataworks可以开发spark streaming任务吗？

# 大数据开发治理平台 DataWorks # 流计算 # 分布式计算 # Spark # DataWorks

土木林森

|

4月前

|

博文

“Spark Streaming异常处理秘籍：揭秘如何驯服实时数据流的猛兽，守护你的应用稳如泰山，不容错过！”

【8月更文挑战第7天】Spark Streaming 是 Apache Spark 中的关键组件，用于实时数据流处理。部署时可能遭遇数据问题、资源限制或逻辑错误等异常。合理处理这些异常对于保持应用稳定性至关重要。基础在于理解其异常处理机制，通过 DSC 将数据流切分为 RDD。对于数据异常，可采用 try-catch 结构捕获并处理；资源层面异常需优化 Spark 配置，如调整内存分配；逻辑异常则需加强单元测试及集成测试。结合监控工具，可全面提升应用的健壮性和可靠性。

# 分布式计算 # 资源调度 # 测试技术 # Spark # 流计算

土木林森

|

4月前

|

博文

【决战大数据之巅】：Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决！

【8月更文挑战第7天】随着大数据需求的增长，Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务，易于设置，适用于小规模或独立部署；而 YARN 作为 Hadoop 的资源管理系统，支持资源的统一管理和调度，更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。

# 云原生大数据计算服务 MaxCompute # 资源管理 # 分布式计算 # 资源调度 # 大数据 # Hadoop # Spark

土木林森

|

4月前

|

博文

Spark 与 Hadoop 的大数据之战：一场惊心动魄的技术较量，决定数据处理的霸权归属！

【8月更文挑战第7天】无论是 Spark 的高效内存计算，还是 Hadoop 的大规模数据存储和处理能力，它们都为大数据的发展做出了重要贡献。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # Hadoop # 大数据 # 数据处理 # Spark

土木林森

|

4月前

|

博文

大数据处理竟然这么简单？学会这几招，你也能在数据洪流中游刃有余，秒变数据大师！

【8月更文挑战第6天】面对海量数据，有效处理成为关键。本文介绍大规模数据处理的核心挑战及解决方案，涵盖分布式存储（如HDFS）和计算（如Spark）。通过示例代码展示HDFS文件读写及Spark数据处理流程。此外，还强调了数据质量、安全及合理资源配置的重要性，助您在数据海洋中洞察先机。

# 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # 大数据 # 数据处理 # Spark

土木林森

|

4月前

|

博文

惊了！大数据时代来袭，传统数据处理OUT了？创新应用让你眼界大开，看完这篇秒变专家！

【8月更文挑战第6天】在数据爆炸的时代，高效利用大数据成为关键挑战与机遇。传统数据处理手段难以胜任现今海量数据的需求。新兴的大数据技术，如HDFS、NoSQL及MapReduce、Spark等框架，为大规模数据存储与处理提供了高效解决方案。例如，Spark能通过分布式计算极大提升处理速度。这些技术不仅革新了数据处理方式，还在金融、电商等领域催生了风险识别、市场预测及个性化推荐等创新应用。

# 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # 大数据 # 数据处理 # Spark

Byyyi

|

4月前

|

博文

环境变量配置文件中两种路径添加方式

本文介绍Linux环境下配置HBase与Spark的环境变量方法及区别。通过将`HBASE_HOME/bin`与`SPARK_HOME/bin`添加至`PATH`变量，实现命令行工具的全局访问。HBase将其置于`PATH`末尾，而Spark置于开头，这意味着Spark相关命令将被优先调用。这种设置便于管理软件依赖并确保正确版本的执行。

# 云数据库HBase版 # 分布式计算 # Linux # 分布式数据库 # Spark # Hbase

萝卜丝丸子

|

4月前

|

问答

Spark Streaming在处理信令数据时为什么会出现不稳定的情况？

# 流计算 # 分布式计算 # Spark

BetterBench

|

4月前

|

博文

【数据挖掘工程师-笔试】2022年大华股份

本文是关于2022年大华股份数据挖掘工程师笔试的题目及答案分析，涵盖了数据仓库、统计函数、范数计算、交叉验证方法、分类算法评价标准、随机森林、RDD特性、Hadoop核心组件等方面的问题和解答。

# 机器学习/深度学习 # 缓存 # 分布式计算 # 数据挖掘 # Spark

BetterBench

|

4月前

|

博文

【Deepin 20系统】Linux 系统安装Spark教程及使用

在Deepin 20系统上安装和使用Apache Spark的详细教程，包括安装Java JDK、下载和解压Spark安装包、配置环境变量和Spark配置文件、启动和关闭Spark集群的步骤，以及使用Spark Shell和PySpark进行简单操作的示例。

# 分布式计算 # Java # Linux # 开发工具 # Spark

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Spark