Spark的搜索结果_第10页-阿里云开发者社区

Python大数据分析

|

3月前

|

博文

几行 Python 代码就可以提取数百个时间序列特征

# 机器学习/深度学习 # 分布式计算 # 大数据 # Spark # Python

郑小健

|

3月前

|

博文

|

来自：大数据与机器学习

Hadoop与机器学习的融合：案例研究

【8月更文第28天】随着大数据技术的发展，Hadoop已经成为处理大规模数据集的重要工具。同时，机器学习作为一种数据分析方法，在各个领域都有着广泛的应用。本文将介绍如何利用Hadoop处理大规模数据集，并结合机器学习算法来挖掘有价值的信息。我们将通过一个具体的案例研究——基于用户行为数据预测用户留存率——来展开讨论。

# 机器学习/深度学习 # 存储 # 分布式计算 # Hadoop # Spark

郑小健

|

3月前

|

博文

|

来自：大数据与机器学习

Hadoop生态系统概览：从HDFS到Spark

【8月更文第28天】Hadoop是一个开源软件框架，用于分布式存储和处理大规模数据集。它由多个组件构成，旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件，包括HDFS、MapReduce、YARN，并探讨它们如何与现代大数据处理工具如Spark集成。

# 存储 # 分布式计算 # 资源调度 # Hadoop # Spark

郑小健

|

3月前

|

博文

|

来自：大数据与机器学习

RabbitMQ与大数据平台的集成

【8月更文第28天】在现代的大数据处理架构中，消息队列作为数据传输的关键组件扮演着重要的角色。RabbitMQ 是一个开源的消息代理软件，它支持多种消息协议，能够为分布式系统提供可靠的消息传递服务。本篇文章将探讨如何使用 RabbitMQ 与 Hadoop 和 Spark 进行集成，以实现高效的数据处理和分析。

# 云消息队列 MQ # 云原生大数据计算服务 MaxCompute # 消息中间件 # 分布式计算 # 大数据 # Hadoop # Spark

土木林森

|

3月前

|

博文

跨越界限：当.NET遇上Apache Spark，大数据世界的新篇章如何谱写？

【8月更文挑战第28天】随着信息时代的发展，大数据已成为推动企业决策、科研与技术创新的关键力量。Apache Spark凭借其卓越的分布式计算能力和多功能数据处理特性，在大数据领域占据重要地位。然而，对于.NET开发者而言，如何在Spark生态中发挥自身优势成为一个新课题。为此，微软与Apache Spark社区共同推出了.NET for Apache Spark，使开发者能用C#、F#等语言编写Spark应用，不仅保留了Spark的强大功能，还融合了.NET的强类型系统、丰富库支持及良好跨平台能力，极大地降低了学习门槛并拓展了.NET的应用范围。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # 大数据 # Apache # Spark # 开发者

嘟嘟嘟嘟嘟嘟

|

3月前

|

问答

|

来自：数据库

DMS spark sql没办法预览结果（像跑sql取数一样）有没有好的解决办法呢？

# 数据管理 # SQL # 分布式计算 # Spark # 数据库管理

FeelTouchLabs

|

3月前

|

博文

airflow是什么

Apache Airflow是一个用于调度和监控有依赖任务的工作流平台，它使用Python编程定义任务和工作流，提供了命令行和Web界面工具，支持包括Spark、MR、Hive在内的多种数据处理任务的提交和管理。

# 分布式计算 # 监控 # 调度 # Spark # Python

土木林森

|

3月前

|

博文

《数据湖的时空穿越：Delta Lake如何用版本控制解锁历史迷雾》

【8月更文挑战第27天】Delta Lake作为一个开源的存储层为Apache Spark及大数据工作流带来了事务性支持与数据版本控制功能。通过将数据表视作一系列不可变的事务日志记录，Delta Lake实现了数据一致性的保障。它支持ACID事务并允许用户追踪和管理数据表的不同版本。利用提供的示例代码可以看到如何对Delta Lake表进行操作、查询特定版本甚至回滚至早期版本。随着数据湖架构的发展，Delta Lake正逐渐成为管理大规模数据集的关键工具。

# 日志服务 # 存储 # 分布式计算 # 大数据 # Apache # Spark

土木林森

|

3月前

|

博文

【大数据管理新纪元】EMR Delta Lake 与 DLF 深度集成：解锁企业级数据湖的无限潜能！

【8月更文挑战第26天】随着大数据技术的发展，Apache Spark已成为处理大规模数据集的首选工具。亚马逊的EMR服务简化了Spark集群的搭建和运行流程。结合使用Delta Lake（提供ACID事务保证和数据版本控制）与DLF（加强数据访问控制及管理），可以显著提升数据湖的可靠性和性能。本文通过一个电商公司的具体案例展示了如何在EMR上部署集成Delta Lake和DLF的环境，以及这一集成方案带来的几大优势：增强的可靠性、细粒度访问控制、性能优化以及易于管理的特性。这为数据工程师提供了一个高效且灵活的数据湖平台，简化了数据湖的建设和维护工作。

# 数据管理 # 访问控制 # 分布式计算 # 大数据 # 数据处理 # 数据安全/隐私保护 # Spark

番茄酱脑袋

|

3月前

|

博文

联通实时计算平台问题之实时计算平台对于用户订阅和数据下发是如何支持的

# 云消息队列 Kafka 版 # 实时计算 Flink版 # 消息中间件 # 分布式计算 # Kafka # 流计算 # Spark

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Spark