备案控制台

分布式计算

# 分布式计算 #

3 关注

37845内容

最新热门文章问答视频电子书课程

阿里云大数据

|

7天前

|

博文

|

来自：大数据与机器学习

阿里云大数据AI产品月刊-2025年11月

大数据& AI 产品技术月刊【2025年 11 月】，涵盖 11 月技术速递、产品和功能发布、市场和客户应用实践等内容，帮助您快速了解阿里云大数据& AI 方面最新动态。

# SQL # 人工智能 # 分布式计算 # 大数据 # MaxCompute

霖玉

|

7天前

|

博文

08 | 索引构建：搜索引擎如何为万亿级别网站生成索引？

针对超大规模数据场景，如搜索引擎需处理万亿级网页，倒排索引远超内存容量。本文介绍通过分治思想将文档集拆分为小块，在内存中构建局部倒排索引，再写入磁盘生成有序临时文件，最后利用多路归并技术合并为全局倒排索引。该过程可迁移至MapReduce框架实现分布式加速。检索时，优先将词典加载至内存（如哈希表或FST），结合B+树或跳表等结构高效访问磁盘中的posting list，辅以缓存优化IO。核心理念是“数据尽量入内存”与“分而治之”，兼顾效率与扩展性。

# 存储 # 自然语言处理 # 分布式计算 # 搜索推荐 # 索引

阿里云大数据

|

8天前

|

博文

|

来自：大数据与机器学习

活动报名 | Apache Spark Meetup · 上海站，助力企业构建高效数据平台

2025年12月20日，上海 · 阿里巴巴徐汇滨江园区，Apache Spark Meetup 助力企业构建高效数据平台，欢迎报名！

# 开源大数据平台 E-MapReduce # 分布式计算 # Serverless # 数据处理 # Apache # Spark

Echo_Wish

|

9天前

|

博文

|

来自：大数据与机器学习

别让数据平台“盲开车”：可观测性三件套（指标、日志、追踪）到底怎么落地？

别让数据平台“盲开车”：可观测性三件套（指标、日志、追踪）到底怎么落地？

# 消息中间件 # 分布式计算 # 大数据 # Kafka # 流计算

xxrjl

|

9天前

|

博文

|

来自：大数据与机器学习

【MaxCompute SQL AI 实操教程】0元体验使用大模型提效数据分析

【MaxCompute SQL AI 实操教程】0元体验使用大模型提效数据分析

# 大模型服务平台百炼 # SQL # 人工智能 # 分布式计算 # 数据挖掘 # MaxCompute

Echo_Wish

|

11天前

|

博文

|

来自：大数据与机器学习

大数据指标和 SLA，那些你以为懂了其实没懂的事

大数据指标和 SLA，那些你以为懂了其实没懂的事

# Prometheus # 分布式计算 # 监控 # Cloud Native # 大数据

Echo_Wish

|

13天前

|

博文

|

来自：大数据与机器学习

Spark 批处理调优这点事：资源怎么要、Shuffle 怎么省、序列化怎么选？我用这些年踩过的坑告诉你

Spark 批处理调优这点事：资源怎么要、Shuffle 怎么省、序列化怎么选？我用这些年踩过的坑告诉你

# 分布式计算 # 资源调度 # 运维 # Java # Spark

Echo_Wish

|

14天前

|

博文

|

来自：大数据与机器学习

分布式计算调度器浅谈：YARN、Kubernetes、Mesos 到底图啥？

分布式计算调度器浅谈：YARN、Kubernetes、Mesos 到底图啥？

# 容器服务Kubernetes版 # 资源调度 # 分布式计算 # Kubernetes # 调度 # 容器

站大爷

|

14天前

|

博文

Pandas处理大规模数据：分块读取与内存优化实战指南

本文揭秘Pandas处理大规模数据的实战技巧，从分块读取、内存优化到高效存储，结合真实案例教你如何在8GB内存环境下流畅处理50GB数据，彻底告别“MemoryError”。

# 存储 # 分布式计算 # 数据可视化 # 大数据 # Python

Echo_Wish

|

14天前

|

博文

|

来自：大数据与机器学习

Parquet 和 ORC 到底有啥区别？别再云里雾里了，咱今天把列式存储聊明白！

Parquet 和 ORC 到底有啥区别？别再云里雾里了，咱今天把列式存储聊明白！

# SQL # 存储 # 分布式计算 # HIVE # Spark

1

...

4

5

6

...

20

免费试用