分布式计算

首页 标签 分布式计算
# 分布式计算 #
关注
37845内容
阿里云大数据AI产品月刊-2025年11月
大数据& AI 产品技术月刊【2025年 11 月】,涵盖 11 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
7天前
|
08 | 索引构建:搜索引擎如何为万亿级别网站生成索引?
针对超大规模数据场景,如搜索引擎需处理万亿级网页,倒排索引远超内存容量。本文介绍通过分治思想将文档集拆分为小块,在内存中构建局部倒排索引,再写入磁盘生成有序临时文件,最后利用多路归并技术合并为全局倒排索引。该过程可迁移至MapReduce框架实现分布式加速。检索时,优先将词典加载至内存(如哈希表或FST),结合B+树或跳表等结构高效访问磁盘中的posting list,辅以缓存优化IO。核心理念是“数据尽量入内存”与“分而治之”,兼顾效率与扩展性。
活动报名 | Apache Spark Meetup · 上海站,助力企业构建高效数据平台
2025年12月20日,上海 · 阿里巴巴徐汇滨江园区,Apache Spark Meetup 助力企业构建高效数据平台,欢迎报名!
Spark 批处理调优这点事:资源怎么要、Shuffle 怎么省、序列化怎么选?我用这些年踩过的坑告诉你
Spark 批处理调优这点事:资源怎么要、Shuffle 怎么省、序列化怎么选?我用这些年踩过的坑告诉你
|
14天前
|
Pandas处理大规模数据:分块读取与内存优化实战指南
本文揭秘Pandas处理大规模数据的实战技巧,从分块读取、内存优化到高效存储,结合真实案例教你如何在8GB内存环境下流畅处理50GB数据,彻底告别“MemoryError”。
Parquet 和 ORC 到底有啥区别?别再云里雾里了,咱今天把列式存储聊明白!
Parquet 和 ORC 到底有啥区别?别再云里雾里了,咱今天把列式存储聊明白!
免费试用