文档备案控制台

开发者社区数据库 NoSQL数据库文章正文

HBase+Spark技术双周刊第六期

2019-04-08 3184

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 近期直播回看技术沙龙问答专栏

【点击订阅HBase+Spark技术双周刊】

400083221

近期线上直播

HBase中Coprocessor的介绍以及实际业务场景中的使用
本期直播中，快手大数据高级研发工程师陈杨将讲解HBase coprocessor的原理以及使用场景，coprocessor整个流程实战，包括开发，加载，运行以及管理，并结合1、2分析coprocessor在rsgroup中的具体使用。

HBase源码解析 
本期直播中，陆金所研发工程师米麒麟将帮助大家解析HBase Read读流程源码、HBase Write写流程源码以及HBase Flush & Compact流程源码。

Phoenix queryserver
本期直播中，阿里数据库产品专家瑾谦将为大家解答三个问题，即：什么是Phoenix QueryServer？为什么要用QueryServer？怎样使用QueryServer？

直播往期回顾——视频回看及PPT下载

线下沙龙

中国HBase技术社区第十届meetup——HBase生态实践（杭州站） 
中国HBase技术社区第十届meetup——HBase生态实践（杭州站）回顾，4位数据库技术大咖共话HBase技术实践。

问答专栏

欢迎大家提问，一起探讨HBase&Spark技术

技术社群

【HBase生态+Spark社区大群】
群福利：群内每周进行群直播技术分享及问答
加入方式1：点击link申请加入
加入方式2：钉钉扫码加入

文章标签：

云数据库 HBase 版

数据库

大数据

Hbase

分布式数据库

关键词：

apache spark技术

云数据库 HBase 版技术

apache spark hbase

云数据库 HBase 版spark

hbase apache spark

hbase小能手

目录

相关文章

Echo_Wish

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

783 79 80

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第27天】在大数据时代，数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件，通过HDFS存储数据和Spark进行高效计算，实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践，包括数据存储、处理、安全和可视化等方面，展示了它们在实际应用中的协同效应。

土木林森

770 2 2

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用，通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理，确保高可靠性和容错性；Spark则凭借其高性能和丰富的API，进行深度分析和机器学习，实现高效的批处理和实时处理。

土木林森

694 1 1

张飞的猪

|

分布式计算大数据 Spark

Spark大数据处理：技术、应用与性能优化(全)PDF书籍推荐分享

《Spark大数据处理：技术、应用与性能优化》深入浅出介绍Spark核心，涵盖部署、实战与性能调优，适合初学者。作者基于微软和IBM经验，解析Spark工作机制，探讨BDAS生态，提供实践案例，助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)

张飞的猪

659 1 1

Spark大数据处理：技术、应用与性能优化(全)PDF书籍推荐分享

喜欢猪猪

|

分布式计算 Java Apache

Apache Spark Streaming技术深度解析

【9月更文挑战第4天】Apache Spark Streaming是Apache Spark生态系统中用于处理实时数据流的一个重要组件。它将输入数据分成小批次（micro-batch），然后利用Spark的批处理引擎进行处理，从而结合了批处理和流处理的优点。这种处理方式使得Spark Streaming既能够保持高吞吐量，又能够处理实时数据流。

喜欢猪猪

473 0 0

jjczqyjxgdegi

|

机器学习/深度学习分布式计算 API

技术好文：Spark机器学习笔记一

技术好文：Spark机器学习笔记一

jjczqyjxgdegi

276 0 0

游客zn7mvnkypuy76

|

存储 SQL 分布式计算

技术心得记录：深入学习HBase架构原理

技术心得记录：深入学习HBase架构原理

游客zn7mvnkypuy76

492 0 0

hnrk7epeorhrk

|

存储缓存分布式计算

必知的技术知识：Hbase配置（伪分布式模式）

必知的技术知识：Hbase配置（伪分布式模式）

hnrk7epeorhrk

1601 0 0

开源大数据EMR

|

SQL 分布式计算 Scala

[转载] 是时候学习真正的 spark 技术了

spark sql 可以说是 spark 中的精华部分了，我感觉整体复杂度是 spark streaming 的 5 倍以上，现在 spark 官方主推 structed streaming， spark streaming 维护的也不积极了，我们基于 spark 来构建大数据计算任务，重心也要...

开源大数据EMR

2865 0 1

大熊计算机

|

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

691 0 0

数据库

NoSQL数据库

热门文章

最新文章

【HBase从入门到精通系列】如何避免HBase写入过快引起的各种问题

redis4.0之基于LFU的热点key发现机制

时空数据库系列（二）-空间数据典型处理

MongoDB数据建模小案例：物联网时序数据库建模

云数据库MongoDB为什么需要限制连接数？

阿里云TSDB在大数据集群监控中的方案与实战

云HBase X-Pack解决传统数据仓库瓶颈，赋能客户计算分析业务

开源大数据技术社区召集令

图数据库HGraphDB介绍

时序数据库连载系列：Berkeley 的黑科技 BTrDB

海量Token免费送｜4步上手Tair语义缓存：让AI应用不再为重复问题烧钱

国内首发｜AI Native, Now——阿里云正式发布MongoDB 8.3版本

【赵渝强老师】MongoDB的视图

大模型调用太贵？阿里云Tair语义缓存公测：命中即省

AI时代下的数智投研：九方智投携手阿里云MongoDB打造智能投顾新范式

【赵渝强老师】Redis中的字符串

“拆墙”现场：阿里云 Tair KVCache 携手 SGLang、千问与 NVIDIA 共话大模型推理优化

【上海站】SGLang和ta的朋友们：共探大模型推理新范式

基于 VectorDBBench 的性能评测与架构解析：Lindorm 向量引擎的优化实践

20,000核算力护航！Tair Serverless KV 助力鹰角新游《明日方舟：终末地》全球公测

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

云数据库HBase版使用教程

HBase入门教程

分布式数据库 HBase 快速入门

大数据实时计算框架Spark快速入门

相关电子书

更多

大数据时代的存储 ——HBase的实践与探索

Hbase在滴滴出行的应用场景和最佳实践

阿里云HBase主备双活

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！