双管齐下,MaxCompute数据上云与生态
在票选最美云上大数据暨大数据技术峰会上,来自飞天一部的朋春从MaxCompute提供的离线、实时数据通道入手,延伸到DTS、Logstash、DataX等官方/开源软件,向大家介绍如何从数据库、本地文件等多种存储向MaxCompute导入数据,分享最后还介绍了如何在Python和R语言中使用MaxCompute。
odps之sql性能优化
前一段时间做了一些作业成本优化的工作,这里做下总结。
首先说明本篇中谈及的优化主要的目标是在不大幅度增加作业运行时长的条件下对作业运行成本的优化。
## 1. odps的优化引擎并没有那么智能
odps自带的优化引擎会对sql作业做一定的优化处理,如列裁剪、分区裁剪和谓词下推。
三天100元从零开始搭建Hadoop集群
三天时间高效搭建Hadoop集群:第一天启动集群并编译Word Count;第二天建立集群的远程自动控制系统;第三天,学习中文分词。高效的经验:和阿里团队互动,多要工程而不是代码,对阿里有关产品清楚认识
Spark计算过程分析
### 基本概念
----------
Spark是一个分布式的内存计算框架,其特点是能处理大规模数据,计算速度快。Spark延续了Hadoop的MapReduce计算模型,相比之下Spark的计算过程保持在内存中,减少了硬盘读写,能够将多个操作进行合并后计算,因此提升了计算速度。同时Spark也提供了更丰富的计算API。
MapReduce是Hadoop和Spark的计算模型,其特点