MaxCompute

首页 标签 MaxCompute
# MaxCompute #
关注
13844内容
【Spark Summit East 2017】Spark中的草图数据和T-Digest
本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化、优化数据编码、估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示、分位数估计以及数据合成的作用。
通过MaxCompute Studio创建UDF的简单介绍
UDF(User Defined Function), MaxCompute(原ODPS)里的东西, 之前经常听到开发同学讲, 自己一直没有去接触, 最近因为项目需要, 调研了一下UDF, 本文简单地介绍了一下如何新建工程, 添加代码,打包,上传资源包和注册方法, 对初次接触的小白同学,可能会有所帮助.
PostgreSQL技术周刊第18期:掀开 PostgreSQL 的盖头
PostgreSQL(简称PG)的开发者们:云栖社区已有5000位PG开发者,发布了3000+PG文章(文章列表),沉淀了700+的PG精品问答(问答列表)。 PostgreSQL技术周刊会为大家介绍最新的PG技术与动态、预告活动、最热问答、直播教程等,欢迎大家订阅PostgreSQL技术周刊。
解决MaxCompute SQL count distinct多个字段的方法
按照惯性思维,统计一个字段去重后的条数我们的sql写起来如下: Distinct的作用是用于从指定集合中消除重复的元组,经常和count搭档工作,语法如下 COUNT( { [ DISTINCT ] expression ] | * } ) 这时,可能会碰到如下情况,你想统计同时有多列字段重复的数目,你可能会立马想到如下方法: select count( distinct col1 , col2 , col3 , .......) from table 但是,这样是有问题的,如果值包含空,那么我们的结果是什么呢?如果你实验过,正如你实验的一样,结果会比实际少。
昨日广州云栖“大算”受追捧,今日揭秘阿里双11技术核武器MaxCompute,感恩节再放福利!(活动已结束)
MaxCompute感谢最最亲爱的客户,感谢您信任的将我选择,感谢您期待的将未来托付,更感谢您包容的与我比肩同行。感恩不应只在今天说出,而是在有你们支持走过的每一天。为亲爱的客户们奉上载满MaxCompute团队伙伴们感恩和祝福的话儿 “感恩有你,一路同行”。(文末有福利哦~)
基于MaxCompute的数仓数据质量管理
数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理。随着业务的增加,数据的应用越来越多,企业在创建的数仓过程中对数据的管理也提出了更高的要求,而数据质量也是数仓建设过程不容忽视的环节。本文针对MaxCompute数仓建设过程中如何做数据质量给出规范建议,为实际数据治理提供依据及指导。
【Spark Summit East 2017】EasyMapReduce:利用Spark与Docker以MapReduce方式赋能大规模科学工具
本讲义出自Marco Cappucini在Spark Summit East 2017上的演讲,主要介绍了如何通过借助Spark和Docker在分布式数据集上使串行软件能够并行运行,瑞典的Uppsala大学开发了基于Spark的能够以MapReduce方式运行Docker容器的实用程序EasyMapReduce,分享了面对处理大型分布式数据集的挑战,EasyMapReduce是如何帮助实现科学研究的。
【Spark Summit East 2017】RISE实验室: 赋能智能实时决策
本讲义出自Ion Stoica在Spark Summit East 2017上的演讲,主要分享了其所在的加州大学伯克利分校的RISELab的研究方向,并讨论了一些RISE技术能够输出的应用方向。
【Spark Summit East 2017】虚拟化分析,Spark是最好的答案么?
本讲义出自Arsalan Tavakoli在Spark Summit East 2017上的演讲,主要对于虚拟化分析的技术路线的发展进行了探讨。
免费试用