开源大数据周刊-第19期
本周关注:马云谈云计算、大数据、人工智能未来三十年,E-MapReduce存储计算分离,真实的大数据故事,spark session及spark mmlib、presto+oss
从 Storm 到 Flink,汽车之家基于 Flink 的实时 SQL 平台设计思路与实践
汽车之家的实时 SQL 平台设计思路与实践,主要从架构及设计思路、基于 Flink SQL 平台的实时数仓的实践及使用案例、后续规划。
Apache Flink 漫谈系列(10) - JOIN LATERAL
聊什么 上一篇《Apache Flink 漫谈系列 - JOIN算子》我们对最常见的JOIN做了详尽的分析,本篇介绍一个特殊的JOIN,那就是JOIN LATERAL。JOIN LATERAL为什么特殊呢,直观说因为JOIN的右边不是一个实际的物理表,而是一个VIEW或者Table-valued Funciton。
Docker时代——如何实现日志数据一键上云
1 准备工作 1.1 开通MaxCompute服务 参考使用MaxCompute的准备工作 1.2 开通Datahub服务 进入Datahub Web控制台,创建project(注意:首次使用的用户需要申请开通) 1.3 安装Docker环境 Docker官方说明了在不同操作系统下安装Docker的方法,您可以点击此处查看。
十年磨一剑,阿里巴巴推荐与搜索深度学习服务体系AI·OS在云栖大会正式亮相
2018年9月21~22日,在以“驱动数字科技”为主题的云栖大会上,阿里巴巴搜索事业部特别推出了“搜索推荐专场”,“推荐与搜索引擎AI·OS专场”,深度参与了这场科技盛宴。 阿里巴巴推荐与搜索引擎平台支持了包括淘宝、天猫、菜鸟、优酷以及海外电商在内的整个阿里集团的推荐与搜索业务,引导成交占据了集团GMV的绝大部分份额。
Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望
阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。
80后阿里P10,“关老板”如何带着MaxCompute一路升级?
我是个幸运的人。虽然幸运不能被复制,但是眼光和努力可以。 “我是一个兴趣驱动型的人,职业生涯总的来说,还算挺幸运的,做自己感兴趣的事情,走上IT这一行……” 特别久以前,大概初中的时候有了自己的第一台电脑,大名鼎鼎的486,带一个数学协处理器,主频266MHz,内存有4MB。”
MaxCompute JDBC 2.2 发布说明
相比于v.1.9.1,MaxCompute JDBC v.2.2在易用性、性能以及兼容性方面都有了更好的提升,本文将对其改进与差别做一下简要的说明。
Apache Flink 漫谈系列(13) - Table API 概述
什么是Table API 在《Apache Flink 漫谈系列(08) - SQL概览》中我们概要的向大家介绍了什么是好SQL,SQL和Table API是Apache Flink中的同一层次的API抽象,如下图所示: Apache Flink 针对不同的用户场景提供了三层用户API,最下层ProcessFunction API可以对State,Timer等复杂机制进行有效的控制,但用户使用的便捷性很弱,也就是说即使很简单统计逻辑,也要较多的代码开发。
5块钱低成本阿里云大数据生态协同过滤推荐系统实战
前情提要 人工智能千千万,没法落地都白干。自从上次老司机用神经网络训练了热狗识别模型以后,群众们表示想看一波更加接地气,最好是那种能10分钟上手,一辈子受用的模型。这次,我们就通过某著名电商公司的公开数据集,在阿里云大数据生态之下快速构建一个基于协同过滤的推荐系统! 推荐系统大家都不陌生,早就已经和大家的生活息息相关。
大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《实时数据分析:海量日志数据多维透视》篇
本手册为云栖大会Workshop之《在线用户行为分析:基于流式计算的数据处理及应用》场的《实时数据分析:海量日志数据多维透视》篇所需。主要帮助现场学员熟悉并掌握阿里云数加·分析型数据库AnalyticDB的操作和使用。
云数据仓库MaxCompute最佳实践之数据上云 | 2019飞天大数据平台技术公开课第五季
秋日杲杲,大数据技术公开课第五季开播!本季主题 “云数据仓库 MaxCompute 最佳实践之数据上云”。10.22日-11.12日,每周二 19:00,一起学习大数据。
2684亿销售额背后的阿里AI技术
刚刚结束的双十一,天猫交易额达到 2684 亿元,较去年同比增长 25.7%。这一结果背后,云计算、人工智能等技术以及阿里巴巴工程师们的努力功不可没。在正在召开的 AICon 全球人工智能与机器学习技术大会 现场,阿里云智能计算平台事业部研究员林伟介绍了阿里基于飞天 AI 平台的人工智能技术及能力,揭开双 11 大规模交易场景下,阿里人工智能技术的神秘面纱。
使用DataX同步MaxCompute数据到TableStore(原OTS)优化指南
现在越来越多的技术架构下会组合使用MaxCompute和TableStore,用MaxCompute作大数据分析,计算的结果会导出到TableStore提供在线访问。MaxCompute提供海量数据计算的能力,而TableStore提供海量数据高并发低延迟读写的能力。
还在用Hadoop么?Hadoop服务器造成5PB数据泄露,中国、美国受波及最大!
根据John Matherly的说法,不适当地配置HDFS服务器——主要是Hadoop安装——将会泄露超过5PB的信息。John Matherly是用于发现互联网设备的搜索引擎Shodan的创始人。 这位专家说,他发现了4487个HDFS服务器实例,这些服务器可通过公共IP地址获得,而且不需要身份验证。
体系结构顶会 ASPLOS 2017 最佳论文出炉,阿里云周靖人主旨演讲
2017年4月11日晚,在西安举行的架构体系的顶级会议ASPLOS(面向编程语言和操作系统的架构支持会议,Architectural Support for Programming Languages and Operating Systems)公布了最佳论文、最有影响力论文和 Test of Time 几项大奖。
通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析
通过DataWorks归档日志服务数据至MaxCompute
如何分析及处理 Flink 反压?
反压(backpressure)是实时计算应用开发中,特别是流式计算中,十分常见的问题。反压意味着数据管道中某个节点成为瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。
MaxCompute多团队协同数据开发项目管理最佳实践
本文主要介绍厦门美柚科技有限公司在基于MaxCompute多团队协同数据开发项目管理,权限管理,以及数据,资源共享的最佳实践
借助数加,原来需要2-3天的单维度数据处理时间,目前仅需3-6小时,研发周期更短,产品需求符合度更高。
“在原来自建的环境里进行一个维度的数据处理大约需要 2-3天时间,而使用数加平台处理相同数据只需要 3-6 个小时。这些效率的提升可以缩短数据分析应用产品的研发周期,并能更好的提高这些产品的需求符合度。
Spark Operator浅析
Spark Operator浅析 本文介绍Spark Operator的设计和实现相关的内容. Spark运行时架构 经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最通用的模块逐渐与框架解耦,独立成通用的组件.
基于 MaxCompute 的极速的基因测序分析
转载自yizhuo 基因、测序、分析 基因,生命的基本因素,是人类和其他生物的基础遗传物质。人有 23 对染色体,总共记录了大约 3Gb 个碱基(这里的 b 是 base,即碱基,可不是 bit,参考这里),每个位置上的碱基可能是 ATCG 中的一个。简单理解起来,就是有了这 3Gb 长的字
用 MaxCompute Studio 查看作业排队详情
本文首先对MaxCompute作业执行的各个阶段进行说明,然后以MaxCompute Studio为例,说明如何查看作业排队位置,查看队列详情以及作业状态转换历史信息。
PTC联手阿里云共同提高中国工业4.0认可度
“很多企业对一些新事物的接受速度不够快,这不能怪我们的企业家,这其实是因为我们整个市场要做这样的转型,这本身就是一个比较复杂和需要下定决心的事情。”PTC(美国参数软件公司)全球副总裁兼中国区总裁寿宇澄这样评价中国工业企业对转型的犹疑态度。
索引压缩算法New PForDelta简介以及使用SIMD技术的优化
New PForDelta算法介绍 倒排索引的数据包括docid, term frequency, term position等,往往会占用很大的磁盘空间,需要进行压缩。压缩算法需要考虑两点:压缩效果和解压缩效率。
报警分析云上集成解决方案
为了方便用户云上分析大数据的需求,报警分析云上集成解决方案提供了一系列的数据分析产品,可以帮助各类客户快速轻松地构建和部署大数据分析应用。
E-MapReduce HDFS文件快速CRC校验工具介绍
在大数据应用场景下经常有数据文件的迁移工作,如果保障迁移之后数据的完整性是一个很常见的问题。本文就给大家介绍一下在大数据场景下,如何用工具快速对比文件。
通过Fluentd实时上传数据到DataHub实践
本文把我通过Flunetd,把数据上传到DataHub的配置过程记录下来,希望对大家在配置中能有帮助。
Structured Streaming VS Flink
Flink是标准的实时处理引擎,而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微批处理的,不过现在Spark Streaming已经非常稳定基本都没有更新了,然后重点移到spark sql和structured Streaming了。
开源大数据周刊-第21期
本周关注:大数据教育、翻译行业应用,大数据与管理的关系、hadoop与mpp的关系、Facebook 60T+的spark应用
计算广告与流处理技术综述
案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 1.计算广告背景 广告仍然是互联网公司的主要变现手段,其市场规模2017年已达3000亿元,据统计全球互联网市值前十的公司广告收入占比高达40%,可见其重要性。
Spark SQL 性能优化再进一步:CBO 基于代价的优化
本文将介绍 CBO,它充分考虑了数据本身的特点(如大小、分布)以及操作算子的特点(中间结果集的分布及大小)及代价,从而更好的选择执行代价最小的物理执行计划,即 SparkPlan。
MaxCompute - ODPS重装上阵 第一弹 - 善用MaxCompute编译器的错误和警告
MaxCompute (ODPS) ( __注1__ )是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 ODPS2.0除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力。
基于阿里云数加平台的大数据Serverless实践
本文PPT来自班输于10月16日在2016年杭州云栖大会上发表的《基于阿里云数加平台的大数据Serverless实践》。
Flink入坑指南 第四章:SQL中的经典操作Group By+Agg
Flink入坑指南系列文章,从实际例子入手,一步步引导用户零基础入门实时计算/Flink,并成长为使用Flink的高阶用户。 简介 Group By + Agg这个最经典的SQL使用方式。Group By是SQL中最基础的分组操作,agg的全称是aggregation(聚合操作),是一类SQL算子的统称,Flink中最常用的Agg操作有COUNT/SUM/AVG等,详情参见Flink支持的聚合操作列表。
阿里巴巴大数据运维平台实践
MaxCompute是阿里巴巴内部唯一的大数据处理平台,在全球十几个地区提供公有云服务,为上百家专有云输出计算能力。作为支撑如此庞大系统的SRE团队,如何从容面对的是EB级数据,TB级带宽,上百万块硬盘,以及数上万的客户工单?
端到端GPU性能优化在深度学习场景下的应用实践
摘要在2017杭州云栖大会机器学习平台PAI专场上阿里巴巴高级算法专家杨军结合具体案例分享了端到端GPU性能优化在深度学习场景下的应用实践。 本文内容根据嘉宾演讲视频以及PPT整理而成。 目前深度学习和GPU已经成为了人工智能的基础一软一硬的结合能够帮助我们实现图像识别、语音识别以及视频的处理那么如何优化深度学习框架与GPU资源也是机器学习平台的一个研究方向。
日处理数据量超10亿:友信金服基于Flink构建实时用户画像系统的实践
在此背景下,友信金服公司推行全域的数据体系战略,通过打通和整合集团各个业务线数据,利用大数据、人工智能等技术构建统一的数据资产,如 ID-Mapping、用户标签等。友信金服用户画像项目正是以此为背景成立,旨在实现“数据驱动业务与运营”的集团战略。
数加DataWorks/MaxCompute在国网浙江电力的最佳实践
摘要:2017云栖大会dataworks专场,国网浙江电力大数据平台架构师陈振带来Dataworks/MaxCompute在国网应用的实践。本文主要从建设数据仓库的三个痛点开始谈起,引出企业级数仓架构设计,着重通过数据集成和企业级管理为大家分享了具体的应用情况,最后作了简要的展望。
5分钟迅速搭建云上Lambda大数据分析架构
主要介绍基于 Tablestore 的数据变更实时捕获订阅能力,实现云上Lambda 架构的轻量化实现数据的实时和离线处理。演示模拟了一个电商订单场景,通过流计算实现订单大屏的场景,做到海量订单实时注入的同时,进行10s的订单统计聚合以及交易金额统计并做实时的大屏幕展示
Python on MaxCompute之UDF操作命令行
语法: add py [comment 'cmt'][-f]; 说明:local_file.py:.py文件 注册函数 语法: CREATE FUNCTION AS USING ; 说明: function_name:UDF函数名,这个名字就是SQL中引用该函数所使用的名字。
21分钟教会你分析MaxCompute账单
阿里云大计算服务MaxCompute是一款商业化的大数据分析平台,其计算资源有预付费和后付费两种计费方式。并且产品每天按照project为维度进行计量计费(账单基本情况下会第二天6点前产出)。本文使用的为云上客户真实数据,故在下文中的截图都mask掉了。
开源大数据周刊-第2期
第二期准备了一些本周好的大数据技术的文章;列了近期一些大数据会议;业务方面还是大数据+各种各样的点,没有过多的列出;大数据融资领域还是融资不断;E-Mapreduce团队计划下周发布VPC方案,敬请期待;Aliyun-emapreduce-demo发布在github上,敬请关注。
MaxCompute产品最新进展 -- 从马力到计算力
摘要本文从马力作为功率衡量标准为切入点介绍了大数据领域的计算力衡量标准TPCBB以及MaxCompute2.0在Big Bench上的卓越表现。同时详细地分享了取得优异成绩背后的产品在最新有哪些进展帮助大家全面的了解MaxCumpute2.0。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。