Apache Flink 的迁移之路,2 年处理效果提升 5 倍
在 2017 年上半年以前,TalkingData 的 App Analytics 和 Game Analytics 两个产品,流式框架使用的是自研的 td-etl-framework。该框架降低了开发流式任务的复杂度,对于不同的任务只需要实现一个 changer 链即可,并且支持水平扩展,性能尚可,曾经可以满足业务需求。
小红书如何实现高效推荐?解密背后的大数据计算平台架构
小红书作为生活分享类社区,目前有8500万用户,年同比增长为300%,大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一,本文主要分享在推荐业务场景中小红书的实时计算应用。
AI小编问世!阿里智能写手核心技术首次公开!
内容化已经成为淘宝近几年发展的重点,我们可以在手机淘宝APP(以下简称手淘)上看到很多不同的内容形式和内容型导购产品,例如,“有好货”中的以单个商品为主体的富文本内容,“必买清单”中的清单,即围绕一个主题来组织文本和商品的长图文型内容,等等。
利用InformationSchema与阿里云交易和账单管理API实现MaxCompute费用对账分摊统计
利用MaxCompute InformationSchema和阿里云交易和账单管理API 实现MaxCompute费用对账分摊统计一、需求场景分析非常多的用户选择MaxCompute按量付费模式构建自己的数据平台,利用MaxCompute按量付费模型极大地减少不必要的费用支持,仅为实际运行的作业付费。
Apache Spark Meetup China 第1期 最全资料下载
活动时间:2018年12月16日13:30-17:00 活动地点:杭州市余杭区文一西路998号未来科技城海创园4幢801C 主办单位:阿里云、袋鼠云、云栖社区 主题介绍: 主题一、Spark优化实践-13:30 - 14:30阿里云E-MapReduce-王道远介绍阿里云EMR中Spark计算引擎所包含的一系列额外优化工作,包括SmartShuffle、file skip index等。
ALS算法实现用户音乐打分预测
很多人在决定是否看一部电影之前都会去豆瓣看下评分作为参考,看完电影也会给一个自己的分数。每个人对每个商品或者电影或是音乐都有一个心理的分数,这个分数标明用户是否对这个内容满意。作为内容的提供方,如果可以预测出每个用户对于内容的心理分数,就能更好的理解用户,并给用户提供好的内容推荐。
一条SQL在 MaxCompute 分布式系统中的旅程
2019杭州云栖大会大数据技术专场,由阿里云资深技术专家侯震宇、阿里云高级技术专家陈颖达以及阿里云资深技术专家戴谢宁共同以“SQL在MaxCompute分布式系统中的旅程 ”为题进行了演讲。本文首先介绍了MaxCompute计算平台及其特点、超大规模企业级SQL引擎和其功能。然后讲解了如何构建企业级分布式智能调度执行框架。最后介绍了新一代列式存储引擎AliOrc及优化方式。
小米流式平台架构演进与实践
小米业务线众多,从信息流,电商,广告到金融等覆盖了众多领域,小米流式平台为小米集团各业务提供一体化的流式数据解决方案,主要包括数据采集,数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条,实时同步任务 1.5 万,实时计算的数据 1 万亿条。
Apache Flink 为什么能够成为新一代大数据计算引擎?
大数据时代对人类的数据驾驭能力提出了新的挑战,Flink 的诞生为企业用户获得更为快速、准确的计算能力提供了前所未有的空间与潜力。作为公认的新一代大数据计算引擎,Flink 究竟以何魅力成为阿里、腾讯、滴滴、美团、字节跳动、Netflix、Lyft 等国内外知名公司建设流计算平台的首选?
Graphical Model在收藏夹作弊行为识别上的应用
Graphical Model通常应用在问题本身带有多个相互联系的变量的场景,并提供了一种基于图的表达方式让你去建模这些联系从而挖掘潜在的因果关系。在本文中,我们创新性地将概率图模型应用到了淘宝平台收藏作弊行为检测的任务中,取得了远超传统分类模型的结果(Top1%记录中召回60%的作弊行为)。
heracles压测平台介绍
heracles压测平台介绍 Heracles音译为赫拉克勒斯或意译为大力神.希腊语:Ηρακλής,Hēraklēs,引申自Hēra“赫拉”和kleos“荣耀”,也即赫拉的荣耀 背景 搜索和推荐的应用越来越多的时候,我们常常面临着下面几个问题: 如何能随时的了解每个应用的最大容量,当前资源可支.
开源大数据周刊-第42期
阿里云E-MapReduce动态 阿里云HBase支持PB级别的分布式数据库即将开始公测 资讯 云时代的大数据存储-云HBase 纵观数据库发展的几十年,从网状数据库、层次数据库到RDBMS数据库,在最近几年的NewSQL的兴起,加上开源的运动,再加上云的特性,可以说是日新月异。
DII4J -- DII平台支持JAVA插件开发
DII4J是DII for Java的简称,是DII平台提供的一种Java插件的运行机制,在Java插件中,用户可以获取与C++插件完全一致的能力。
阿里云大数据MaxCompute基于UDTF解析JSON日志的案例
因为MaxCompute提供的系统函数有限,所以平台提供了强大的自定义函数(UDF)来进行复杂的数据处理,因为MaxCompute的沙箱机制,所以解析JSON日志串的时候需要使用GSON来进行解析,本例中原始数据可能是从其他DB通过数据集成同步到MaxCompute平台上的,所以MaxComput.
[转载] Spark Structed Streaming执行过程
在Struct Streaming中增加了支持sql处理流数据,在sql包中单独处理,其中StreamExecution是下面提到两处流处理的基类,这个流查询在数据源有新数据到达时会生成一个QueryExecution来执行并将结果输出到指定的Sink(处理后数据存放地)中。
Hadoop Hive迁移至MaxCompute
本文向您详细介绍如何将 Hadoop Hive 数据迁移到阿里云MaxCompute大数据计算服务上。
浅析CPU结构对程序的影响以及熔断原理
## CPU 结构简介 ### CPU 指令结构 * 下表列出了CPU关键技术的发展历程以及代表系列,每一个关键技术的诞生都是环环相扣的,处理器这些技术发展历程都围绕着如何不让“CPU闲下来”这一个核心目标展开。
【转载】刚刚又传来好消息,硬核!新一代大国重器!MaxCompute
作者:杨国英 十年前,马云、马化腾和李彦宏坐在一起开会聊起它,马化腾说为时过早,李彦宏说没有新意,只有马云说,如果我们不做,将来会死掉!为了做它,整个公司几乎吵到分裂! 然而十年后的今天,它已经成为新一代大国重器,中国最硬核的技术,与美国巨头抗衡的唯一中国力量。
性能提升约 7 倍!Apache Flink 与 Apache Hive 的集成
随着 Flink 在流式计算的应用场景逐渐成熟和流行,如果 Flink 能同时把批量计算的应用场景处理好,就能减少用户在使用 Flink 时开发和维护的成本,并且能够丰富 Flink 的生态。SQL 是批计算中比较常用的工具,所以 Flink 针对于批计算也以 SQL 为主要接口。
Hive数据如何同步到MaxCompute之实践讲解
本次分享主要介绍 Hive数据如何迁移到MaxCompute。MMA(MaxCompute Migration Assist)是一款MaxCompute数据迁移工具,本文将为大家介绍MMA工具的功能、技术架构和实现原理,再通过实际操作MMA,演示将Hive数据迁移到MaxCompute。
【阿里云峰会出海论坛】MaxCompute助力小影短视频走向全球化
数字时代,中国已经成为世界互联网的中心,小影(海外版称作为VivaVideo,后简称VivaVideo)作为国内首批短视频出海企业,借助统一的云计算平台快速实现全球业务的线上部署,已经让每一行代码都获得全球化的能力。
Demo:基于 Flink SQL 构建流式应用
本文所有的实战演练都将在 Flink SQL CLI 上执行,全程只涉及 SQL 纯文本,无需一行 Java/Scala 代码,无需安装 IDE。
Apache Spark中国技术交流社区历次直播回顾(持续更新)
Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人交流学习,欢迎加入。钉钉入群链接 https://qr.dingtalk.com/action/joingroup?code=v1,k1,jmHATP9Tk+okK7QZ5sw2oWSNLhkt2lCRvfHRdW7XhUQ=&_dt_no_comment=1&origin=11 更多视频和ppt资料请入群获得。
[转载] Spark Streaming 设计原理
最近两年流式计算又开始逐渐火了起来,说到流式计算主要分两种:continuous-based 和 micro-batch。最近在使用基于 micro-batch 模式的 Spark Streaming,正好结合论文介绍一下。
MaxCompute问答整理之8月
本文是基于对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。
覆盖电商、推荐、ETL、风控等多场景,网易的实时计算平台做了啥?
目前网易流计算规模已经达到了一千多个任务,2 万多个 vcores 以及 80 多 T 的内存,网易流计算覆盖了绝大多数场景,包括广告、电商大屏、ETL、数据分析、推荐、风控、搜索、直播等。
Hawkeye:TopN慢query的获取与优化
之前的文章介绍了Hawkeye的底层分析系统(待补充文章),其中讲到了基于Blink的Batch任务实现方法,前段时间在优化慢query查询的过程中开发了应用TopN慢query获取的分析任务,其中用到的分析方法适用于其他类似求TopN的问题中。
Hawkeye:助力TISPLUS实现数据化运营
背景 TISPLUS平台的数据分析能力主要由hawkeye提供,但是之前存在如下几个问题:1.数据化场景的功能没有凸显,隐藏较深;2.产品形态设计单一,没有一个较好的产品闭环引导用户关注数据化的结果;3.数据分析内容简单,覆盖面不足,远远达不到让用户数据化运营服务的目标;4.重点关注了数据分析的结果,但缺少衡量数据分析结果为搜索服务本身带来的价值大小。
58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密
本文主要讲述 58 实时计算平台如何优化 Flink-Storm 以及基于 Flink-Storm 实现真实场景下大规模 Storm 任务平滑迁移 Flink。
Adaptive Execution如何让Spark SQL更高效更好用?
本文转发自技术世界,原文链接 http://www.jasongj.com/spark/adaptive_execution/ 1 背 景 Spark SQL / Catalyst 和 CBO 的优化,从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。
使用Blink SQL+UDAF实现差值聚合计算
本案例根据某电网公司的真实业务需求,通过Blink SQL+UDAF实现实时流上的差值聚合计算,通过本案例,让读者熟悉UDAF编写,并理解UDAF中的方法调用关系和顺序。
祝贺!两位 Apache Flink PMC 喜提 Apache Member
目前,国内(华人)近 30 位 Apache Member 中,有 3 位是 Apache Flink 的核心贡献者。他们热爱开源也为开源贡献,不仅积极参与社区与其他 PMC 成员共同规划、主导 Apache Flink 的发展,更活跃在多个开源项目,持续为开源社区做贡献。
都在说实时数据架构,你了解多少?
本文从上述现状及实时数据需求出发,结合工业界案例、笔者的实时数据开发经验, 梳理总结了实时数据体系建设的总体方案。
太难了!我耗费心力终于规划出了一张云栖大会日程表
十年前,参加云栖大会还只是程序员的杭州朝圣之旅,而如今,它依然成了透视和分析云计算产业和窥见数字经济的窗口。一切你想看见的、期待看见的,甚至未曾预见的,都会在未来的三天中扑面而来。
【直播】机器学习就用PAI,带你一起现场训练热狗识别模型!
看过美剧《硅谷》的同学都知道人工智能识别热狗曾是硅谷最赚钱的技术之一。去年 HBO 发布了官方的 Not Hotdog 应用,支持 iOS 和 Android 平台,据说是用 TensorFlow、Keras 和 React Native 打造的,但是源码没有公开。
SQL 开发任务超 50% !滴滴实时计算的演进与优化
Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。滴滴基于 Apache Flink 做了大量的优化,也增加了更多的功能,比如扩展 DDL、内置消息格式解析、扩展 UDX 等,使得 Flink 能够在滴滴的业务场景中发挥更大的作用。
这场直播,我们把 Apache 顶级项目盛会搬来了!
4月25-26日,为期一天半的 Flink Forward 全球直播中文精华版将精选大会最佳实践、Flink 深度技术解析、社区生态等优质内容进行翻译并搭配中文解说,邀您共赴技术盛宴!
【译】Spark-Alchemy:HyperLogLog的使用介绍
原文链接: [https://databricks.com/blog/2019/05/08/advanced-analytics-with-apache-spark.html] 译者:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。
阿里云大数据+AI技术沙龙上海站
EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合Intel及开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。首站上海开站,请猛戳链接报名!https://www.slidestalk.com/m/61
【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法
现在还没有一个统一的流式SQL语法标准,各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题,社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持,也会在后续的更新中吸收和支持这些优秀的设计建议。
学不动?Apache Member 教你评估实用技术的思路
是因为一项技术火,你才学的吗?是因为你老板决定用这项技术,你才学的吗?那你有没有想过为什么这项技术会火,为什么你老板决定用这项技术。今天我们就以 Flink 为例,来好好聊为什么要学习 Flink,以及如何看待一项新技术是否有潜力,希望对你有所启发。
EMR Spark Runtime Filter性能优化
Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查询性能,另一方面也可以减少资源的消耗(网络/IO/CPU等),在同样的资源的情况下可以支撑更多的查询。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。