独家专访阿里集团副总裁贾扬清:我为什么选择加入阿里巴巴?
在这次访谈中,贾扬清向我们透露了他加入阿里的原因,并对他目前在阿里主要负责的工作做了详细说明,他不仅回顾了过去 6 年 AI 框架领域发生的变化,也分享了自己对于 AI 领域现状的观察和对未来发展的思考。结合自己的经验,贾扬清也给出了一些针对 AI 方向选择和个人职业发展的建议,对于 AI 从业者来
实时计算 Flink SQL 核心功能解密
Flink SQL 是于2017年7月开始面向集团开放流计算服务的。虽然是一个非常年轻的产品,但是到双11期间已经支撑了数千个作业,在双11期间,Blink 作业的处理峰值达到了5+亿每秒,而其中仅 Flink SQL 作业的处理总峰值就达到了3亿/秒。
Flink SQL 功能解密系列 —— 维表 JOIN 与异步优化
流计算中一个常见的需求就是为数据流补齐字段。因为数据采集端采集到的数据往往比较有限,在做数据分析之前,就要先将所需的维度信息补全。比如采集到的交易日志中只记录了商品 id,但是在做业务时需要根据店铺维度或者行业纬度进行聚合,这就需要先将交易日志与商品维表进行关联,补全所需的维度信息。
现代流式计算的基石:Google DataFlow
0. 引言
今天这篇继续讲流式计算。毫无疑问,Apache Flink 和 Apache Spark (Structured Streaming)现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢?Streaming Systems 这本书在分析 Fli...
2019年3月云栖最新技术活动预告【持续更新】
3月各大技术群的线上线下活动已经陆续上线!云栖社区的运营小编们已经忙的不亦乐乎,此时的你还在为找不到学习路径而发愁吗?下面小编为你整理了3月份云栖社区各大技术群的线上直播和线下沙龙,接下来还会陆续更新。
结构化大数据分析平台设计
前言
任何线上系统都离不开数据,有些数据是业务系统自身需要的,例如系统的账号,密码,页面展示的内容等。有些数据是业务系统或者用户实时产生的,例如业务系统的日志,用户浏览访问的记录,系统的购买订单,支付信息,会员的个人资料等。
通过Flink实时构建搜索引擎的索引
1.背景介绍
搜索引擎的出现大大降低了人们寻找信息的难度,已经深入到生活与工作的方方面面,简单列举几个应用如下:
互联网搜索,如谷歌,百度等;
垂直搜索,如淘宝、天猫的商品搜索;
站内搜索,各个内容网站提供的站内搜索服务;
企业内部搜索,员工查询企业内部信息;
广告投放,根据投放上下文检索出对应的广告主和广告内容;
搜索引擎的关键是让用户找到其所需信息,其整体架构如下:
从图示可知,一个搜索引擎从大的方面来看主要包括两部分,一部分是提供在线的搜索服务,一部分要把原始数据已离线的方式建立索引,建立索引是信息可搜索的前提。
搜索双链路实时计算体系@双11实战
该文章来自阿里巴巴技术协会(ATA)精选集
0. 前言
何为双链路实时计算体系?微观实时计算链路
a) 最细粒度商品/店铺/用户数据的实时
b) 底层模型的实时宏观实时计算链路
相比微观实时,宏观实时的对象粒度更粗,更上层
a) 以实时效果为目标,基于bandit learning的实