实时计算 Flink版

首页 标签 实时计算 Flink版
性能提升约 7 倍!Apache Flink 与 Apache Hive 的集成
随着 Flink 在流式计算的应用场景逐渐成熟和流行,如果 Flink 能同时把批量计算的应用场景处理好,就能减少用户在使用 Flink 时开发和维护的成本,并且能够丰富 Flink 的生态。SQL 是批计算中比较常用的工具,所以 Flink 针对于批计算也以 SQL 为主要接口。
Flink运行时之批处理程序生成计划
批处理程序生成计划 DataSet API所编写的批处理程序跟DataStream API所编写的流处理程序在生成作业图(JobGraph)之前的实现差别很大。流处理程序是生成流图(StreamGraph),而批处理程序是生成计划(Plan)并由优化器对其进行优化并生成优化后的计划(OptimizedPlan)。
从0到1完全掌握大数据
经常听别人说“我要去学习大数据”,乍一听大数据应该是某个技术。而通俗来讲,大数据就是大到难以处理的数据集合,是社会技术发展过程中碰到的棘手问题。本文将从大数据的由来和相关技术分别展开进行讲解,从0到1系统地介绍如何学会使用大数据。
Flink Kafka Connector 与 Exactly Once 剖析
Flink Kafka Connector 是 Flink 内置的 Kafka 连接器,它包含了从 Kafka Topic 读入数据的 Flink Kafka Consumer 以及向 Kafka Topic 写出数据的 Flink Kafka Producer,除此之外 Flink Kafa Connector 基于 Flink Checkpoint 机制提供了完善的容错能力。
用Flink取代Spark Streaming!知乎实时数仓架构演进
本文主要讲述知乎的实时数仓实践以及架构的演进,这包括以下几个方面: - 实时数仓 1.0 版本,主题:ETL 逻辑实时化,技术方案:Spark Streaming。 - 实时数仓 2.0 版本,主题:数据分层,指标计算实时化,技术方案:Flink Streaming。
菜鸟供应链实时数仓的架构演进及应用场景
菜鸟数据&规划部高级数据技术专家贾元乔从数据模型、数据计算、数据服务等几个方面介绍了菜鸟供应链数据团队在实时数据技术架构上的演进,以及在供应链场景中典型的实时应用场景和 Flink 的实现方案。
一文了解 Apache Flink 核心技术
Apache Flink (以下简称Flink)是近年来越来越流行的一款开源大数据计算引擎,它同时支持了批处理和流处理,也能用来做一些基于事件的应用。使用官网的语句来介绍 Flink 就是 "Stateful Computations Over Streams"。
SARO平台发展和架构简介
背景 什么是搜索离线 搜索是因应互联网海量数据检索查找的需求而诞生的,阿里巴巴商品搜索亦是如此,随着淘宝/天猫商品数量的不断增加,如何为用户从海量的商品库中找到心仪的目标变成了越来越大的挑战。
免费试用