|
SQL 算法 API
|

Flink 流批一体的实践与探索

作为 Dataflow 模型的最早采用者之一,Apache Flink 在流批一体特性的完成度上在开源项目中是十分领先的。本文将基于社区资料和笔者的经验,介绍 Flink 目前(1.10)流批一体的现状以及未来的发展规划。

6523 0
来自: 实时计算 Flink  版块
|
分布式计算 DataWorks 测试技术
|

在MaxCompute中配置Policy策略遇到结果不一致的问题

通过policy配置权限后,在DataWorks和console上验证出现结果不一致问题

2342 0
来自: 大数据计算 MaxCompute  版块
|
大数据 Apache 流计算
|

Apache Flink China Meetup 北京站 - 计算之美,何止于快

Apache Flink China Meetup北京站来啦~

2384 0
来自: 实时计算 Flink  版块
|
SQL 消息中间件 分布式计算
|

菜鸟供应链实时数仓的架构演进及应用场景

菜鸟数据&规划部高级数据技术专家贾元乔从数据模型、数据计算、数据服务等几个方面介绍了菜鸟供应链数据团队在实时数据技术架构上的演进,以及在供应链场景中典型的实时应用场景和 Flink 的实现方案。

2688 0
来自: 实时计算 Flink  版块
|
分布式计算 MaxCompute 存储
|

MaxCompute技术人背后的故事:从ApacheORC到AliORC

2019大数据技术公开课第一季《技术人生专访》来袭,本季将带领开发者们探讨大数据技术,分享不同国家的工作体验。本文整理自阿里巴巴计算平台事业部高级技术吴刚的专访,将为大家介绍Apache ORC开源项目、主流的开源列存格式ORC和Parquet的区别以及MaxCompute选择ORC的原因。

3989 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Hadoop 云计算
|

2015年上海hadoop in china见闻

市场在发生剧烈的变化,未来10年后的大公司有可能就是现在的小公司。技术也正在发生快速的变革,未来,谁说得好呢?!

2145 0
|
机器学习/深度学习 分布式计算 Apache
|

# Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

主讲人:江宇(燕回) 阿里巴巴计算平台EMR技术专家 直播时间:2018.12.06 19:00 - 20:00 内容提要:本次讲座主要面对的是机器学习的入门者,以及想要使用Spark来进行机器学习的用户。

2029 0
|
分布式计算 Spark 大数据
|

Apache Spark中国技术交流社区历次直播回顾(持续更新)

Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人交流学习,欢迎加入。钉钉入群链接 https://qr.dingtalk.com/action/joingroup?code=v1,k1,jmHATP9Tk+okK7QZ5sw2oWSNLhkt2lCRvfHRdW7XhUQ=&_dt_no_comment=1&origin=11 更多视频和ppt资料请入群获得。

4499 0
|
机器学习/深度学习 分布式计算 Apache
|

#Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

Apache Spark系列技术直播--第四讲 机器学习介绍与Spark MLlib实践 直播时间:2018.12.06 19:00 - 20:00 主讲人:江宇(燕回) 阿里巴巴计算平台EMR技术专家 内容提要:本次讲座主要面对的是机器学习的入门者,以及想要使用Spark来进行机器学习的用户。

2059 0
|
消息中间件 SQL 分布式计算
|

日均万亿条数据如何处理?爱奇艺实时计算平台这样做

本文由爱奇艺大数据服务负责人梁建煌分享,介绍爱奇艺如何基于 Apache Flink 技术打造实时计算平台,并通过业务应用案例分享帮助用户了解 Apache Flink 的技术特点及应用场景。

3496 0
来自: 实时计算 Flink  版块
|
分布式计算 算法 大数据
|

开源大数据周刊-第29期

1957 0
|
人工智能 分布式计算 大数据
|

开源大数据周刊-2018年08月03日 第95期

开源大数据周刊-2018年08月03日 第95期

1948 0
|
存储 分布式计算 流计算
|

[转载] Spark Streaming 设计原理

最近两年流式计算又开始逐渐火了起来,说到流式计算主要分两种:continuous-based 和 micro-batch。最近在使用基于 micro-batch 模式的 Spark Streaming,正好结合论文介绍一下。

2389 0
|
消息中间件 运维 分布式计算
|

实至名归!Flink 再度成为 Apache 基金会最活跃的开源项目

2019 年对 Apache 软件基金会(简称 ASF)来说,依然是伟大的一年:它标志着开源领导“Apache 之道”(The Apache Way)的 20 年。ASF 的口号,“社区重于代码”(Community Over Code),贯穿于其所做的每一件事,全球有数十亿人受益于价值 200 多亿美元的社区主导的软件,100% 免费提供。

2478 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 SQL 监控
|

开源大数据周刊-第99期

资讯 谷歌重磅开源强化学习框架Dopamine谷歌推出了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。 整合AI和数据科学新利器:基于Apache Spark的Hydrogen项目以往数据集的准备以及模型的训练工作是分开的,这两部分工作相当于存在两套系统中。

1834 0
|
新零售 分布式计算 MaxCompute
|

【转载】为什么只有好超市,才敢卖熟牛油果?

本文授权转载自“硅谷洞察”(微信公众号ID: Guigudiyixian) 版权归“硅谷洞察”所有,未经许可不得二次转载 在很多人的印象里,去市场或超市买水产海鲜,谈不上是一件多么享受的事情。但这两年突然爆红的盒马鲜生,则颠覆了人们的这种印象。

2253 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 MaxCompute
|

阿里云大数据平台MaxCompute用户指南官方电子版下载

阿里云大数据平台MaxCompute用户指南

2604 0
来自: 大数据计算 MaxCompute  版块
|
搜索推荐 API vr&ar
|

Mars 开源月报(2020.3)

本月,Mars 发布了 0.4.0b1 ,0.4.0b2 和 0.3.2 以及 0.3.3,点击链接查看详细的 Release Notes。本月两次发布版本是特殊情况,0.4.0b2 修复了 0.4.0b1 中比较紧急的问题。

2319 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 分布式计算 算法
|

开源大数据周刊-第106期

Apache Kylin社区于日前宣布:Apache Kylin v2.5.1 正式发布!Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop 之上的 SQL 查询接口及多维分析(OLAP)能力,支持对超大规模数据进行亚秒级查询。

1874 0
|
数据采集 运维 监控
|

【南京Meetup】华泰证券Elasticsearch在日志搜索、日志分析、链路管理系统方面的应用实践

2018Elastic Meetup南京交流会,由华泰证券李文强带来以“华泰证券Elasticsearch应用实践”为题的演讲。本文首先介绍了华泰证券具有系统运维繁琐、日志不能长期保存、日志数据价值没有挖掘、大数据领的一角的特点,接着介绍了它在日志搜索、日志分析和链路管理系统方面的应用实践,最后介绍了华泰证券Elasticsearch在使用中应注意的事项。

2434 0
|
大数据 5G 云计算
|

【转载】DT时代,阿里不再藏住“技术公司”标签

来源 | 智能相对论(ID:aixdlun) 虽然Jack马先生总是口出惊人之语,但事实证明他说的话总是不断被应验。 2016年的“新零售”现在已经是公认的零售新篇章,而2014年的“人类正从IT时代走向DT时代”,也在逐渐变成现实——不管什么样的企业,都习惯要“大数据”一下。

1944 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 分布式计算 并行计算
|

当 Mars 遇上 RAPIDS:用 GPU 以并行的方式加速数据科学

在数据科学世界,Python 是一个不可忽视的存在,且有愈演愈烈之势。而其中主要的使用工具,包括 Numpy、Pandas 和 Scikit-learn 等。 Mars 在 MaxCompute 团队内部诞生,它的主要目标就是让 Numpy、pandas 和 scikit-learn 等数据科学的库能够并行和分布式执行,支持通过 RAPIDS 平台用 GPU 加速数据科学。

2437 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 Spark
|

【译】SQL Pivot介绍

本文介绍SQL Pivot以及如何使用该功能

2723 0
|
API Apache 流计算
|

PyFlink 社区扶持计划正式上线!

Flink 从 1.9.0 版本开始增加了对 Python 的支持(PyFlink),最新发布的 Flink 1.10 中明确目前 PyFlink 生态的功能特性在社区的努力下逐步完善。为了让大家更好的上手使用 PyFlink,自即日起,PyFlink 社区扶持计划正式上线!

2609 0
来自: 实时计算 Flink  版块
|
人工智能 算法 大数据
|

开源大数据周刊-第98期

产品资讯 E-MapReduce 发布新版工作流调度还在困惑怎么管理Hadoop,Hive,Spark等作业和项目,怎么灵活可靠的调度吗?从EMR工作流开始吧 E-MapReduce 发布弹性伸缩当你需要按照时间段弹性的添加计算节点,补充计算能力的时候,弹性伸缩利用云上的弹性来灵活扩展你的计算力 资讯 华尔街看涨大数据广告市场 品友等AI营销技术公司或受资本追捧据媒体报道,在纳斯达克挂牌上市的广告科技公司The Trade Desk10日股价大涨逾37%至127.93美元,成为当日美股市场涨幅最高的股票。

1724 0
|
人工智能 大数据 流计算
|

阿里云,Facebook,英特尔,Databricks, Flink 大数据&AI前沿技术一文看尽—2019杭州云栖大会 “大数据&AI” 峰会全集

本次大数据&AI峰会围绕 “大数据和AI” 主题,深入讨论大数据及AI发展的新形势、新挑战和新机遇。主题演讲内容涉及大数据*AI各个方面,广泛且深入。从阿里巴巴 “AI加持的飞天大数据平台、AI at Facebook、英特尔在数据分析和人工智能技术方面的创新,到广受开发者关注的Flink和Spark,通过数据,算力,算法深入阐述数据为本,智能为用,将大数据与AI深度融合,呈现了业界最前沿技术。

2790 0
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 分布式计算
|

Flink 1.10 和 Hive 3.0 性能对比(附 Demo 演示 PPT)

Flink 作为一个统一的计算引擎,旨在提供统一的流批体验以及技术栈。Flink 在 1.9 合并了 Blink 的代码,并在 1.10 中完善了大量的功能以及性能,可以运行所有 TPC-DS 的查询,性能方面也很有竞争力,Flink 1.10 是一个生产可用的、批流统一的 SQL 引擎版本。

2411 0
来自: 实时计算 Flink  版块
|
存储 分布式计算 大数据
|

开源大数据周刊-第102期

1729 0
|
存储 分布式计算 安全
|

【南京Meetup】在CloudEdge中,通过ES实践解决ElasticLog产品问题

摘要: 2018 Elastic Meetup南京交流会,由赵伟带来以“ElasticLog with ES in CloudEdge”为题的演讲。本文首先介绍了CloudEdge与ElasticLog是什么,其次介绍了产品的构架图以及ES的作用,最后介绍了ES在实践过程中需要设计Index、分配Shard、快速将Spark里数据写入ES中和数据去重。

2115 0
|
机器学习/深度学习 SQL 分布式计算
|

使用Spark SQL进行流式机器学习计算(上)

今天来和大家简单说一下如何使用Spark SQL进行流式数据的机器学习处理

2790 0
|
消息中间件 SQL 分布式计算
|

Flink Weekly | 每周社区更新-12/24

本期的主要内容包括:发布 Flink 1.10 和 Flink 1.9.2 的更新,关于将 Flink Docker image 发布集成到 Flink 发布过程中的讨论,PyFlink 后期新功能的讨论以及一些博客文章。

1805 0
来自: 实时计算 Flink  版块
|
SQL HIVE 大数据
|

HIVE优化浅谈

HIVE是数据仓库和交互式查询的优秀框架,但随着数据的增多,join的复杂度和性能问题,需要花时间和精力解决性能优化的问题。除了基于HIVE本身优化,还可以接入计算性能更好的框架,SparkSQL relational cache对使用者透明,开发不需要关心底层优化逻辑,将更多精力放入业务设计开发。

2496 0
|
容器 流计算 资源调度
|

Apache Flink 进阶(四):Flink on Yarn/K8s 原理剖析及实践

本文主要介绍 Flink on Yarn/K8s 的原理及应用实践,文章将从 Flink 架构、Flink on Yarn 原理及实践、Flink on Kubernetes 原理剖析三部分内容进行分享并对 Flink on Yarn/Kubernetes 中存在的部分问题进行了解答。

5778 1
来自: 实时计算 Flink  版块
|
分布式计算 API MaxCompute
|

Spark DataFrame 不是真正的 DataFrame

最早的 "DataFrame" ,来源于贝尔实验室开发的 S 语言。R 语言,作为 S 语言的开源版本,于 2000 年发布了第一个稳定版本,并且实现了 dataframe。pandas 于 2009 年被开发,Python 中于是也有了 DataFrame 的概念。

2530 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 分布式计算 大数据
|

开源大数据周刊-第104期

资讯 谷歌、亚马逊、阿里纷纷入局,边缘计算的潜力如何? 从智能手机到可穿戴设备,从医疗到汽车以及工业制造,边缘计算正在上演一个又一个行业传奇,它的落脚点是要让终端成为更智慧的存在——能够实时处理数据、能够低延时做出反馈——这不就是我们期待中的智能设备吗? 如此多的深度学习框架,为什么我选择PyTorch? 不久前,Facebook 在首届 PyTorch 开发者大会发布了 PyTorch1.0 预览版,标志着这一框架更为稳定可用。

1630 0
|
SQL 分布式计算 Spark
|

Adaptive Execution如何让Spark SQL更高效更好用?

本文转发自技术世界,原文链接 http://www.jasongj.com/spark/adaptive_execution/ 1 背  景 Spark SQL / Catalyst 和 CBO 的优化,从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。

2147 0
|
流计算 资源调度 运维
|

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密

本文主要讲述 58 实时计算平台如何优化 Flink-Storm 以及基于 Flink-Storm 实现真实场景下大规模 Storm 任务平滑迁移 Flink。

3066 1
来自: 实时计算 Flink  版块

利用PAI-DSW访问Github, 快速获取最新的学习资源

PAI-DSW(Data science workshop)是专门为数据科学探索者们准备的云端深度学习开发环境,用户可以登录 DSW 进行代码的开发并运行工作。目前 DSW 支持了Github下载,让我们可以更加便捷的访问上面的资源.

5494 0
来自: 人工智能平台PAI  版块
|
双11 数据可视化
|

DataV参与了一场千亿交易

今年双十一DataV推出更灵活、轻量化的可视化方案,全面支撑各类场景的实时数据可视化需求。

3673 0
来自: 数据可视化DataV  版块
|
SQL 测试技术 API
|

State Processor API:如何读取,写入和修改 Flink 应用程序的状态

Apache Flink 1.9.0引入了状态处理器(`State Processor`)API,它是基于DataSet API的强大扩展,允许读取,写入和修改Flink的保存点和检查点(checkpoint)中的状态。

2134 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 数据可视化 大数据
|

开源大数据周刊-第103期

Google宣布在2016年发布的数据可视化工具Data Studio,以及2017年发布的的数据预先处理服务Cloud Dataprep,现在都正式可用。

1839 0
|
消息中间件 Kafka API
|

使用EMR-Kafka Connect进行数据迁移

本文介绍使用EMR Kafka Connect的REST API接口在Kafka集群间进行数据迁移,使用distributed模式。

2283 0
|
分布式计算 MaxCompute Shell
|

MaxCompute问答整理之10月

飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。

2293 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 分布式计算 大数据
|

# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】

**直播时间**: 2019.01.10(周四) 19:00 - 20:00 **主讲人:** 黄凯——Intel大数据技术团队软件工程师。 卫雨青——Microsoft C+AI 团队软件工程师。

1977 0
|
机器学习/深度学习 分布式计算 Spark
|

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】

直播主题:【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】 时间:6月19日 19:30-20:30 分享嘉宾:江宇,阿里云EMR技术专家。

1756 0
|
存储 监控 大数据
|

【南京Meetup】不断迭代,严苛细节,最终性能如何满足? 基于ELK的大数据平台实践分享

在2018年Elastic Meetup 南京交流会中,来自云利来科技的涂海波为现场的听众带来了题为《南京云利来基于ELK的大数据平台》的精彩分享。在本次分享中,他首先进行了公司简介,然后介绍了数据分类,包括数据采集及数据类型等;然后重点阐述了运维之路,最后进行了告警分析。

1948 0
|
并行计算 算法 搜索推荐
|

并行正则采样排序算法及在 Mars 中的应用

相信大家对排序算法都非常熟悉了,快速排序、堆排序、归并排序等等。如果我们想在一个很大的数据集上进行排序,能利用上多核,甚至是分布式集群,有什么办法么? 本文就介绍一种并行排序算法:并行正则采样排序算法(Parallel Sorting by Regular Sampling),简称 PSRS 算法。

2087 0
来自: 大数据计算 MaxCompute  版块
|
SQL 消息中间件 监控
|

OPPO 实时数仓揭秘:从顶层设计实现离线与实时的平滑迁移

单日总数据处理量超 10 万亿,峰值大概超过每秒 3 亿,OPPO 大数据平台研发负责人张俊揭秘 OPPO 基于 Apache Flink 构建实时数仓的实践,内容分为以下四个方面:建设背景、顶层设计、落地实践、未来展望。

2953 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 SQL 自动驾驶
|

Flink 的经典场景和业务故事有哪些?看看他们就知道了

在大数据的日常场景中,从数据生产者,到数据收集、数据处理、数据应用(BI+AI),整个大数据 + AI 全栈的每个环节,Flink 均可应用于其中。作为新一代开源大数据计算引擎,Flink 不仅满足了工业界对实时性的需求,还能够打通端到端的数据价值挖掘全链路。

3060 0
来自: 实时计算 Flink  版块
|
分布式计算 大数据 测试技术
|

微软发布 .Net for Apache Spark :用什么语言开发大数据都可以

Apache Spark 是当今最流行的开源大数据处理框架。Spark 用于进行分布式、大规模的数据处理,提供了更高级的编程接口、更高的性能。除此之外,Spark 不仅能进行常规的批处理计算,还提供了流式计算支持。

2178 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69319
内容
128
活动
439806
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务