大数据与机器学习-博文-第8页-阿里云开发者社区

亢海鹏

|

SQL 分布式计算 DataWorks

|

博文

Hive数据如何同步到MaxCompute之实践讲解

本次分享主要介绍 Hive数据如何迁移到MaxCompute。MMA（MaxCompute Migration Assist）是一款MaxCompute数据迁移工具，本文将为大家介绍MMA工具的功能、技术架构和实现原理，再通过实际操作MMA，演示将Hive数据迁移到MaxCompute。

3665 0 0

来自：大数据计算 MaxCompute 版块

鸿初

|

资源调度大数据调度

|

博文

Step by step，学习EMR集群的fair类型资源池

2215 0 1

来自：开源大数据平台 E-MapReduce 版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

【阿里云峰会出海论坛】MaxCompute助力小影短视频走向全球化

数字时代，中国已经成为世界互联网的中心，小影（海外版称作为VivaVideo，后简称VivaVideo）作为国内首批短视频出海企业，借助统一的云计算平台快速实现全球业务的线上部署，已经让每一行代码都获得全球化的能力。

2851 1 1

来自：大数据计算 MaxCompute 版块

鱼跟猫

|

缓存固态存储大数据

|

博文

一种堆外内存缓存策略加速数据写OSS

2189 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

SQL 消息中间件数据可视化

|

博文

Demo：基于 Flink SQL 构建流式应用

本文所有的实战演练都将在 Flink SQL CLI 上执行，全程只涉及 SQL 纯文本，无需一行 Java/Scala 代码，无需安装 IDE。

2882 0 2

来自：实时计算 Flink 版块

jasonli4

|

存储 SQL 数据库

|

博文

Blink 漫谈系列 - 数据类型

3145 0 0

来自：实时计算 Flink 版块

晋恒

|

分布式计算 Hadoop MaxCompute

|

博文

数据集成到MaxCompute的N种最佳实践（持续更新）

本文汇总数据集成到MaxCompute的各种最佳实践，希望可以帮助到正在或者即将使用MaxCompute的企业和开发者们。也欢迎您将有关MaxCompute数据集成的实践分享出来，分享方法可扫码加入钉钉群，联系钉钉群主即可。

3042 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

分布式计算机器人 Apache

|

博文

Apache Spark中国技术交流群升级到企业群啦！！！！！！

普通群容量已满足不了Spark群众日益增长的热情，因此我们做了一个重要的决定，将全部群成员转移到企业群

2431 0 3

来自：开源大数据平台 E-MapReduce 版块

鱼跟猫

|

SQL 分布式计算 Spark

|

博文

EMR上如何进行流式SQL调试

本文将简单介绍EMR提供的一个流式SQL调试工具。

2321 0 0

来自：开源大数据平台 E-MapReduce 版块

开发者说

|

分布式计算 MaxCompute 存储

|

博文

MaxCompute技术人背后的故事：从ApacheORC到AliORC

2019大数据技术公开课第一季《技术人生专访》来袭，本季将带领开发者们探讨大数据技术，分享不同国家的工作体验。本文整理自阿里巴巴计算平台事业部高级技术吴刚的专访，将为大家介绍Apache ORC开源项目、主流的开源列存格式ORC和Parquet的区别以及MaxCompute选择ORC的原因。

4059 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

关系型数据库大数据分布式数据库

|

博文

开源大数据周刊-第41期

云数据库HBase公测开始 EMR产品价格全面优惠，价格和ECS自建一致

2076 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云E-MapReduce团队

|

分布式计算 Spark 大数据

|

博文

Apache Spark中国技术交流社区历次直播回顾（持续更新）

Apache Spark中国技术交流社区，由阿里巴巴开源大数据技术团队成立，持续输出spark相关技术直播、原创文章、精品翻译，钉钉群内千人交流学习，欢迎加入。钉钉入群链接 https://qr.dingtalk.com/action/joingroup?code=v1,k1,jmHATP9Tk+okK7QZ5sw2oWSNLhkt2lCRvfHRdW7XhUQ=&_dt_no_comment=1&origin=11 更多视频和ppt资料请入群获得。

4571 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

存储分布式计算流计算

|

博文

[转载] Spark Streaming 设计原理

最近两年流式计算又开始逐渐火了起来，说到流式计算主要分两种：continuous-based 和 micro-batch。最近在使用基于 micro-batch 模式的 Spark Streaming，正好结合论文介绍一下。

2448 0 0

来自：开源大数据平台 E-MapReduce 版块

亢海鹏

|

分布式计算 MaxCompute SQL

|

博文

MaxCompute问答整理之8月

本文是基于对MaxCompute产品的学习进度，再结合开发者社区里面的一些问题，进而整理成文。希望对大家有所帮助。

2944 0 1

来自：大数据计算 MaxCompute 版块

neo.wang

|

存储 JavaScript

|

博文

maxcompute 2.0复杂数据类型之map

1. 含义和Java中的Map一样，多个Key-Value的组合。 2. 场景什么样的数据，适合使用map类型来存储呢？这里列举了几个我在开发中实际用到的场景。 2.1 数量不固定的多个KeyValue 这类，本身就是Map类型的数据。

4569 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

SQL 消息中间件运维

|

博文

覆盖电商、推荐、ETL、风控等多场景，网易的实时计算平台做了啥？

目前网易流计算规模已经达到了一千多个任务，2 万多个 vcores 以及 80 多 T 的内存，网易流计算覆盖了绝大多数场景，包括广告、电商大屏、ETL、数据分析、推荐、风控、搜索、直播等。

2612 0 0

来自：实时计算 Flink 版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

阿里云大数据平台MaxCompute用户指南官方电子版下载

阿里云大数据平台MaxCompute用户指南

2647 0 0

来自：大数据计算 MaxCompute 版块

晋恒

|

存储资源调度分布式计算

|

博文

【科学脱口秀】EB级计算平台调度系统 “愚公” : 实现跨地域的数据和计算调度

大数据平台的数据与计算分布在多个数据中心的不同集群，每个集群的存储和计算能力有限，受地域影响，集群间的网络带宽和延迟也各有差异。如何平衡各集群的存储和计算利用率，降低带宽成本，是亟待解决的一大难题。

2644 0 0

来自：大数据计算 MaxCompute 版块

阿里云E-MapReduce团队

|

SQL 分布式计算 HIVE

|

博文

使用EMR Spark Relational Cache跨集群同步数据

Relational Cache是EMR Spark支持的一个重要特性，主要通过对数据进行预组织和预计算加速数据分析，提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度，Relational Cache还可以应用于其他很多场景，本文主要介绍如何使用Relational Cache跨集群同步数据表。

2094 0 0

来自：开源大数据平台 E-MapReduce 版块

继盛

|

机器学习/深度学习分布式计算并行计算

|

博文

当 Mars 遇上 RAPIDS：用 GPU 以并行的方式加速数据科学

在数据科学世界，Python 是一个不可忽视的存在，且有愈演愈烈之势。而其中主要的使用工具，包括 Numpy、Pandas 和 Scikit-learn 等。 Mars 在 MaxCompute 团队内部诞生，它的主要目标就是让 Numpy、pandas 和 scikit-learn 等数据科学的库能够并行和分布式执行，支持通过 RAPIDS 平台用 GPU 加速数据科学。

2474 0 0

来自：大数据计算 MaxCompute 版块

lixuefeng.cs

|

博文

Hawkeye:TopN慢query的获取与优化

之前的文章介绍了Hawkeye的底层分析系统(待补充文章)，其中讲到了基于Blink的Batch任务实现方法，前段时间在优化慢query查询的过程中开发了应用TopN慢query获取的分析任务，其中用到的分析方法适用于其他类似求TopN的问题中。

2139 0 0

来自：智能搜索推荐版块

lixuefeng.cs

|

运维监控数据挖掘

|

博文

Hawkeye:助力TISPLUS实现数据化运营

背景 TISPLUS平台的数据分析能力主要由hawkeye提供，但是之前存在如下几个问题：1.数据化场景的功能没有凸显，隐藏较深；2.产品形态设计单一，没有一个较好的产品闭环引导用户关注数据化的结果；3.数据分析内容简单，覆盖面不足，远远达不到让用户数据化运营服务的目标；4.重点关注了数据分析的结果，但缺少衡量数据分析结果为搜索服务本身带来的价值大小。

2224 0 0

来自：智能搜索推荐版块

开源大数据EMR

|

容器 Kubernetes 分布式计算

|

博文

Spark on Kubernetes 的现状与挑战

被称为云上 OS 的 Kubernetes 是 Cloud Native 理念的一种技术承载与体现，但是如何通过 Kubernetes 来助力大数据应用还是有很多可以探索的地方。欢迎交流。

2785 0 1

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算资源调度运维

|

博文

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密

本文主要讲述 58 实时计算平台如何优化 Flink-Storm 以及基于 Flink-Storm 实现真实场景下大规模 Storm 任务平滑迁移 Flink。

3115 1 1

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

流计算大数据消息中间件

|

博文

如果你也想做实时数仓…

数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务，数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细内容。

2882 0 0

来自：实时计算 Flink 版块

阿里云E-MapReduce团队

|

SQL 分布式计算 Spark

|

博文

Adaptive Execution如何让Spark SQL更高效更好用？

本文转发自技术世界，原文链接　http://www.jasongj.com/spark/adaptive_execution/ 1 背景 Spark SQL / Catalyst 和 CBO 的优化，从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。

2202 0 0

来自：开源大数据平台 E-MapReduce 版块

YuuuZeee

|

博文

利用PAI-DSW访问Github, 快速获取最新的学习资源

PAI-DSW（Data science workshop）是专门为数据科学探索者们准备的云端深度学习开发环境，用户可以登录 DSW 进行代码的开发并运行工作。目前 DSW 支持了Github下载，让我们可以更加便捷的访问上面的资源.

5627 0 1

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

SQL 数据采集缓存

|

博文

使用Blink SQL+UDAF实现差值聚合计算

本案例根据某电网公司的真实业务需求，通过Blink SQL+UDAF实现实时流上的差值聚合计算，通过本案例，让读者熟悉UDAF编写，并理解UDAF中的方法调用关系和顺序。

2631 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

Apache 项目管理流计算

|

博文

祝贺！两位 Apache Flink PMC 喜提 Apache Member

目前，国内（华人）近 30 位 Apache Member 中，有 3 位是 Apache Flink 的核心贡献者。他们热爱开源也为开源贡献，不仅积极参与社区与其他 PMC 成员共同规划、主导 Apache Flink 的发展，更活跃在多个开源项目，持续为开源社区做贡献。

3403 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

存储 SQL 消息中间件

|

博文

都在说实时数据架构，你了解多少？

本文从上述现状及实时数据需求出发，结合工业界案例、笔者的实时数据开发经验，梳理总结了实时数据体系建设的总体方案。

2762 0 0

来自：实时计算 Flink 版块

开源大数据EMR

|

云栖大会达摩院程序员

|

博文

太难了！我耗费心力终于规划出了一张云栖大会日程表

十年前，参加云栖大会还只是程序员的杭州朝圣之旅，而如今，它依然成了透视和分析云计算产业和窥见数字经济的窗口。一切你想看见的、期待看见的，甚至未曾预见的，都会在未来的三天中扑面而来。

2015 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

新零售 Web App开发人工智能

|

博文

开源大数据周刊-第101期

1491 0 0

来自：开源大数据平台 E-MapReduce 版块

YuuuZeee

|

机器学习/深度学习人工智能 Android开发

|

博文

【直播】机器学习就用PAI,带你一起现场训练热狗识别模型！

看过美剧《硅谷》的同学都知道人工智能识别热狗曾是硅谷最赚钱的技术之一。去年 HBO 发布了官方的 Not Hotdog 应用，支持 iOS 和 Android 平台，据说是用 TensorFlow、Keras 和 React Native 打造的，但是源码没有公开。

2203 0 0

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

SQL 分布式计算资源调度

|

博文

SQL 开发任务超 50% ！滴滴实时计算的演进与优化

Apache Flink 是一个分布式大数据处理引擎，可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境，对各种大小的数据规模进行快速计算。滴滴基于 Apache Flink 做了大量的优化，也增加了更多的功能，比如扩展 DDL、内置消息格式解析、扩展 UDX 等，使得 Flink 能够在滴滴的业务场景中发挥更大的作用。

2757 0 0

来自：实时计算 Flink 版块

海清

|

存储分布式计算 MaxCompute

|

博文

MaxCompute 预付费标准版VS套餐版

MaxCompute 于5月7日正式售卖预付费（包年包月）套餐资源，主打存储密集型套餐，一共三个套餐：存储密集型160套餐存储密集型320套餐存储密集型600套餐本文主要给大家介绍预付标准版和套餐版的资源、售价以及两者对比的情况，以供大家选购时进行参考。

2383 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

SQL 人工智能 Kubernetes

|

博文

这场直播，我们把 Apache 顶级项目盛会搬来了！

4月25-26日，为期一天半的 Flink Forward 全球直播中文精华版将精选大会最佳实践、Flink 深度技术解析、社区生态等优质内容进行翻译并搭配中文解说，邀您共赴技术盛宴！

1881 0 0

来自：实时计算 Flink 版块

晋恒

|

SQL 分布式计算资源调度

|

博文

EB级计算平台调度系统伏羲 DAG 2.0: 构建更动态更灵活的分布式计算生态

伏羲（Fuxi）是十年前创立飞天平台时的三大服务之一（分布式存储 Pangu，分布式计算 MaxCompute（内部代号ODPS），分布式调度 Fuxi），过去十年来，伏羲在技术能力上每年都有新的进展和突破，2013年5K，2015年Sortbenchmark世界冠军，2017年超大规模离在/在离线混部能力，2019年的 Yugong 发布并且论文被VLDB2019接受等。

3060 0 0

来自：大数据计算 MaxCompute 版块

1322026558235207

|

算法搜索推荐

|

博文

CTR 实验之二：GBDT 与LR 算法融合

通过ＧＢＤＴ生成的特征与原始特征进行ｍｅｒｇｅ，然后通过ＬＲ做回归。 数据源: 数据大小:770 KB 字段数量:20 使用组件:Table to KV,SQL脚本,拆分,读数据表,特征编码,增加序号列

1721 0 3

来自：人工智能平台PAI 版块

阿里云E-MapReduce团队

|

大数据 Apache Python

|

博文

Koalas：让 pandas 轻松切换 Apache Spark

4 月 24 日，Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas，它增强了 PySpark 的 DataFrame API，使其与 pandas 兼容。本文转自：https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

2933 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

API SQL 流计算

|

博文

Apache Flink 零基础入门（七）：Table API 编程

本文主要包含三部分：第一部分，主要介绍什么是 Table API，从概念角度进行分析，让大家有一个感性的认识；第二部分，从代码的层面介绍怎么使用 Table API；第三部分，介绍 Table API 近期的动态。

3215 0 0

来自：实时计算 Flink 版块

开源大数据EMR

|

数据库管理

|

博文

【译】Spark-Alchemy：HyperLogLog的使用介绍

原文链接: [https://databricks.com/blog/2019/05/08/advanced-analytics-with-apache-spark.html] 译者：辰石，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。

2305 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云E-MapReduce团队

|

分布式计算大数据 Spark

|

博文

阿里云大数据+AI技术沙龙上海站

EMR 团队在国内运营最大的 Spark 社区，为了更好地传播和分享业界最新技术和最佳实践，现在联合Intel及开源社区同行，打造一个纯粹的技术交流线下沙龙《大数据 + AI》，定期为大家做公益分享。首站上海开站，请猛戳链接报名！https://www.slidestalk.com/m/61

1820 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

SQL 分布式计算 Apache

|

博文

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

现在还没有一个统一的流式SQL语法标准，各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题，社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持，也会在后续的更新中吸收和支持这些优秀的设计建议。

1631 0 0

来自：开源大数据平台 E-MapReduce 版块

社区小助手

|

分布式计算 Apache Spark

|

博文

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.4 release and the upcoming releases and will be followed by a Q&A session.

1409 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

SQL 人工智能分布式计算

|

博文

学不动？Apache Member 教你评估实用技术的思路

是因为一项技术火，你才学的吗？是因为你老板决定用这项技术，你才学的吗？那你有没有想过为什么这项技术会火，为什么你老板决定用这项技术。今天我们就以 Flink 为例，来好好聊为什么要学习 Flink，以及如何看待一项新技术是否有潜力，希望对你有所启发。

1614 0 0

来自：实时计算 Flink 版块

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作，特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据，一方面可以提高查询性能，另一方面也可以减少资源的消耗(网络/IO/CPU等)，在同样的资源的情况下可以支撑更多的查询。

1893 0 0

来自：开源大数据平台 E-MapReduce 版块

xy_xin

|

SQL 大数据 Shell

|

博文

HIVE TopN shuffle 原理

TopN 问题是排序中的一个经典问题。对于一个长度为 m 的数组，取其最大的 n (n

2541 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算 Apache SQL

|

博文

开源大数据生态下的 Flink 应用实践

11 月 28-30 日，Flink Forward Asia 邀请来自阿里巴巴、戴尔科技集团、英特尔、Cloudera、趣头条、百度、Stream Native 等不同方向的技术专家围绕 Apache Flink 核心大数据生态探讨当下大数据的发展趋势与未来动向，并展现相关技术在一线生产场景的优秀实践。

2037 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

存储消息中间件机器学习/深度学习

|

博文

Flink 完美搭档：数据存储层上的 Pravega

本文将从大数据架构变迁历史，Pravega 简介，Pravega 进阶特性以及车联网使用场景这四个方面介绍 Pravega，重点介绍 DellEMC 为何要研发 Pravega，Pravega 解决了大数据处理平台的哪些痛点以及与 Flink 结合会碰撞出怎样的火花。

2760 0 0

来自：实时计算 Flink 版块

阿里云E-MapReduce团队

|

分布式计算 Spark

|

博文

8月14日Spark社区直播【Spark Shuffle 优化】

本次直播介绍EMR Spark 在shuffle方面的相关优化工作，主要包含shuffle 优化的背景以及shuffle 优化的设计方案，最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据

1629 0 0

来自：开源大数据平台 E-MapReduce 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

Hive数据如何同步到MaxCompute之实践讲解

Step by step，学习EMR集群的fair类型资源池

【阿里云峰会出海论坛】MaxCompute助力小影短视频走向全球化

一种堆外内存缓存策略加速数据写OSS

Demo：基于 Flink SQL 构建流式应用

Blink 漫谈系列 - 数据类型

数据集成到MaxCompute的N种最佳实践（持续更新）

Apache Spark中国技术交流群升级到企业群啦！！！！！！

EMR上如何进行流式SQL调试

MaxCompute技术人背后的故事：从ApacheORC到AliORC

开源大数据周刊-第41期

Apache Spark中国技术交流社区历次直播回顾（持续更新）

[转载] Spark Streaming 设计原理

MaxCompute问答整理之8月

maxcompute 2.0复杂数据类型之map

覆盖电商、推荐、ETL、风控等多场景，网易的实时计算平台做了啥？

阿里云大数据平台MaxCompute用户指南官方电子版下载

【科学脱口秀】EB级计算平台调度系统 “愚公” : 实现跨地域的数据和计算调度

使用EMR Spark Relational Cache跨集群同步数据

当 Mars 遇上 RAPIDS：用 GPU 以并行的方式加速数据科学

Hawkeye:TopN慢query的获取与优化

Hawkeye:助力TISPLUS实现数据化运营

Spark on Kubernetes 的现状与挑战

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密

如果你也想做实时数仓…

Adaptive Execution如何让Spark SQL更高效更好用？

利用PAI-DSW访问Github, 快速获取最新的学习资源

使用Blink SQL+UDAF实现差值聚合计算

祝贺！两位 Apache Flink PMC 喜提 Apache Member

都在说实时数据架构，你了解多少？

太难了！我耗费心力终于规划出了一张云栖大会日程表

开源大数据周刊-第101期

【直播】机器学习就用PAI,带你一起现场训练热狗识别模型！

SQL 开发任务超 50% ！滴滴实时计算的演进与优化

MaxCompute 预付费标准版VS套餐版

这场直播，我们把 Apache 顶级项目盛会搬来了！

EB级计算平台调度系统伏羲 DAG 2.0: 构建更动态更灵活的分布式计算生态

CTR 实验之二：GBDT 与LR 算法融合

Koalas：让 pandas 轻松切换 Apache Spark

Apache Flink 零基础入门（七）：Table API 编程

【译】Spark-Alchemy：HyperLogLog的使用介绍

阿里云大数据+AI技术沙龙上海站

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

学不动？Apache Member 教你评估实用技术的思路

EMR Spark Runtime Filter性能优化

HIVE TopN shuffle 原理

开源大数据生态下的 Flink 应用实践

Flink 完美搭档：数据存储层上的 Pravega

8月14日Spark社区直播【Spark Shuffle 优化】

大数据与机器学习

活跃用户

相关产品