大数据与机器学习-博文-第5页-阿里云开发者社区

海清

|

SQL 分布式计算 MaxCompute

|

博文

MaxCompute分区表和非分区表使用对比

本文我们将通过对有同样数据量、表结构除分区列其他都一模一样的表,从查询计算、写入、删除数据几个简单操作进行对比，了解MaxCompute分区表和非分区表在使用上有什么差异。在介绍之前，需要大家先了解MaxCompute分区的概念。

6361 0 0

来自：大数据计算 MaxCompute 版块

shandd

|

存储消息中间件安全

|

博文

计算与存储分离实践—swift消息系统

swift是搜索事业部自主研发分布式消息系统，它的主要存储基于分布式文件系统，资源需求基于分布式调度系统。swift能支持每秒数亿的消息传递，支持PB级消息的存储。

7368 0 0

来自：智能搜索推荐版块

继盛

|

Python

|

博文

Mars 是什么、能做什么、如何做的——记 Mars 在 PyCon China 2018 上的分享

最近，在 PyCon China 2018 的北京主会场、成都和杭州分会场都分享了我们最新的工作 Mars，基于矩阵的统一计算框架。本文会以文字的形式对 PyCon 中国上的分享再进行一次阐述。听到 Mars，很多第一次听说的同学都会灵魂三问：Mars 是什么，能做什么，怎么做的。

5627 0 0

来自：大数据计算 MaxCompute 版块

金竹

|

SQL 存储 .NET

|

博文

Apache Flink 漫谈系列(12) - Time Interval(Time-windowed) JOIN

11742 58 58

来自：实时计算 Flink 版块

隐林

|

分布式计算安全大数据

|

博文

还在用Hadoop么？Hadoop服务器造成5PB数据泄露，中国、美国受波及最大！

根据John Matherly的说法，不适当地配置HDFS服务器——主要是Hadoop安装——将会泄露超过5PB的信息。John Matherly是用于发现互联网设备的搜索引擎Shodan的创始人。这位专家说，他发现了4487个HDFS服务器实例，这些服务器可通过公共IP地址获得，而且不需要身份验证。

4580 0 0

来自：大数据计算 MaxCompute 版块

xy_xind

|

SQL 分布式计算 Java

|

博文

在 EMR 中使用 ES-Hadoop

4407 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

SQL 前端开发数据库

|

博文

Flink SQL 功能解密系列 -- Aysnc I/O

5936 1 1

来自：实时计算 Flink 版块

洪阳lambert

|

弹性计算监控 Apache

|

博文

【云上ELK系列】阿里云Elasticsearch的Apache日志分析实践

阿里云Elasticsearch采集上游数据的方式有很多种，其中有一个与开源完全兼容的方案：通过logstash及logstash周围的强大的plugin实现数据采集。首先我们需要在ECS中来安装部署logstash，购买阿里云ECS服务，准备1.8以上版本的JDK。

4769 0 1

来自：检索分析服务 Elasticsearch版版块

隐林

|

Web App开发分布式计算大数据

|

博文

完成数据的打通-豌豆荚被阿里巴巴收购后的168天

曾经表示“要做伟大的公司”的豌豆荚在今年7月被阿里收购了。这家公司巅峰时期，估值曾高达10亿美元。然而，最后被收购时金额大跳水。据传当时的收购价为2亿美元，不过这一数额并未得到阿里巴巴和豌豆荚的确认。

4698 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

SQL 机器学习/深度学习 jstorm

|

博文

年度回顾 | 2019 年的 Apache Flink（文末有福利）

2019 年即将落下帷幕，这一年对于 Apache Flink 来说是非常精彩的一年，里程碑式的一年。随着这一年在邮件列表发送了超过 1 万封邮件，JIRA 中超过 4 千个 tickets，以及 GitHub 上超过 3 千个 PR，Apache Flink 迎来了快速的发展。

4570 0 0

来自：实时计算 Flink 版块

隐林

|

存储分布式计算监控

|

博文

MaxCompute2.0助力众安保险快速成长

摘要：2017云栖大会阿里云大数据计算服务（MaxCompute）专场，众安保险数据总监王超群带来MaxCompute助力众安保险方面的演讲。本文主要从MaxCompute优势开始谈起，进而谈及大数据能够公司运营带来的好处，最后重点分析了众安保险的数据平台建设，包括任务调度、元数据和数据质量监控等。

4773 0 0

来自：大数据计算 MaxCompute 版块

阿里云E-MapReduce团队

|

分布式计算 Spark 容器

|

博文

Spark Operator浅析

Spark Operator浅析本文介绍Spark Operator的设计和实现相关的内容. Spark运行时架构经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最通用的模块逐渐与框架解耦,独立成通用的组件.

11555 81 82

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算 Java 监控

|

博文

如何分析及处理 Flink 反压？

反压（backpressure）是实时计算应用开发中，特别是流式计算中，十分常见的问题。反压意味着数据管道中某个节点成为瓶颈，处理速率跟不上上游发送数据的速率，而需要对上游进行限速。

18364 1 1

来自：实时计算 Flink 版块

黯灭_邓彬

|

SQL 分布式计算 Spark

|

博文

Spark DataFrame 的 groupBy vs groupByKey

4926 0 1

来自：开源大数据平台 E-MapReduce 版块

云无谓

|

分布式计算 Hadoop 大数据

|

博文

E-MapReduce HDFS文件快速CRC校验工具介绍

在大数据应用场景下经常有数据文件的迁移工作，如果保障迁移之后数据的完整性是一个很常见的问题。本文就给大家介绍一下在大数据场景下，如何用工具快速对比文件。

5560 0 1

来自：开源大数据平台 E-MapReduce 版块

传学

|

大数据

|

博文

通过Fluentd实时上传数据到DataHub实践

本文把我通过Flunetd，把数据上传到DataHub的配置过程记录下来，希望对大家在配置中能有帮助。

4534 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

SQL 分布式计算大数据

|

博文

Spark SQL 性能优化再进一步：CBO 基于代价的优化

本文将介绍 CBO，它充分考虑了数据本身的特点（如大小、分布）以及操作算子的特点（中间结果集的分布及大小）及代价，从而更好的选择执行代价最小的物理执行计划，即 SparkPlan。

5348 0 0

来自：开源大数据平台 E-MapReduce 版块

付帅

|

消息中间件分布式计算 DataWorks

|

博文

Kafka数据迁移MaxCompute最佳实践

本文向您详细介绍如何使用DataWorks数据同步功能，将Kafka集群上的数据迁移到阿里云MaxCompute大数据计算服务。

4336 0 1

来自：大数据计算 MaxCompute 版块

场景研读

|

存储算法大数据

|

博文

Serverless理念的弄潮儿—— 阿里云数加平台助力大数据普惠

阿里云坚持将计算能力变成像水电煤一样的公共服务，提供给大众，而非卖服务器，这跟Serverless 架构理念一致。在本文中，班输从数据平台简介、大数据应用特点、数加平台Serverless架构解析和典型案例四部分讲述了数据平台如何利用Serverless 的架构来降低大数据应用的门槛，实现数据普惠。

4190 0 0

来自：大数据计算 MaxCompute 版块

云花

|

分布式计算 MaxCompute 开发工具

|

博文

离线批量数据通道Tunnel的最佳实践及常见问题

基本介绍及应用场景 Tunnel是Odps提供的离线批量数据通道服务，主要提供大批量离线数据上传和下载，仅提供每次批量大于等于64MB数据的场景，小批量流式数据场景请使用DataHub实时数据通道以获得更好的性能和体验。

4936 0 1

来自：大数据计算 MaxCompute 版块

小白薇薇

|

SQL 流计算大数据

|

博文

Flink入坑指南第四章：SQL中的经典操作Group By+Agg

Flink入坑指南系列文章，从实际例子入手，一步步引导用户零基础入门实时计算/Flink，并成长为使用Flink的高阶用户。简介 Group By + Agg这个最经典的SQL使用方式。Group By是SQL中最基础的分组操作，agg的全称是aggregation(聚合操作)，是一类SQL算子的统称，Flink中最常用的Agg操作有COUNT/SUM/AVG等，详情参见Flink支持的聚合操作列表。

11645 1 4

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

存储消息中间件分布式计算

|

博文

日处理数据量超10亿：友信金服基于Flink构建实时用户画像系统的实践

在此背景下，友信金服公司推行全域的数据体系战略，通过打通和整合集团各个业务线数据，利用大数据、人工智能等技术构建统一的数据资产，如 ID-Mapping、用户标签等。友信金服用户画像项目正是以此为背景成立，旨在实现“数据驱动业务与运营”的集团战略。

5644 1 3

来自：实时计算 Flink 版块

祎休

|

数据采集大数据数据处理

|

博文

大数据workshop：《在线用户行为分析：基于流式计算的数据处理及应用》之《流数据采集：日志流数据解析及上传》篇

本手册为云栖大会Workshop之《在线用户行为分析：基于流式计算的数据处理及应用》场的《流数据采集：日志流数据解析及上传》篇所需。主要帮助现场学员熟悉并掌握阿里云DataHub的操作和使用。

3939 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

存储分布式计算 DataWorks

|

博文

数加DataWorks/MaxCompute在国网浙江电力的最佳实践

摘要：2017云栖大会dataworks专场，国网浙江电力大数据平台架构师陈振带来Dataworks/MaxCompute在国网应用的实践。本文主要从建设数据仓库的三个痛点开始谈起，引出企业级数仓架构设计，着重通过数据集成和企业级管理为大家分享了具体的应用情况，最后作了简要的展望。

4289 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

机器学习/深度学习 SQL 人工智能

|

博文

开源大数据周刊-第80期

奇虎360正式开源其高性能KV存储平台Zeppelin，Zeppelin 是奇虎 360 开源的一个高性能，高可用的分布式 Key-Value 存储平台，它以高性能、大集群为目标，并希望能在 Zeppelin 的基础上，不仅能够提供 KV 的访问，还可以通过简单的一层转换满足更复杂的协议需求。

3516 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

SQL 分布式计算安全

|

博文

MaxCompute产品最新进展 -- 从马力到计算力

摘要本文从马力作为功率衡量标准为切入点介绍了大数据领域的计算力衡量标准TPCBB以及MaxCompute2.0在Big Bench上的卓越表现。同时详细地分享了取得优异成绩背后的产品在最新有哪些进展帮助大家全面的了解MaxCumpute2.0。

3997 0 0

来自：大数据计算 MaxCompute 版块

晋恒

|

分布式计算安全关系型数据库

|

博文

十年磨一剑，王坚自研的MaxCompute如何解决世界级算力难题

2009年这项关于大数据的技术长征开始。王坚带队，目标是自研大数据计算平台MaxCompute统一阿里巴巴内部的数据和大数据计算体系。

4150 0 0

来自：大数据计算 MaxCompute 版块

若有-若无

|

消息中间件大数据关系型数据库

|

博文

实时计算在「阿里影业实时报表业务」技术解读

阿里影业实时报表开始做法也是按照传统型报表做法一样，直接从阿里云rds写sql查询，随着数据量越来越大，这种做法已经没有办法满足业务扩张，带来的问题响应时间变慢，吞吐量低，我们急需要一种技术方案能满足未来2-3年随着影院增加，数据增长，而报表功能还能很好的满足客户需求技术方案。

5494 0 2

来自：实时计算 Flink 版块

隐林

|

存储分布式计算大数据

|

博文

MaxCompute2.0索引优化实践

摘要：2017云栖大会阿里云大数据计算服务（MaxCompute）专场，阿里云高级专家戴谢宁带来MaxCompute的索引与优化实践分享。本文主要从MaxCompute数据模型开始谈起，接着分享了哈希分片和区域分片，着重分析了索引优化和join优化，并且列出了应用实例，最好作出了简要总结。

4580 0 1

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

SQL 分布式计算大数据

|

博文

开源大数据周刊-第14期

大数据人才状况；大数据平台相关：数据采集、数据指标的量化、大数据平台建设的选型；性能优化相关：hive、hbase、jvm gc的优化；

3669 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

分布式计算 MaxCompute

|

博文

MaxCompute Optimizer之表达式约化

MaxCompute Optimizer之表达式约化文章转载自jiehongOptimizer是MaxCompute处理SQL任务的优化器，它的主旨于在根据关系代数的等价描述将中间的执行计划进一步地等价变换，以生成代价更优的执行计划。Optimizer内部有很多优化器，此

3852 0 0

来自：大数据计算 MaxCompute 版块

晋恒

|

人工智能分布式计算大数据

|

博文

阿里云在美推出MaxCompute大数据计算平台

2017年11月16日，阿里巴巴集团旗下云计算平台阿里云，宣布在美推出MaxCompute大数据计算平台。正式向美国企业提供大数据计算服务。

3978 0 0

来自：大数据计算 MaxCompute 版块

海清

|

大数据测试技术调度

|

博文

【大数据开发套件调度配置实践】——调度任务各种周期配置和调度形态

数加·大数据开发套件目前支持任务调度周期有五种：天、周、月、分钟、小时。本文将介绍这五种周期的配置和调度形态。调度规则——调度任务是否能运行起来要满足的条件：上游任务实例是否都运行成功。若所有上游任务实例都运行成功则触发任务进入等待时间状态。

5227 0 0

来自：大数据计算 MaxCompute 版块

小扑

|

自然语言处理算法搜索推荐

|

博文

开放搜索(Opensearch)之下拉提示

下拉提示是搜索引擎的标配功能，它能起到减少用户输入的作用，自动补全搜索关键字，提升用户使用搜索引擎的体验，好的下拉提示还可以引导用户输入质量高的 query，这些高质量 query 最终能输出用户想要的搜索结果。

4275 0 0

来自：智能搜索推荐版块

阿里云实时计算Flink

|

流计算 API Apache

|

博文

Apache Flink 零基础入门（一）：基础概念解析

本文是根据 Apache Flink 基础篇系列直播整理而成，由 Apache Flink PMC 戴资力与阿里巴巴高级产品专家陈守元共同分享。Apache Flink 系列入门教程每周更新一期，持续推送。

14452 1 2

来自：实时计算 Flink 版块

隐林

|

SQL 分布式计算安全

|

博文

持续创新和改进，为用户创造最大价值，阿里云数加MaxCompute获得C-Tech Awards 2016年度“最具技术创新奖”

“C-Tech Awards 2016最具价值大奖评选”活动已经正式结束。从2016年12月22日线上征集至今，活动获得各大技术行业企业的高度关注，现已有来自国内外的近400家企业参与到了本次评选活动中，并提交了全面的产品简介和创新点解析。

3509 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

SQL 分布式计算 Apache

|

博文

Hive 终于等来了 Flink

Flink 社区在集成 Hive 功能方面付出很多，目前进展也比较顺利，最近 Flink 1.10.0 RC1 版本已经发布，感兴趣的读者可以进行调研和验证功能。

8270 0 0

来自：实时计算 Flink 版块

傲海

|

算法搜索推荐安全

|

博文

基于画像的特征推荐

基于画像的商品推荐 数据源:真实购物数据 数据大小:184 KB 字段数量:4 使用组件:Comments Node,归一化,过滤与映射,SQL脚本,缺失值填充,读数据表,JOIN,类型转换

4494 0 17

来自：人工智能平台PAI 版块

四相

|

分布式计算 JavaScript 安全

|

博文

MaxCompute 项目空间内的访问控制和权限管理

本文将为您介绍项目空间内的访问控制和权限管理。

4641 0 0

来自：大数据计算 MaxCompute 版块

海清

|

SQL 分布式计算大数据

|

博文

MaxCompute Studio使用心得系列2——编译SQL脚本

Console客户端、大数据开发套件的SQL编辑器目前都没有脚本编译功能，每次需要执行SQL脚本，只能提交执行后若有语法错误，执行结果失败返回失败信息才发现，影响开发效率又浪费资源。今天我就来分享在MaxCompute SQL提交运行前就可以进行脚本编译的方法。

3972 0 3

来自：大数据计算 MaxCompute 版块

祎休

|

数据采集弹性计算监控

|

博文

2017云栖大会·杭州峰会：《在线用户行为分析：基于流式计算的数据处理及应用》之《流数据采集：海量流式视频日志收集》篇

3784 0 1

来自：大数据计算 MaxCompute 版块

隐林

|

SQL 分布式计算大数据

|

博文

邀您参与阿里云MaxCompute2.0最佳实践征文活动

DT时代，越来越多的企业应用数据步入云端。与传统Hadoop相比，阿里云大数据计算服务MaxCompute(原名ODPS)向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题，有效降低企业成本，并保障数据安全。

3132 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

人工智能算法物联网

|

博文

开源大数据周刊-第89期

资讯 Databricks开源机器学习平台MLFlow本文主要介绍Databricks开源机器学习平台MLFlow基础。全民讨伐 Google AI “作恶”项目内部员工的严重抗议，终于让谷歌在 AI 武器化的道路上悬崖勒马了。

3103 0 0

来自：开源大数据平台 E-MapReduce 版块

付空

|

存储算法大数据

|

博文

基于实时计算（flink）打造舆情分析平台——新华智云

基于实时计算打造舆情分析平台——新华智云 1.客户&产品简介：新华智云是一家致力于通过大数据技术驱动媒体变革的公司，数芯是新华智云推出的实时舆情分析平台，旨在满足用户一系列舆情分析需求。

5841 0 0

来自：实时计算 Flink 版块

黯灭_邓彬

|

开发工具人工智能机器学习/深度学习

|

博文

天猫精灵业务如何使用机器学习PAI进行模型推理优化

作者：如切，悟双，楚哲，晓祥，旭林引言天猫精灵（TmallGenie）是阿里巴巴人工智能实验室（Alibaba A.I.Labs）于2017年7月5日发布的AI智能语音终端设备。天猫精灵目前是全球销量第三、中国销量第一的智能音箱品牌。

5382 0 0

来自：人工智能平台PAI 版块

风夏lk

|

机器学习/深度学习存储 Java

|

博文

大规模深度学习预测场景下 codegen 的思考与应用

RTP 系统是一个面向搜索和推荐的 ranking 需求，支持多种模型的在线 inference 服务。本文主要讨论了在 RTP 的存储读取和特征生成场景中 codegen 的应用。利用 IR 和 C++ 混合编程，解决系统的抽象和性能问题，并提供 schedule 的优化能力。

6655 0 0

来自：智能搜索推荐版块

工程师甲

|

搜索推荐前端开发

|

博文

【客户案例】用户点击率提升57%？| 智能推荐&开放搜索的实践分享

上海的联蔚科技是一家所属阿里生态的服务商，基于对大量客户的真实分析，从客户IT背景出发基于案例分析，来给大家分享为什么我们选择智能推荐和开放搜索作为企业技术服务架构的核心层，且在集成过程中，这两个服务的定位。

5324 0 1

来自：智能搜索推荐版块

傲海

|

机器学习/深度学习运维监控

|

博文

如何使用阿里云机器学习PAI的离线周期性调度功能

3677 0 0

来自：人工智能平台PAI 版块

lantao

|

机器学习/深度学习算法流计算

|

博文

深度预测平台RTP介绍

前言 RTP平台是阿里内部一个通用的在线预测平台，不仅支持淘系搜索、推荐、聚划算、淘金币等业务，也支持国际化相关icbu、lazada等搜索推荐业务，同时还支持着淘客，优酷、飞猪等大文娱的搜索推荐场景。

11203 0 3

来自：智能搜索推荐版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

MaxCompute分区表和非分区表使用对比

计算与存储分离实践—swift消息系统

Mars 是什么、能做什么、如何做的——记 Mars 在 PyCon China 2018 上的分享

Apache Flink 漫谈系列(12) - Time Interval(Time-windowed) JOIN

还在用Hadoop么？Hadoop服务器造成5PB数据泄露，中国、美国受波及最大！

在 EMR 中使用 ES-Hadoop

Flink SQL 功能解密系列 -- Aysnc I/O

【云上ELK系列】阿里云Elasticsearch的Apache日志分析实践

完成数据的打通-豌豆荚被阿里巴巴收购后的168天

年度回顾 | 2019 年的 Apache Flink（文末有福利）

MaxCompute2.0助力众安保险快速成长

Spark Operator浅析

如何分析及处理 Flink 反压？

Spark DataFrame 的 groupBy vs groupByKey

E-MapReduce HDFS文件快速CRC校验工具介绍

通过Fluentd实时上传数据到DataHub实践

Spark SQL 性能优化再进一步：CBO 基于代价的优化

Kafka数据迁移MaxCompute最佳实践

Serverless理念的弄潮儿—— 阿里云数加平台助力大数据普惠

离线批量数据通道Tunnel的最佳实践及常见问题

Flink入坑指南 第四章：SQL中的经典操作Group By+Agg

日处理数据量超10亿：友信金服基于Flink构建实时用户画像系统的实践

大数据workshop：《在线用户行为分析：基于流式计算的数据处理及应用》之《流数据采集：日志流数据解析及上传》篇

数加DataWorks/MaxCompute在国网浙江电力的最佳实践

开源大数据周刊-第80期

MaxCompute产品最新进展 -- 从马力到计算力

十年磨一剑，王坚自研的MaxCompute如何解决世界级算力难题

实时计算在「阿里影业实时报表业务」技术解读

MaxCompute2.0索引优化实践

开源大数据周刊-第14期

MaxCompute Optimizer之表达式约化

阿里云在美推出MaxCompute大数据计算平台

【大数据开发套件调度配置实践】——调度任务各种周期配置和调度形态

开放搜索(Opensearch)之下拉提示

Apache Flink 零基础入门（一）：基础概念解析

持续创新和改进，为用户创造最大价值，阿里云数加MaxCompute获得C-Tech Awards 2016年度“最具技术创新奖”

Hive 终于等来了 Flink

推荐系统之业务架构总览

基于画像的特征推荐

MaxCompute 项目空间内的访问控制和权限管理

MaxCompute Studio使用心得系列2——编译SQL脚本

2017云栖大会·杭州峰会：《在线用户行为分析：基于流式计算的数据处理及应用》之《流数据采集：海量流式视频日志收集》篇

邀您参与阿里云MaxCompute2.0最佳实践征文活动

开源大数据周刊-第89期

基于实时计算（flink）打造舆情分析平台——新华智云

天猫精灵业务如何使用机器学习PAI进行模型推理优化

大规模深度学习预测场景下 codegen 的思考与应用

【客户案例】用户点击率提升57%？| 智能推荐&开放搜索的实践分享

如何使用阿里云机器学习PAI的离线周期性调度功能

深度预测平台RTP介绍

大数据与机器学习

活跃用户

相关产品

Flink入坑指南第四章：SQL中的经典操作Group By+Agg