大数据与机器学习-博文-第6页-阿里云开发者社区

海清

|

大数据测试技术调度

|

博文

【大数据开发套件调度配置实践】——调度任务各种周期配置和调度形态

数加·大数据开发套件目前支持任务调度周期有五种：天、周、月、分钟、小时。本文将介绍这五种周期的配置和调度形态。调度规则——调度任务是否能运行起来要满足的条件：上游任务实例是否都运行成功。若所有上游任务实例都运行成功则触发任务进入等待时间状态。

5227 0 0

来自：大数据计算 MaxCompute 版块

小扑

|

自然语言处理算法搜索推荐

|

博文

开放搜索(Opensearch)之下拉提示

下拉提示是搜索引擎的标配功能，它能起到减少用户输入的作用，自动补全搜索关键字，提升用户使用搜索引擎的体验，好的下拉提示还可以引导用户输入质量高的 query，这些高质量 query 最终能输出用户想要的搜索结果。

4275 0 0

来自：智能搜索推荐版块

阿里云实时计算Flink

|

流计算 API Apache

|

博文

Apache Flink 零基础入门（一）：基础概念解析

本文是根据 Apache Flink 基础篇系列直播整理而成，由 Apache Flink PMC 戴资力与阿里巴巴高级产品专家陈守元共同分享。Apache Flink 系列入门教程每周更新一期，持续推送。

14452 1 2

来自：实时计算 Flink 版块

隐林

|

SQL 分布式计算安全

|

博文

持续创新和改进，为用户创造最大价值，阿里云数加MaxCompute获得C-Tech Awards 2016年度“最具技术创新奖”

“C-Tech Awards 2016最具价值大奖评选”活动已经正式结束。从2016年12月22日线上征集至今，活动获得各大技术行业企业的高度关注，现已有来自国内外的近400家企业参与到了本次评选活动中，并提交了全面的产品简介和创新点解析。

3509 0 0

来自：大数据计算 MaxCompute 版块

封神

|

资源调度分布式计算 Java

|

博文

YARN(hadoop2)框架的一些软件设计模式

yarn版本的hadoop无论是从架构上面还是软件设计的层面上面都比原始的hadoop版本有较大的改进。在架构方面，我们认为yarn模式是新一代的框架，这个在官方等丛多的资料中说明得很详细了。在软件设计方面，我认为主要有以下的一些大的方面的改进：服务生命周期管理模式、事件驱动模式、状态驱动模式

3705 0 1

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

SQL 分布式计算 Apache

|

博文

Hive 终于等来了 Flink

Flink 社区在集成 Hive 功能方面付出很多，目前进展也比较顺利，最近 Flink 1.10.0 RC1 版本已经发布，感兴趣的读者可以进行调研和验证功能。

8270 0 0

来自：实时计算 Flink 版块

傲海

|

算法搜索推荐安全

|

博文

基于画像的特征推荐

基于画像的商品推荐 数据源:真实购物数据 数据大小:184 KB 字段数量:4 使用组件:Comments Node,归一化,过滤与映射,SQL脚本,缺失值填充,读数据表,JOIN,类型转换

4494 0 17

来自：人工智能平台PAI 版块

四相

|

分布式计算 JavaScript 安全

|

博文

MaxCompute 项目空间内的访问控制和权限管理

本文将为您介绍项目空间内的访问控制和权限管理。

4641 0 0

来自：大数据计算 MaxCompute 版块

海清

|

SQL 分布式计算大数据

|

博文

MaxCompute Studio使用心得系列2——编译SQL脚本

Console客户端、大数据开发套件的SQL编辑器目前都没有脚本编译功能，每次需要执行SQL脚本，只能提交执行后若有语法错误，执行结果失败返回失败信息才发现，影响开发效率又浪费资源。今天我就来分享在MaxCompute SQL提交运行前就可以进行脚本编译的方法。

3972 0 3

来自：大数据计算 MaxCompute 版块

祎休

|

数据采集弹性计算监控

|

博文

2017云栖大会·杭州峰会：《在线用户行为分析：基于流式计算的数据处理及应用》之《流数据采集：海量流式视频日志收集》篇

3784 0 1

来自：大数据计算 MaxCompute 版块

隐林

|

SQL 分布式计算大数据

|

博文

邀您参与阿里云MaxCompute2.0最佳实践征文活动

DT时代，越来越多的企业应用数据步入云端。与传统Hadoop相比，阿里云大数据计算服务MaxCompute(原名ODPS)向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题，有效降低企业成本，并保障数据安全。

3132 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

人工智能算法物联网

|

博文

开源大数据周刊-第89期

资讯 Databricks开源机器学习平台MLFlow本文主要介绍Databricks开源机器学习平台MLFlow基础。全民讨伐 Google AI “作恶”项目内部员工的严重抗议，终于让谷歌在 AI 武器化的道路上悬崖勒马了。

3103 0 0

来自：开源大数据平台 E-MapReduce 版块

付空

|

存储算法大数据

|

博文

基于实时计算（flink）打造舆情分析平台——新华智云

基于实时计算打造舆情分析平台——新华智云 1.客户&产品简介：新华智云是一家致力于通过大数据技术驱动媒体变革的公司，数芯是新华智云推出的实时舆情分析平台，旨在满足用户一系列舆情分析需求。

5841 0 0

来自：实时计算 Flink 版块

黯灭_邓彬

|

开发工具人工智能机器学习/深度学习

|

博文

天猫精灵业务如何使用机器学习PAI进行模型推理优化

作者：如切，悟双，楚哲，晓祥，旭林引言天猫精灵（TmallGenie）是阿里巴巴人工智能实验室（Alibaba A.I.Labs）于2017年7月5日发布的AI智能语音终端设备。天猫精灵目前是全球销量第三、中国销量第一的智能音箱品牌。

5382 0 0

来自：人工智能平台PAI 版块

风夏lk

|

机器学习/深度学习存储 Java

|

博文

大规模深度学习预测场景下 codegen 的思考与应用

RTP 系统是一个面向搜索和推荐的 ranking 需求，支持多种模型的在线 inference 服务。本文主要讨论了在 RTP 的存储读取和特征生成场景中 codegen 的应用。利用 IR 和 C++ 混合编程，解决系统的抽象和性能问题，并提供 schedule 的优化能力。

6655 0 0

来自：智能搜索推荐版块

工程师甲

|

搜索推荐前端开发

|

博文

【客户案例】用户点击率提升57%？| 智能推荐&开放搜索的实践分享

上海的联蔚科技是一家所属阿里生态的服务商，基于对大量客户的真实分析，从客户IT背景出发基于案例分析，来给大家分享为什么我们选择智能推荐和开放搜索作为企业技术服务架构的核心层，且在集成过程中，这两个服务的定位。

5324 0 1

来自：智能搜索推荐版块

傲海

|

机器学习/深度学习运维监控

|

博文

如何使用阿里云机器学习PAI的离线周期性调度功能

3677 0 0

来自：人工智能平台PAI 版块

lantao

|

机器学习/深度学习算法流计算

|

博文

深度预测平台RTP介绍

前言 RTP平台是阿里内部一个通用的在线预测平台，不仅支持淘系搜索、推荐、聚划算、淘金币等业务，也支持国际化相关icbu、lazada等搜索推荐业务，同时还支持着淘客，优酷、飞猪等大文娱的搜索推荐场景。

11203 0 3

来自：智能搜索推荐版块

阿里云实时计算Flink

|

流计算机器学习/深度学习 SQL

|

博文

一文带你了解 Flink Forward 柏林站全部重点内容

阿里巴巴这次共派出了包括笔者在内的3名讲师，总共参加了4场分享和2个问答环节。在这里，我会根据自己参与的议题给大家做一下这次会议整体的一个介绍和个人在这次参会过程里面的感受和思考，希望对感兴趣的同学有所帮助。

3554 0 0

来自：实时计算 Flink 版块

隐林

|

分布式计算 DataWorks 测试技术

|

博文

如何通过Dataworks禁止MaxCompute 子账号跨Project访问

之前有很多DataWorks用户问MaxCompute访问权限问题，比如子账号为什么可以增删查别人在别的项目创建的表，即使这个子账号并没有加入那个项目。今天手把手教大家实现子账号授权并关闭跨Project的数据访问权限。

3851 0 1

来自：大数据计算 MaxCompute 版块

老将黄滚

|

存储 SQL 分布式数据库

|

博文

Drill官网文档翻译六：存储插件的注册

我们可以通过存储插件连接到本地文件系统，Hive,HBase，或是其他的数据源。在Drill的web界面的存储插件配置tab,你可以查看修改这些插件的配置。如果不支持HTTPS（默认就没有），你可以访问HTTP://{IP}:8047/storage 来查看和配置存储插件。可以用IP，也可以用ho.

3581 0 1

来自：智能搜索推荐版块

晋恒

|

机器学习/深度学习算法数据挖掘

|

博文

图（关系网络）数据分析及阿里应用

2019年1月18日，由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学，本次技术沙龙上，阿里巴巴资深技术专家钱正平为大家分享了大数据技术背景下图数据的应用前景，以及阿里巴巴在图数据的建模、查询和系统优化等方面做出的初步探索。

5446 0 1

来自：大数据计算 MaxCompute 版块

健身不健身

|

SQL 存储缓存

|

博文

EMR Spark Relational Cache的执行计划重写

背景 EMR Spark提供的Relational Cache功能，可以通过对数据模型进行预计算和高效地存储，加速Spark SQL，为客户实现利用Spark SQL对海量数据进行即时查询的目的。Relational Cache的工作原理类似物化视图，在用户提交SQL语句时对语句进行分析，并选出可用的预计算结果来加速查询。

3567 0 0

来自：开源大数据平台 E-MapReduce 版块

小扑

|

存储运维大数据

|

博文

背景 Elasticsearch作为一个开箱即用的搜索引擎，其丰富的功能和极低的使用门槛吸引着越来越多的公司和用户选择它作为搜索和数据分析的工具。用户在运维Elasticsearch集群时往往会遇到很多难题，具体来说有下面列举的几点：使用方式往往比较粗糙，默认的设置并不适合每一个集群和业务，非精细化的设计将会极大的增加集群隐患；集群出现问题，无法及时定位原因、寻找解决方案，低效的沟通或者解决问题的方式可能会使得问题变得愈发严重； ES提供的监控指标繁杂，指标多，意义不明确，需要一定的专业知识才可以理解，缺乏全局视角；此外，集群潜在的异常无法发现，更不能及时规避风险。

4979 0 0

来自：检索分析服务 Elasticsearch版版块

QQ_Now

|

SQL 分布式计算大数据

|

博文

MaxCompute如何对SQL查询结果实现分页获取

由于MaxCompute SQL本身不提供类似数据库的select * from table limit x offset y的分页查询逻辑。但是有很多用户希望在一定场景下能够使用获取类似数据库分页的逻辑，对查询结果进行分页/分批获取结果，本文将介绍几种方法，来实现上述场景。

6073 0 1

来自：大数据计算 MaxCompute 版块

shequ

|

博文

人民的名义分析

人民的名义台本分析 数据源:人民的名义台本 数据大小:77.8 KB 字段数量:2 使用组件:读数据表

4592 0 7

来自：人工智能平台PAI 版块

开源大数据EMR

|

机器学习/深度学习人工智能分布式计算

|

博文

开源大数据周刊-第22期

本周关注：大数据部门、数据科学家、机器学习发展与机遇、spark2.0 Structured Streaming、Hbase运维、Sqoop、Flink的第一本书籍。

2777 0 0

来自：开源大数据平台 E-MapReduce 版块

晋恒

|

分布式计算大数据测试技术

|

博文

DCA公布第七批大数据产品能力评测结果，阿里云MaxCompute超大规模集群引关注

MaxCompute（原ODPS）是一项大数据计算服务，它能提供快速、完全托管的PB级数据仓库解决方案，使您可以经济并高效的分析处理海量数据。

3615 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

存储分布式计算大数据

|

博文

阿里云计算能力实现多项突破 BigBench规模全球首次被拓展至100TB

10月12日，阿里巴巴集团副总裁周靖人在云栖大会上发布了阿里云在大数据计算能力上的新突破：将BigBench数据规模扩展到100T；流计算2.0每秒峰值达千万QPS，整体链路延时亚秒级；E-MapReduce对比同类产品平均性能提升3倍。

3317 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

SQL 分布式计算 MaxCompute

|

博文

解决MaxCompute SQL count distinct多个字段的方法

按照惯性思维，统计一个字段去重后的条数我们的sql写起来如下： Distinct的作用是用于从指定集合中消除重复的元组，经常和count搭档工作，语法如下 COUNT( { [ DISTINCT ] expression ] | * } ) 这时，可能会碰到如下情况，你想统计同时有多列字段重复的数目，你可能会立马想到如下方法： select count( distinct col1 , col2 , col3 , .......) from table 但是，这样是有问题的，如果值包含空，那么我们的结果是什么呢？如果你实验过，正如你实验的一样，结果会比实际少。

6188 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算 API 存储

|

博文

Apache Flink 零基础入门（五）：流处理核心组件 Time&Window 深度解析

为什么要有 Window； Window 中的三个核心组件：WindowAssigner、Trigger 和 Evictor；Window 中怎么处理乱序数据，乱序数据是否允许延迟，以及怎么处理迟到的数据；最后我们梳理了整个 Window 的数据流程，以及 Window 中怎么保证 Exactly

4783 0 0

来自：实时计算 Flink 版块

工程师甲

|

运维大数据索引

|

博文

阿里云Elasticsearch智能运维系统最佳实践

随着业务的增长与发展，不同的Elasticsearch集群承担着多厚多样的功能需求。尤其是当集群规模增长、业务庞大时，需要耗费大量的精力运维集群。阿里云Elasticsearch研发了一套智能运维系统，可通多专家经验与数据驱动两个重要抓手帮助用户运维集群、提升业务的稳定性。

4232 0 0

来自：检索分析服务 Elasticsearch版版块

Jacker

|

机器学习/深度学习算法搜索推荐

|

博文

打击黑灰产的利器 —— 图神经网络（GNN）

阿里巴巴安全部数据与算法团队一直致力于与黑灰产进行对抗，保障用户在淘宝、天猫、闲鱼等平台上的使用体验和切身利益。面对狡猾的黑灰产，我们研究出了一系列算法武器，图神经网络（GNN）是其中重要的防控技术。本文结合阿里开源GNN框架Graph-Learn（https://github.com/alibaba/graph-learn）进行介绍。

4647 1 1

来自：人工智能平台PAI 版块

李博garvin1

|

博文

心脏病预测案例

心脏病是人类健康的头号杀手。全世界1／3的人口死亡是因心脏病引起的，而我国，每年有几十万人死于心脏病。所以，如果可以通过提取人体相关的体侧指标，通过数据挖掘的方式来分析不同特征对于心脏病的影响，对于预测和预防心脏病将起到至关重要的作用。本文将会通过真实的数据，通过阿里云机器学习平台搭建心脏病预测案例。 数据源:UCI 数据大小:7.49 KB 字段数量:15 使用组件:归一化,拆分,过滤式特征选择,SQL脚本,读数据表,类型转换

3175 1 3

来自：人工智能平台PAI 版块

隐林

|

分布式计算 DataWorks 调度

|

博文

采云间DPC迁移方案实施计划

迁移计划概述：第一阶段：前期沟通&准备 1、请先熟悉Dataworks的相关操作，比如节点的新增、执行、调度运维等相关操作； 2、本次迁移只把用户在采云间里面的任务迁移到DataWorks里面，需要用户提前确认采云间用到的odps项目在DataWorks中是否已经创建且可用；如果用户

3048 0 0

来自：大数据计算 MaxCompute 版块

计算爱好者

|

SQL 分布式计算 Hadoop

|

博文

E-MapReduce 集群环境小记

大家在使用E-MapReduce的时候，都想对E-MapReduce的集群环境细节有些了解。这里根据实践，总结一下E-MapReduce集群环境与应用启动与停止，供大家在实际使用中进行参考。

3177 0 1

来自：开源大数据平台 E-MapReduce 版块

wei.luww

|

存储分布式计算关系型数据库

|

博文

报表几种常用数据方案

报表的数据源如何组织？数据链路是怎样？怎样快捷方便的拿到数据？

3507 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算 MaxCompute

|

博文

Alibaba Cloud MaxCompute - Bringing Data to Life

2998 0 0

来自：大数据计算 MaxCompute 版块

洪阳lambert

|

运维数据可视化 Linux

|

博文

借助Beats快速搭建可视化运维系统

本例实现了一个对个人PC的可视化运维dashboard。拓展至N个节点的集群也同理可以实现。对于个人或者企业而言，约等于0成本的对接，将一步迈入可视化运维监控的阶段。

4269 0 0

来自：检索分析服务 Elasticsearch版版块

阿里云实时计算Flink

|

消息中间件分布式计算监控

|

博文

MaxCompute+ Geabase 大话健康知识图谱取经之路

小叽导语：正如Google的高级搜索副总裁Amit Singhal在介绍知识图谱时提到的：“The world is not made of strings , but is made of things.” 大千世界，万物相联，借助知识图谱，实现了搜索领域的things, not strings。

2864 0 0

来自：大数据计算 MaxCompute 版块

xy_xind

|

SQL NoSQL Java

|

博文

在 EMR 中使用 Mongo-Hadoop

2947 0 1

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算资源调度 Java

|

博文

Apache Flink 零基础入门（四）：客户端操作的 5 种模式

本文主要分享 Flink 的 5 种任务提交的方式。熟练掌握各种任务提交方式，有利于提高我们日常的开发和运维效率。

7636 0 0

来自：实时计算 Flink 版块

云计算小粉

|

分布式计算算法 MaxCompute

|

博文

云端大规模视频分析： MaxCompute在视觉计算中的应用

本文PPT来自阿里云iDST视觉计算技术专家慕开于10月15日在2016年杭州云栖大会上发表的《云端大规模视频分析：MaxCompute在视觉计算中的应用》。

2760 0 0

来自：大数据计算 MaxCompute 版块

知瑕

|

SQL 网络协议 Java

|

博文

通过Gateway访问Presto

本文介绍使用HAProxy反向代理实现通过Gateway节点访问Presto服务的方法。该方法也很容扩展到其他组件，如Impala等。

3188 0 0

来自：开源大数据平台 E-MapReduce 版块

喜德

|

机器学习/深度学习存储算法

|

博文

追求极致的AI·OS——AI·OS引擎平台

7533 0 1

来自：智能搜索推荐版块

诚历

|

SQL 存储大数据

|

博文

大数据列式存储 Parquet 和 ORC 简介

随着大数据 Hadoop/Spark 开源生态的不断发展和成熟，TextFile、CSV这些文本格式存储效率低，查询速度慢，往往不能很好地满足大数据系统中存储和查询的需求，列式存储也在大数据社区逐渐兴起到成熟。

6394 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

分布式计算 MaxCompute

|

博文

MaxCompute优化系列-如何解决`无效Join` ？

无效Join 比如这个例子： insert overwrite table my_table partition(ds='${bizdate}') select t1.task_type, sum(t1.

2779 0 0

来自：大数据计算 MaxCompute 版块

阿里云E-MapReduce团队

|

机器学习/深度学习监控安全

|

博文

开源大数据周刊-2018年07月27日第94期

2433 0 0

来自：开源大数据平台 E-MapReduce 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

【大数据开发套件调度配置实践】——调度任务各种周期配置和调度形态

开放搜索(Opensearch)之下拉提示

Apache Flink 零基础入门（一）：基础概念解析

持续创新和改进，为用户创造最大价值，阿里云数加MaxCompute获得C-Tech Awards 2016年度“最具技术创新奖”

YARN(hadoop2)框架的一些软件设计模式

Hive 终于等来了 Flink

推荐系统之业务架构总览

基于画像的特征推荐

MaxCompute 项目空间内的访问控制和权限管理

MaxCompute Studio使用心得系列2——编译SQL脚本

2017云栖大会·杭州峰会：《在线用户行为分析：基于流式计算的数据处理及应用》之《流数据采集：海量流式视频日志收集》篇

邀您参与阿里云MaxCompute2.0最佳实践征文活动

开源大数据周刊-第89期

基于实时计算（flink）打造舆情分析平台——新华智云

天猫精灵业务如何使用机器学习PAI进行模型推理优化

大规模深度学习预测场景下 codegen 的思考与应用

【客户案例】用户点击率提升57%？| 智能推荐&开放搜索的实践分享

如何使用阿里云机器学习PAI的离线周期性调度功能

深度预测平台RTP介绍

一文带你了解 Flink Forward 柏林站全部重点内容

如何通过Dataworks禁止MaxCompute 子账号跨Project访问

Drill官网文档翻译六：存储插件的注册

图（关系网络）数据分析及阿里应用

EMR Spark Relational Cache的执行计划重写

阿里云Elasticsearch 智能化运维实践

MaxCompute如何对SQL查询结果实现分页获取

人民的名义分析

开源大数据周刊-第22期

DCA公布第七批大数据产品能力评测结果，阿里云MaxCompute超大规模集群引关注

阿里云计算能力实现多项突破 BigBench规模全球首次被拓展至100TB

解决MaxCompute SQL count distinct多个字段的方法

Apache Flink 零基础入门（五）：流处理核心组件 Time&Window 深度解析

阿里云Elasticsearch智能运维系统最佳实践

打击黑灰产的利器 —— 图神经网络（GNN）

心脏病预测案例

采云间DPC迁移方案实施计划

E-MapReduce 集群环境小记

报表几种常用数据方案

Alibaba Cloud MaxCompute - Bringing Data to Life

借助Beats快速搭建可视化运维系统

最新消息！Cloudera 全球发行版正式集成 Apache Flink

MaxCompute+ Geabase 大话健康知识图谱取经之路

在 EMR 中使用 Mongo-Hadoop

Apache Flink 零基础入门（四）：客户端操作的 5 种模式

云端大规模视频分析： MaxCompute在视觉计算中的应用

通过Gateway访问Presto

追求极致的AI·OS——AI·OS引擎平台

大数据列式存储 Parquet 和 ORC 简介

MaxCompute优化系列-如何解决`无效Join` ？

开源大数据周刊-2018年07月27日 第94期

大数据与机器学习

活跃用户

相关产品

开源大数据周刊-2018年07月27日第94期