大数据与机器学习-博文-第7页-阿里云开发者社区

ali别离

|

人工智能搜索推荐异构计算

|

博文

从HA3到AI·OS -- 全图化引擎破茧之路

9320 0 1

来自：智能搜索推荐版块

隐林

|

存储分布式计算大数据

|

博文

阿里云计算能力实现多项突破 BigBench规模全球首次被拓展至100TB

10月12日，阿里巴巴集团副总裁周靖人在云栖大会上发布了阿里云在大数据计算能力上的新突破：将BigBench数据规模扩展到100T；流计算2.0每秒峰值达千万QPS，整体链路延时亚秒级；E-MapReduce对比同类产品平均性能提升3倍。

3317 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

SQL 分布式计算 MaxCompute

|

博文

解决MaxCompute SQL count distinct多个字段的方法

按照惯性思维，统计一个字段去重后的条数我们的sql写起来如下： Distinct的作用是用于从指定集合中消除重复的元组，经常和count搭档工作，语法如下 COUNT( { [ DISTINCT ] expression ] | * } ) 这时，可能会碰到如下情况，你想统计同时有多列字段重复的数目，你可能会立马想到如下方法： select count( distinct col1 , col2 , col3 , .......) from table 但是，这样是有问题的，如果值包含空，那么我们的结果是什么呢？如果你实验过，正如你实验的一样，结果会比实际少。

6190 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算 API 存储

|

博文

Apache Flink 零基础入门（五）：流处理核心组件 Time&Window 深度解析

为什么要有 Window； Window 中的三个核心组件：WindowAssigner、Trigger 和 Evictor；Window 中怎么处理乱序数据，乱序数据是否允许延迟，以及怎么处理迟到的数据；最后我们梳理了整个 Window 的数据流程，以及 Window 中怎么保证 Exactly

4783 0 0

来自：实时计算 Flink 版块

工程师甲

|

运维大数据索引

|

博文

阿里云Elasticsearch智能运维系统最佳实践

随着业务的增长与发展，不同的Elasticsearch集群承担着多厚多样的功能需求。尤其是当集群规模增长、业务庞大时，需要耗费大量的精力运维集群。阿里云Elasticsearch研发了一套智能运维系统，可通多专家经验与数据驱动两个重要抓手帮助用户运维集群、提升业务的稳定性。

4232 0 0

来自：检索分析服务 Elasticsearch版版块

Jacker

|

机器学习/深度学习算法搜索推荐

|

博文

打击黑灰产的利器 —— 图神经网络（GNN）

阿里巴巴安全部数据与算法团队一直致力于与黑灰产进行对抗，保障用户在淘宝、天猫、闲鱼等平台上的使用体验和切身利益。面对狡猾的黑灰产，我们研究出了一系列算法武器，图神经网络（GNN）是其中重要的防控技术。本文结合阿里开源GNN框架Graph-Learn（https://github.com/alibaba/graph-learn）进行介绍。

4647 1 1

来自：人工智能平台PAI 版块

李博garvin1

|

博文

心脏病预测案例

心脏病是人类健康的头号杀手。全世界1／3的人口死亡是因心脏病引起的，而我国，每年有几十万人死于心脏病。所以，如果可以通过提取人体相关的体侧指标，通过数据挖掘的方式来分析不同特征对于心脏病的影响，对于预测和预防心脏病将起到至关重要的作用。本文将会通过真实的数据，通过阿里云机器学习平台搭建心脏病预测案例。 数据源:UCI 数据大小:7.49 KB 字段数量:15 使用组件:归一化,拆分,过滤式特征选择,SQL脚本,读数据表,类型转换

3175 1 3

来自：人工智能平台PAI 版块

隐林

|

分布式计算 DataWorks 调度

|

博文

采云间DPC迁移方案实施计划

迁移计划概述：第一阶段：前期沟通&准备 1、请先熟悉Dataworks的相关操作，比如节点的新增、执行、调度运维等相关操作； 2、本次迁移只把用户在采云间里面的任务迁移到DataWorks里面，需要用户提前确认采云间用到的odps项目在DataWorks中是否已经创建且可用；如果用户

3048 0 0

来自：大数据计算 MaxCompute 版块

计算爱好者

|

SQL 分布式计算 Hadoop

|

博文

E-MapReduce 集群环境小记

大家在使用E-MapReduce的时候，都想对E-MapReduce的集群环境细节有些了解。这里根据实践，总结一下E-MapReduce集群环境与应用启动与停止，供大家在实际使用中进行参考。

3177 0 1

来自：开源大数据平台 E-MapReduce 版块

wei.luww

|

存储分布式计算关系型数据库

|

博文

报表几种常用数据方案

报表的数据源如何组织？数据链路是怎样？怎样快捷方便的拿到数据？

3507 0 0

来自：大数据计算 MaxCompute 版块

海清

|

弹性计算分布式计算大数据

|

博文

阿里云大数据计算服务MaxCompute（原ODPS）华南1（深圳）Region即将开服！

2017年9月7日，阿里云数加·MaxCompute（原ODPS）华南1（深圳）数据中心正式开服售卖，这是数加·MaxCompute在国内开服的第二个区域。届时MaxCompute将会针对新服开展促销活动，具体活动规则敬请期待！

3097 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算 MaxCompute

|

博文

Alibaba Cloud MaxCompute - Bringing Data to Life

2998 0 0

来自：大数据计算 MaxCompute 版块

洪阳lambert

|

运维数据可视化 Linux

|

博文

借助Beats快速搭建可视化运维系统

本例实现了一个对个人PC的可视化运维dashboard。拓展至N个节点的集群也同理可以实现。对于个人或者企业而言，约等于0成本的对接，将一步迈入可视化运维监控的阶段。

4269 0 0

来自：检索分析服务 Elasticsearch版版块

阿里云实时计算Flink

|

消息中间件数据采集分布式计算

|

博文

在 Cloudera Data Flow 上运行你的第一个 Flink 例子

本文主要是介绍如何在 CDH6.3 中安装 Flink 1.9 以及运行你的第一个 Flink 例子。

3122 0 1

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

消息中间件分布式计算监控

|

博文

开源大数据周刊-第5期

浅谈大数据在传统行业的落地之痛，Spark如何简化大数据工作

2678 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

存储自然语言处理搜索推荐

|

博文

MaxCompute+ Geabase 大话健康知识图谱取经之路

小叽导语：正如Google的高级搜索副总裁Amit Singhal在介绍知识图谱时提到的：“The world is not made of strings , but is made of things.” 大千世界，万物相联，借助知识图谱，实现了搜索领域的things, not strings。

2864 0 0

来自：大数据计算 MaxCompute 版块

xy_xind

|

SQL NoSQL Java

|

博文

在 EMR 中使用 Mongo-Hadoop

2947 0 1

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算资源调度 Java

|

博文

Apache Flink 零基础入门（四）：客户端操作的 5 种模式

本文主要分享 Flink 的 5 种任务提交的方式。熟练掌握各种任务提交方式，有利于提高我们日常的开发和运维效率。

7636 0 0

来自：实时计算 Flink 版块

云计算小粉

|

分布式计算算法 MaxCompute

|

博文

云端大规模视频分析： MaxCompute在视觉计算中的应用

本文PPT来自阿里云iDST视觉计算技术专家慕开于10月15日在2016年杭州云栖大会上发表的《云端大规模视频分析：MaxCompute在视觉计算中的应用》。

2760 0 0

来自：大数据计算 MaxCompute 版块

知瑕

|

SQL 网络协议 Java

|

博文

通过Gateway访问Presto

本文介绍使用HAProxy反向代理实现通过Gateway节点访问Presto服务的方法。该方法也很容扩展到其他组件，如Impala等。

3188 0 0

来自：开源大数据平台 E-MapReduce 版块

喜德

|

机器学习/深度学习存储算法

|

博文

追求极致的AI·OS——AI·OS引擎平台

7533 0 1

来自：智能搜索推荐版块

诚历

|

SQL 存储大数据

|

博文

大数据列式存储 Parquet 和 ORC 简介

随着大数据 Hadoop/Spark 开源生态的不断发展和成熟，TextFile、CSV这些文本格式存储效率低，查询速度慢，往往不能很好地满足大数据系统中存储和查询的需求，列式存储也在大数据社区逐渐兴起到成熟。

6394 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

分布式计算 MaxCompute

|

博文

MaxCompute优化系列-如何解决`无效Join` ？

无效Join 比如这个例子： insert overwrite table my_table partition(ds='${bizdate}') select t1.task_type, sum(t1.

2779 0 0

来自：大数据计算 MaxCompute 版块

阿里云E-MapReduce团队

|

机器学习/深度学习监控安全

|

博文

开源大数据周刊-2018年07月27日第94期

2433 0 0

来自：开源大数据平台 E-MapReduce 版块

鱼跟猫

|

分布式计算大数据 Hadoop

|

博文

E-MapReduce上如何升级EMR-Core

本文档将介绍如何将老集群的EMR-Core升级到最新版本什么是EMR-Core EMR-Core是E-MapReduce集群上支持Hadoop生态组件读写OSS的依赖包。它提供一种高效地读写OSS数据的实现，并不断地在优化中。

2785 0 0

来自：开源大数据平台 E-MapReduce 版块

巫宸

|

算法 Java 容器

|

博文

TPP多租户隔离之资源清理

利用ajdk实现jvm虚拟化，实现容器业务方案的热部署和资源隔离

4011 0 0

来自：智能搜索推荐版块

晋恒

|

存储分布式计算大数据

|

博文

MaxCompute，基于Serverless的高可靠大数据服务

2019年1月18日，由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学，本次技术沙龙上，阿里巴巴高级技术专家吴永明为大家分享了MaxCompute，基于Serverless的高可用大数据服务，以及MaxCompute低计算成本背后的秘密。

3838 0 0

来自：大数据计算 MaxCompute 版块

四相

|

分布式计算 Java MaxCompute

|

博文

MaxCompute_SDK_开发指南

方便和辅助 MaxCompute 开发人员使用 Java / Python SDK 方式进行日常代码的开发工作。

4976 0 0

来自：大数据计算 MaxCompute 版块

海清

|

SQL 分布式计算 DataWorks

|

博文

MaxCompute安全管理指南-案例篇

通过《MaxCompute安全管理-基础篇》了解到MaxCompute和DataWorks的相关安全模型、两个产品安全方面的关联，以及各种安全操作后，本篇主要给出一些安全管理案例，给安全管理的成员作为参考。

2805 0 0

来自：大数据计算 MaxCompute 版块

小扑

|

机器学习/深度学习算法索引

|

博文

OpenSearch算法产品化探索与实践

作为搜索的用户，我觉得最关心的是两个方面：一是召回的结果是否符合预期，二是召回结果的排序是否符合预期。OpenSearch作为一个搜索服务提供平台，在这两个方面我们提供了一定机制方便用户定制自己的召回和排序逻辑。

3580 0 0

来自：智能搜索推荐版块

隐林

|

算法大数据测试技术

|

博文

京信通信：数据智能为生产调试“增效瘦身”

“数据驱动测试优化，突破自动测试边界，赋能智慧测试新模式。”——京信智能制造副总经理葛鑫 “进入车间，映入眼帘的是一条长约20 米的 O 型生产线，产线前三名工人和几个机器人正协同工作，将各种元器件的印刷线路板（PCBA 板）与产品壳体组装起来。

2837 0 0

来自：大数据计算 MaxCompute 版块

鸿初

|

SQL 分布式计算大数据

|

博文

【转】Spark 2.0 技术预览版:更简单、更快速、更智

2699 0 0

来自：开源大数据平台 E-MapReduce 版块

李呈祥

|

SQL 分布式计算测试技术

|

博文

扩展Spark Catalyst，打造自定义的Spark SQL引擎

在Spark2.2版本中，引入了新的扩展点，使得用户可以在Spark session中自定义自己的parser，analyzer，optimizer以及physical planning stragegy rule。

4989 0 0

来自：开源大数据平台 E-MapReduce 版块

黯灭_邓彬

|

机器学习/深度学习算法测试技术

|

博文

机器学习PAI 可视化建模 Tensorflow升级通知

机器学习PAI 可视化建模 Tensorflow升级通知！请PAI Tensorflow用户注意查收邮件！

3400 0 3

来自：人工智能平台PAI 版块

开源大数据EMR

|

机器学习/深度学习存储分布式计算

|

博文

开源大数据周刊-第45期

阿里云E-MapReduce实践云HBase助力物联网建设物联网最大的特点写入量大，要求延迟低，且数据存量巨大。云HBase非常满足物联网存储需求，存储数P甚至百P的空间存储需求，延迟稳定在数毫秒之内，跟Hadoop分析体系有较为深入的结合，满足分析类的需求。

2639 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算资源调度消息中间件

|

博文

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

在 2017 年上半年以前，TalkingData 的 App Analytics 和 Game Analytics 两个产品，流式框架使用的是自研的 td-etl-framework。该框架降低了开发流式任务的复杂度，对于不同的任务只需要实现一个 changer 链即可，并且支持水平扩展，性能尚可，曾经可以满足业务需求。

3540 0 0

来自：实时计算 Flink 版块

apache_flink

|

大数据流计算

|

博文

Flink China 社区运营成果报告（7月-9月）

为进一步提升Apache Flink在国内的技术影响力，实时计算组运营团队在过去两个月的时间里，对Flink China社区持续进行品牌包装与推广，现将运营效果通过生态建设 / 活动运营 / 问卷调研 / 社区共建 / 内容输出 / 运营计划六个方面展示。

2917 0 0

来自：实时计算 Flink 版块

开源大数据EMR

|

机器学习/深度学习分布式计算大数据

|

博文

开源大数据周刊-第38期

本期关注：梨视频基于阿里云E-MapReduce搭建视频推荐系统的实践，Apache Eagle成为新的顶级项目，英特尔开源的分布式深度学习库BigDL，Hadoop 3.0新功能测评

2574 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

分布式计算算法搜索推荐

|

博文

Spark排序算法系列之GBTs使用方式介绍

在本篇文章中你可以学到： Spark MLLib包中的GBDT使用方式模型的通过保存、加载、预测 PipeLine ML包中的GBDT

3159 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

机器学习/深度学习 SQL 分布式计算

|

博文

开源大数据周刊-第10期

云上Hadoop之最佳实践

2457 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

新零售机器学习/深度学习人工智能

|

博文

阿里云全新一代人工智能引擎机器学习PAI+MaxComptue征文大赛正式启动

2547 0 0

来自：大数据计算 MaxCompute 版块

四相

|

SQL 分布式计算 Java

|

博文

MaxCompute_UDF_开发指南

本文将介绍Java / Python UDF 如何使用新建工程，添加代码，打包，上传资源包和注册方法，对初次接触的用户提供帮助。

5502 0 0

来自：大数据计算 MaxCompute 版块

亢海鹏

|

分布式计算 MaxCompute Java

|

博文

这样才能正确解锁MaxCompute客户端

飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品，是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。

4070 0 1

来自：大数据计算 MaxCompute 版块

傲海

|

机器学习/深度学习新零售人工智能

|

博文

阿里云机器学习PAI征文大赛正式启动

征文大赛奖品丰厚

2694 0 1

来自：人工智能平台PAI 版块

QQ_Now

|

分布式计算 MaxCompute API

|

博文

利用InformationSchema与阿里云交易和账单管理API实现MaxCompute费用对账分摊统计

利用MaxCompute InformationSchema和阿里云交易和账单管理API 实现MaxCompute费用对账分摊统计一、需求场景分析非常多的用户选择MaxCompute按量付费模式构建自己的数据平台，利用MaxCompute按量付费模型极大地减少不必要的费用支持，仅为实际运行的作业付费。

3708 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

机器学习/深度学习分布式计算大数据

|

博文

开源大数据周刊-第57期

ECM功能上线北京region，用户可以通过EMR-3.2.0版本创建新集群体验，ECM提供组件的配置修改/起停等操作

2425 0 0

来自：开源大数据平台 E-MapReduce 版块

文刀禾乃

|

数据可视化

|

博文

号外号外，DataV新增拓展包来啦，帮你实现更强大的可视化！

新增高级交互组件拓展包、组件收藏数量扩展包、屏幕数量拓展包

3845 0 1

来自：数据可视化DataV 版块

继盛

|

分布式计算 DataWorks TensorFlow

|

博文

MaxCompute Mars 完全指南

Mars 能利用并行和分布式技术，加速 Python 数据科学栈，包括 numpy、pandas 和 scikit-learn。同时，也能轻松与 TensorFlow、PyTorch 和 XGBoost 集成。

4601 0 0

来自：大数据计算 MaxCompute 版块

yq传送门

|

安全大数据数据挖掘

|

博文

天律的云端大数据分析挖掘之旅

随着数据爆炸式的增长，我们正被各种数据包围着。从海量的历史、实时数据中寻找规律，从而为决策者提供科学的依据，是大部分企业面临的问题。大数据分析给企业带来的不仅是数据的实时分析和可视化展现，更重要的是，通过对已有数据以及实时所产生数据的海量信息进行分析，它将引领企业进入预测性的商业时代。

2413 0 0

来自：大数据计算 MaxCompute 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

从HA3到AI·OS -- 全图化引擎破茧之路

阿里云计算能力实现多项突破 BigBench规模全球首次被拓展至100TB

解决MaxCompute SQL count distinct多个字段的方法

Apache Flink 零基础入门（五）：流处理核心组件 Time&Window 深度解析

阿里云Elasticsearch智能运维系统最佳实践

打击黑灰产的利器 —— 图神经网络（GNN）

心脏病预测案例

采云间DPC迁移方案实施计划

E-MapReduce 集群环境小记

报表几种常用数据方案

阿里云大数据计算服务MaxCompute（原ODPS）华南1（深圳）Region即将开服！

Alibaba Cloud MaxCompute - Bringing Data to Life

借助Beats快速搭建可视化运维系统

在 Cloudera Data Flow 上运行你的第一个 Flink 例子

最新消息！Cloudera 全球发行版正式集成 Apache Flink

开源大数据周刊-第5期

MaxCompute+ Geabase 大话健康知识图谱取经之路

在 EMR 中使用 Mongo-Hadoop

Apache Flink 零基础入门（四）：客户端操作的 5 种模式

云端大规模视频分析： MaxCompute在视觉计算中的应用

通过Gateway访问Presto

追求极致的AI·OS——AI·OS引擎平台

大数据列式存储 Parquet 和 ORC 简介

MaxCompute优化系列-如何解决`无效Join` ？

开源大数据周刊-2018年07月27日 第94期

E-MapReduce上如何升级EMR-Core

TPP多租户隔离之资源清理

MaxCompute，基于Serverless的高可靠大数据服务

MaxCompute_SDK_开发指南

MaxCompute安全管理指南-案例篇

OpenSearch算法产品化探索与实践

京信通信：数据智能为生产调试“增效瘦身”

【转】Spark 2.0 技术预览版:更简单、更快速、更智

扩展Spark Catalyst，打造自定义的Spark SQL引擎

机器学习PAI 可视化建模 Tensorflow升级通知

开源大数据周刊-第45期

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

Flink China 社区运营成果报告（7月-9月）

开源大数据周刊-第38期

Spark排序算法系列之GBTs使用方式介绍

开源大数据周刊-第10期

阿里云全新一代人工智能引擎机器学习PAI+MaxComptue征文大赛正式启动

MaxCompute_UDF_开发指南

这样才能正确解锁MaxCompute客户端

阿里云机器学习PAI征文大赛正式启动

利用InformationSchema与阿里云交易和账单管理API实现MaxCompute费用对账分摊统计

开源大数据周刊-第57期

号外号外，DataV新增拓展包来啦，帮你实现更强大的可视化！

MaxCompute Mars 完全指南

天律的云端大数据分析挖掘之旅

大数据与机器学习

活跃用户

相关产品

开源大数据周刊-2018年07月27日第94期