大数据与机器学习-博文-阿里云开发者社区

傲海

|

机器学习/深度学习算法对象存储

|

博文

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布，快来感受下人工智能的魅力。一、背景随着互联网的发展，产生了大量的图片以及语音数据，如何对这部分非结构化数据行之有效的利用起来，一直是困扰数据挖掘工程师的一到难题。

51123 71 143

来自：人工智能平台PAI 版块

李寻弥-27988

|

供应链数据可视化前端开发

|

博文

你刚吃的兰州牛肉面，背后就藏着大数据

兰州拉面都拥抱大数据了，此刻我只想问，黄焖鸡、麻辣烫和沙县小吃，你们还在等什么？

44350 58 72

来自：数据可视化DataV 版块

隐林

|

SQL 算法安全

|

博文

ODPS（Open Data Processing Service），原是阿里云从 09年开始自研的大规模批量计算引擎，2016 年更名为MaxCompute。2022云栖大会上，阿里云ODPS全新升级为一体化大数据平台，存储、调度、元数据一体化融合，从 Processing 升级为 Platform，即 Open Data Platform and Service。提供了离线计算、实时交互式分析、机器学习等可扩展的智能计算引擎，满足用户多元化数据计算需求。

79234 133 139

来自：大数据计算 MaxCompute 版块

付空

|

消息中间件存储供应链

|

博文

数据仓库介绍与实时数仓案例

1.数据仓库简介数据仓库是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。

45842 238 254

来自：实时计算 Flink 版块

尼不要逗了

|

分布式计算算法大数据

|

博文

分布式快照算法: Chandy-Lamport

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照（Distributed Snapshot）算法 Chandy-Lamport 算法，那么分布式快照算法可以用来解决什么问题呢？

26646 71 72

来自：开源大数据平台 E-MapReduce 版块

隐林

|

分布式计算 MaxCompute

|

博文

MaxCompute执行作业慢的原因排查

大家在平时开发过程中经常遇到作业（SQL、MR等）执行慢的原因，今天带大家一起学习自排查方法。 1、wait wait ，job querying 遇到这个提示，就是资源出现了排队，如果你是后付费用户，那就是整个后付费的共享池已经没有富余的资源了，要等前一个作业处理完。

27708 5 7

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算大数据 BI

|

博文

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集。开放的数据类别包括：股票价格数据，房产信息，影视及其票房数据。

27490 5 12

来自：大数据计算 MaxCompute 版块

晋恒

|

分布式计算 MaxCompute 存储

|

博文

吴刚专访--大数据和 MaxCompute 技术和故事

2019大数据技术公开课第一季《技术人生专访》来袭，本季将带领开发者们探讨大数据技术，分享不同国家的工作体验。本文整理自阿里巴巴计算平台事业部高级技术专家吴刚的专访，将为大家介绍Apache ORC开源项目、主流的开源列存格式ORC和Parquet的区别以及MaxCompute选择ORC的原因。

20514 4 4

来自：大数据计算 MaxCompute 版块

yunqi_share

|

云栖大会

|

博文

2017杭州云栖大会FAQ（持续更新中）

2017杭州云栖大会将于10月11-14日在杭州云栖小镇举办，作为全球最具影响力的科技展会之一，今年的云栖大会规模更大，内容也更丰富。为了帮助大家解决报名、参会中的一些问题，小编专门整理了下大会相关的FAQ，供大家参考。

19609 129 164

来自：大数据计算 MaxCompute 版块

工程师甲

|

监控数据可视化数据挖掘

|

博文

Kibana：数据分析的可视化利器

阿里云Elastisearch集成了可视化工具Kibana，用户可以使用Kibana的开发工具便捷的查询和分析存储在Elastisearch中的数据。除了柱状图、线状图、饼图、环形图等经典可视化功能外，还拥有地理位置分析、数据图谱分析、时序数据分析等高级功能。

20774 6 7

来自：检索分析服务 Elasticsearch版版块

阿里云实时计算Flink

|

人工智能算法框架/工具流计算

|

博文

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

在这次访谈中，贾扬清向我们透露了他加入阿里的原因，并对他目前在阿里主要负责的工作做了详细说明，他不仅回顾了过去 6 年 AI 框架领域发生的变化，也分享了自己对于 AI 领域现状的观察和对未来发展的思考。结合自己的经验，贾扬清也给出了一些针对 AI 方向选择和个人职业发展的建议，对于 AI 从业者来

18448 2 10

来自：实时计算 Flink 版块

隐林

|

存储分布式计算监控

|

博文

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端，然后分天、分小时的展开数据分析作业，分析结果再导入数据库和报表系统，最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍，整个过程中数据量庞大，且计算复杂，这对云平台的大数据能力、生态完整性和开放性提

17360 4 4

来自：大数据计算 MaxCompute 版块

隐林

|

弹性计算分布式计算 Hadoop

|

博文

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

想用阿里云数加·大数据计算服务（MaxCompute），但是现在数据还在hadoop上，怎么办？别烦恼，跟着我们走，来一次MaxCompute零基础数据迁移之旅～Let’s Go！

18136 0 0

来自：大数据计算 MaxCompute 版块

米尔。。。

|

Web App开发数据可视化

|

博文

如何轮播 DataV 大屏

如何轮播 DataV 大屏当你使用 DataV 制作了足够多的大屏时，一定会冒出一个需求：轮流播放大屏页面，不要怕，一分钟就可以搞定安装 Chrome 插件 TabCarousel 首先安装神器插件 TabCarousel 使用安装完成之后，地址栏右侧会出现这么个小图标。

19840 154 164

来自：数据可视化DataV 版块

隐林

|

存储分布式计算搜索推荐

|

博文

干货：解码OneData，阿里的数仓之路。

据IDC报告，预计到2020年全球数据总量将超过40ZB(相当于4万亿GB)，这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘，它有可能成为商业世界的“新能源”，变革我们的生产，影响我们生活。当我们面对如此庞大的数据之时，如果我们不能有序、有结构的进行分类组织

22421 2 4

来自：大数据计算 MaxCompute 版块

晋恒

|

存储分布式计算大数据

|

博文

阿里云MaxCompute 2019-5月刊

5月MaxCompute新功能发布，精彩技术好文推荐，技术干货下载，6月重要活动抢先知道，尽在5月刊。

15609 0 0

来自：大数据计算 MaxCompute 版块

尼不要逗了

|

分布式计算大数据 Apache

|

博文

现代流式计算的基石：Google DataFlow

0. 引言今天这篇继续讲流式计算。毫无疑问，Apache Flink 和 Apache Spark （Structured Streaming）现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢？Streaming Systems 这本书在分析 Fli...

19734 60 60

来自：开源大数据平台 E-MapReduce 版块

冶善

|

分布式计算关系型数据库大数据

|

博文

［ETL实践指南］基于Kettle的MaxCompute插件实现数据上云

本文用到的阿里云数加－大数据计算服务MaxCompute产品地址：https://www.aliyun.com/product/odps 简介 Kettle是一款开源的ETL工具，纯java实现，可以运行于Windows, Unix, Linux上运行，提供图形化的操作界面，可以通过拖拽控件的方式，方便地定义数据传输的拓扑。

21403 3 21

来自：大数据计算 MaxCompute 版块

隐林

|

数据采集分布式计算监控

|

博文

阿里数据仓库实践分享

数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

16317 1 1

来自：大数据计算 MaxCompute 版块

jaredguo

|

搜索推荐 API 开发者

|

博文

OpenSearch：轻松构建大数据搜索服务

随着互联网数据规模的爆炸式增长，如何从海量的历史、实时数据中快速获取有用信息，变得越来越具有挑战性。搜索是获取信息最高效的途径之一，因此也是各类网站、应用的基础标配功能。开发者想在自己的产品中实现搜索功能一般都是基于某个开源搜索系统(如ElasticSearch、Solr、Sphinx

17873 3 5

来自：智能搜索推荐版块

付空

|

新零售搜索推荐调度

|

博文

通过Flink实时构建搜索引擎的索引

1.背景介绍搜索引擎的出现大大降低了人们寻找信息的难度，已经深入到生活与工作的方方面面，简单列举几个应用如下：互联网搜索，如谷歌，百度等；垂直搜索，如淘宝、天猫的商品搜索；站内搜索，各个内容网站提供的站内搜索服务；企业内部搜索，员工查询企业内部信息；广告投放，根据投放上下文检索出对应的广告主和广告内容；搜索引擎的关键是让用户找到其所需信息，其整体架构如下：从图示可知，一个搜索引擎从大的方面来看主要包括两部分，一部分是提供在线的搜索服务，一部分要把原始数据已离线的方式建立索引，建立索引是信息可搜索的前提。

18622 160 162

来自：实时计算 Flink 版块

jasonli4

|

消息中间件 Web App开发监控

|

博文

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

1.大数据处理的常用方法大数据处理目前比较流行的是两种方法，一种是离线处理，一种是在线处理，基本处理架构如下：在互联网应用中，不管是哪一种处理方式，其基本的数据来源都是日志数据，例如对于web应用来说，则可能是用户的访问日志、用户的点击日志等。

25957 17 25

来自：实时计算 Flink 版块

开源大数据EMR

|

对象存储存储分布式计算

|

博文

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务，可以为不同的计算引擎提供不同的存储服务，可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场，阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。

17383 58 58

来自：开源大数据平台 E-MapReduce 版块

晋恒

|

大数据分布式计算安全

|

博文

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

2019杭州云栖大会大数据企业级服务专场，由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程中斗鱼遇到的问题和跳战，包括数据安全、数据同步以及迁移任务。概括了混合云模式给斗鱼带来资源效率更高和资源成本更低的变化。

16645 2 2

来自：大数据计算 MaxCompute 版块

傲海

|

机器学习/深度学习 SQL 分布式计算

|

博文

【玩转数据系列一】人口普查统计案例

玩转数据系列文章通过简单地案例搭建，介绍如何通过阿里云机器学习平台进行数据挖掘。

17775 3 3

来自：人工智能平台PAI 版块

付空

|

运维流计算

|

博文

阿里云实时计算产品案例&解决方案汇总

阿里云实时计算产品案例&解决方案汇总页

29556 3 6

来自：实时计算 Flink 版块

晋恒

|

安全数据中心分布式计算

|

博文

如何有效降低大数据平台安全风险

在2019杭州云栖大会大数据企业级服务专场，由阿里云智能计算平台事业部资深技术专家李雪峰带来以“如何有效降低大数据平台安全风险”为题的演讲。本文首先概括了企业在大数据上云过程中会产生的安全顾虑。接着，在大数据平台中要处理的安全风险中，对数据中心物理安全与网络安全、大数据平台系统安全以及数据应用安全三部分做了详细的介绍。最后，描述了阿里云飞天大数据平台的安全体系。

14298 2 2

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

存储分布式计算监控

|

博文

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

梨视频由前澎湃新闻掌门人邱兵创立。在上线之前，它就获得了黎瑞刚华人文化近1亿美元投资，旗下《微辣》栏目总播放量已经超过4亿，并在上线1个月后获得“年度视频新媒体”大奖。这样一款脱胎于传统媒体的创业型短视频软件，在视频领域异军突起，不仅让内人士在感叹梨视频内容生产力之强大的同时，也诧异于是谁在

14014 0 2

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

对象存储存储分布式计算

|

博文

JindoFS解析 - 云上大数据高性能数据湖存储方案

JindoFS 是云原生的文件系统，可以提供OSS 超大容量以及本地磁盘的性能

16497 0 1

来自：开源大数据平台 E-MapReduce 版块

曾安祥仁重

|

机器学习/深度学习分布式计算算法

|

博文

凑单算法——基于Graph Embedding的bundle mining

本文描述如何在凑单场景突破找相似、发现惊喜的同时做到成交翻倍，实现体验和数据上的双赢。

16727 2 8

来自：智能搜索推荐版块

墨青

|

机器学习/深度学习自然语言处理算法

|

博文

DL应用：query生成和query推荐

引言　　在机器翻译、图片描述、语义蕴涵、语音识别和文本摘要中，序列到序列的问题已经有太多大牛研究了，也取得了很多突破。谷歌的Attention is all you need[1],舍弃并超越了主流的rnn与cnn序列建模框架，刷出了新的state of the art,这种大胆创新的精神值得我们学习。

16524 3 3

来自：智能搜索推荐版块

隐林

|

SQL 分布式计算算法

|

博文

MaxCompute SQL原理解析及性能调优

分享内容介绍了ODPS SQL的基于mapreduce是如何实现的及一些使用小技巧，回顾了mapreduce各个阶段可能产生的问题及相应的处理方法，同时介绍了一些应对数据倾斜的处理方法，最后介绍了一些关于数据集构造、特征选择的技巧帮助减少资源利用。

12840 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

存储缓存分布式计算

|

博文

基于Alluxio系统的Spark DataFrame高效存储管理技术

介绍越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理，提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中，从而将Spark streaming作业的平均性能提升了15倍，峰值甚至达到300倍左右。

12737 0 0

来自：开源大数据平台 E-MapReduce 版块

梅熙

|

SQL 分布式计算网络安全

|

博文

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

目前Aliyun E-MapReduce支持了zeppelin和hue，在Aliyun E-MapReduce集群上可以很方便的使用zeppelin和hue。本文将详细介绍如何在Aliyun E-MapReduce玩转Zeppelin和Hue！

14298 23 27

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算 Apache 人工智能

|

博文

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

8 月最后一天，由 Apache Kafka 与 Apache Flink 联合举办的 Meetup 深圳站圆满落幕，现场站无虚席，来自 Confluent 、中国农业银行、虎牙直播、数见科技以及阿里巴巴的五位技术专家带来了丰富精彩的分享，全场干货满满！

14711 0 0

来自：实时计算 Flink 版块

计算爱好者

|

SQL 分布式计算大数据

|

博文

HIVE MapJoin异常问题处理总结

HIVE被很广泛的使用，使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论，从问题描述、mapjion原理以及产生该问题的原因，解决方案做一下介绍，最后对该问题进行了进一步的思考，希望对解决该类问题的朋友有所帮助。

16130 1 1

来自：开源大数据平台 E-MapReduce 版块

傲海

|

机器学习/深度学习算法搜索推荐

|

博文

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

机器学习算法基于信用卡消费记录做信用评分背景如果你是做互联网金融的，那么一定听说过评分卡。评分卡是信用风险评估领域常用的建模方法，评分卡并不简单对应于某一种机器学习算法，而是一种通用的建模框架，将原始数据通过分箱后进行特征工程变换，继而应用于线性模型进行建模的一种方法。

15761 1 3

来自：人工智能平台PAI 版块

傲海

|

算法机器学习/深度学习数据处理

|

博文

【玩转数据系列三】利用图算法实现金融行业风控

本文将针对阿里云平台上图算法模块来进行实验。图算法一般被用来解决关系网状的业务场景。与常规的结构化数据不同，图算法需要把数据整理成首尾相连的关系图谱。图算法更多的是考虑边和点的概念。阿里云机器学习平台上提供了丰富的图算法组件，包括K-Core、最大联通子图、标签传播聚类等。

14848 3 8

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

SQL 流计算

|

博文

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

TopN 是统计报表和大屏非常常见的功能，主要用来实时计算排行榜。流式的 TopN 不同于批处理的 TopN，它的特点是持续的在内存中按照某个统计指标（如出现次数）计算 TopN 排行榜，然后当排行榜发生变化时，发出更新后的排行榜。

18938 1 7

来自：实时计算 Flink 版块

傲海

|

机器学习/深度学习算法对象存储

|

博文

机器学习PAI全新功效——实时新闻热点Online Learning实践

(本实验会用到流式机器学习算法，正处于邀测状态，需要申请开通)PAI地址：https://data.aliyun.com/product/learn流式机器学习算法申请：https://data.aliyun.com/paionlinelearning打开新闻客户端，往往会收到热点新闻推送相关的内容。

15479 0 0

来自：人工智能平台PAI 版块

阿里云E-MapReduce团队

|

分布式计算并行计算 TensorFlow

|

博文

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

11972 1 5

来自：开源大数据平台 E-MapReduce 版块

meetyou_九戒

|

弹性计算分布式计算 MaxCompute

|

博文

12436 2 2

来自：智能搜索推荐版块

傲海

|

机器学习/深度学习数据采集算法

|

博文

【玩转数据系列七】有娃的注意了，机器学习教您如何提高孩子学习成绩

母亲是老师反而会对孩子的学习成绩造成不利影响？能上网的家庭，孩子通常能取得较好的成绩？影响孩子成绩的最大因素居然是母亲的学历？本文通过机器挖掘算法和中学真实的学生数据为您揭秘影响中学生学业的关键因素有哪些。

10786 0 3

来自：人工智能平台PAI 版块

隐林

|

SQL 存储关系型数据库

|

博文

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案

问题概述使用阿里云rds for MySQL数据库（就是MySQL5.6版本），有个用户上网记录表6个月的数据量近2000万，保留最近一年的数据量达到4000万，查询速度极慢，日常卡死。严重影响业务。

14334 1 15

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算资源调度安全

|

博文

从单租户IaaS到多租户PaaS——金融级别大数据平台MaxCompute的多租户隔离实践

摘要：在2017年云栖大会•北京峰会的大数据专场中，来自阿里云的高级技术专家李雪峰带来了主题为《金融级别大数据平台的多租户隔离实践》的演讲。在分享中，李雪峰首先介绍了基于传统IaaS单租户架构做隔离时面临的问题；然后，他重点分享了MaxCompute PaaS层面的多租户的架构以及MaxCompute在安全隔离方面的具体实践。

12299 0 0

来自：大数据计算 MaxCompute 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

你刚吃的兰州牛肉面，背后就藏着大数据

odps是什么?

数据仓库介绍与实时数仓案例

分布式快照算法: Chandy-Lamport

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

吴刚专访--大数据和 MaxCompute 技术和故事

2017杭州云栖大会FAQ（持续更新中）

Kibana：数据分析的可视化利器

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

如何轮播 DataV 大屏

干货：解码OneData，阿里的数仓之路。

阿里云MaxCompute 2019-5月刊

现代流式计算的基石：Google DataFlow

［ETL实践指南］基于Kettle的MaxCompute插件实现数据上云

阿里数据仓库实践分享

OpenSearch：轻松构建大数据搜索服务

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

JindoFS: 云上大数据的高性能数据湖存储方案

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

【玩转数据系列一】人口普查统计案例

阿里云实时计算产品案例&解决方案汇总

如何有效降低大数据平台安全风险

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

JindoFS解析 - 云上大数据高性能数据湖存储方案

凑单算法——基于Graph Embedding的bundle mining

DL应用：query生成和query推荐

MaxCompute SQL原理解析及性能调优

基于Alluxio系统的Spark DataFrame高效存储管理技术

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

HIVE MapJoin异常问题处理总结

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

【玩转数据系列三】利用图算法实现金融行业风控

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

机器学习PAI全新功效——实时新闻热点Online Learning实践

漫谈分布式计算框架

美柚与MaxCompute数据同步架构说明

解决大数据难题 阿里云MaxCompute获科技大奖

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

海量数据实时计算利器Tec

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

实时离线平台Pora介绍@2015

【玩转数据系列七】有娃的注意了，机器学习教您如何提高孩子学习成绩

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案

从单租户IaaS到多租户PaaS——金融级别大数据平台MaxCompute的多租户隔离实践

大数据与机器学习

活跃用户

相关产品

解决大数据难题阿里云MaxCompute获科技大奖