大数据与机器学习-博文-第2页-阿里云开发者社区

开源大数据EMR

|

分布式计算 Spark 大数据

|

博文

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

预聚合是高性能分析中的常用技术，通过预先聚合降低纬度，从而在查询时大幅减少计算量，提升响应速度。本文介绍了 spark-alchemy 这个开源库中的 HyperLogLog 这一个高级功能，并且探讨它是如何解决大数据中数据聚合的问题。

11168 0 0

来自：开源大数据平台 E-MapReduce 版块

傲海

|

机器学习/深度学习数据采集算法

|

博文

【玩转数据系列七】有娃的注意了，机器学习教您如何提高孩子学习成绩

母亲是老师反而会对孩子的学习成绩造成不利影响？能上网的家庭，孩子通常能取得较好的成绩？影响孩子成绩的最大因素居然是母亲的学历？本文通过机器挖掘算法和中学真实的学生数据为您揭秘影响中学生学业的关键因素有哪些。

10786 0 3

来自：人工智能平台PAI 版块

隐林

|

SQL 存储关系型数据库

|

博文

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案

问题概述使用阿里云rds for MySQL数据库（就是MySQL5.6版本），有个用户上网记录表6个月的数据量近2000万，保留最近一年的数据量达到4000万，查询速度极慢，日常卡死。严重影响业务。

14334 1 15

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算资源调度安全

|

博文

从单租户IaaS到多租户PaaS——金融级别大数据平台MaxCompute的多租户隔离实践

摘要：在2017年云栖大会•北京峰会的大数据专场中，来自阿里云的高级技术专家李雪峰带来了主题为《金融级别大数据平台的多租户隔离实践》的演讲。在分享中，李雪峰首先介绍了基于传统IaaS单租户架构做隔离时面临的问题；然后，他重点分享了MaxCompute PaaS层面的多租户的架构以及MaxCompute在安全隔离方面的具体实践。

12299 0 0

来自：大数据计算 MaxCompute 版块

曾安祥仁重

|

机器学习/深度学习算法搜索推荐

|

博文

强化学习在电商环境下的若干应用与研究

本文描述了淘宝搜索算法AI技术团使用强化学习算法在淘宝的环境中怎么解决实际的业务问题的以及一些研究探索。

14423 0 3

来自：智能搜索推荐版块

开源大数据EMR

|

存储分布式计算大数据

|

博文

从数砖开源 Delta Lake 说起

Spark AI 北美峰会的第一天，坊间传闻被证实，Databrics（俗称数砖，亦称砖厂）的杀手锏 Delta 产品特性作为 Delta Lake 项目开源！会前，笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流，谈到 Delta 时被告知会有相关重磅在大会上宣布，但却没想到是开源出去。

10149 0 1

来自：开源大数据平台 E-MapReduce 版块

隐林

|

机器学习/深度学习人工智能算法

|

博文

阿里云工程师用机器学习破解雾霾成因

日前，一位署名为“傲海”的阿里云工程师在云栖社区发布了一篇分析北京雾霾成因的文章。作者通过机器学习算法分析发现，北京重度雾霾天的出现同大气中二氧化氮的含量存在强相关性。人们很早就知道硫酸盐是雾霾形成的重要原因。住宅及发电厂的燃煤释放大量二氧化硫，随后转化为硫酸颗粒造成污染。但困扰科学家的是，二氧

9529 0 5

来自：大数据计算 MaxCompute 版块

龙冥

|

缓存算法异构计算

|

博文

拍立淘---试妆魔镜 OpenGL ES 2.0 框架及性能优化

手机淘宝（搜索框->摄像头->试妆魔镜）：最初的设计原型及性能问题：单线程模型，优先级过低：从Camera获取到CMSampleBufferRef YUV图像帧，拷贝像素数据到内存（多了一次拷贝内存的开销）进行美妆渲染以及一些其他的检测计算，导致的render线程性能消耗过多，CPU负

10222 0 0

来自：智能搜索推荐版块

开源大数据EMR

|

SQL 分布式计算 Spark

|

博文

钉钉群直播【Spark Relational Cache 原理和实践】

主要介绍Relational Cache/物化视图的历史和背景，以及EMR Spark基于Relational Cache加速Spark查询的技术方案，及如何通过基于Relational Cache的数据预计算和预组织，使用Spark支持亚秒级响应的交互式分析使用场景。

9554 0 0

来自：开源大数据平台 E-MapReduce 版块

青格乐

|

监控安全大数据

|

博文

【入门指南】使用阿里云Elasticsearch搭建ELK日志系统

本文介绍了基于阿里云Elasticsearch搭建ELK日志系统的基本步骤，并对kibana和ES的日志检索和分析做简要介绍，可作为新手入门指导。

16336 0 1

来自：检索分析服务 Elasticsearch版版块

小蚂蚁啃骨头

|

机器学习/深度学习 SQL 人工智能

|

博文

阿里大航杯AI电力大赛比赛分享及数加平台，机器学习pai使用经验

本文主要以阿里云大航杯“智造扬中”电力AI大赛数据为背景，讲述博主自己的比赛经历以及数加平台和机器学习pai的使用经验

11521 1 18

来自：人工智能平台PAI 版块

晋恒

|

分布式计算大数据 Devops

|

博文

阿里云全新一代企业级新品解读—通过MaxCompute Studio实践大数据时代的DevOps

今天是2017杭州·云栖大会的第一天，这场科技盛宴吸引了来自全球的参展商、开发者、相关从业人员以及科技爱好者。在今天上午的主论坛，阿里云总裁胡晓明在发言中重点提及的新一代计算平台MaxCompute将在本次大会中多次亮相。

9076 0 1

来自：大数据计算 MaxCompute 版块

付空

|

搜索推荐流计算

|

博文

基于实时计算（Flink）打造一个简单的实时推荐系统

本文为您介绍如何基于阿里云实时计算快速搭建实时推荐系统。

15649 1 5

来自：实时计算 Flink 版块

上单

|

分布式计算大数据关系型数据库

|

博文

阿里云大数据利器之-RDS迁移到Maxcompute实现动态分区

当前，很多用户的业务数据存放在传统关系型数据库上，例如阿里云的RDS，做业务读写操作。当数据量非常大的时候，此时传系关系型数据库会显得有些吃力，那么会经常有将mysql数据库的数据迁移到[大数据处理平台-大数据计算服务（Maxcompute，原ODPS）(https://www.aliyun.com/product/odps?spm=5176.doc27800.765261.309.dcjpg2)，利用其强大的存储和计算能力进行各种查询计算，结果再回流到RDS。

9972 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

Web App开发数据可视化双11

|

博文

双11数据大屏直播 / 双11作战大屏

双11大屏直播地址：https://h5.m.taobao.com/qn/pc/niuba-interview.html?spm=a1zb6.8232479.0.0.qfgVCn#!/interview/10035359

9899 0 0

来自：大数据计算 MaxCompute 版块

1514897646789994

|

搜索推荐测试技术定位技术

|

博文

DCN(Deep & Cross Network)模型在手淘分类地图CTR预估上的应用

一：背景分类地图业务是指手淘首页首屏的"分类"入口，目前整个产品已经有300万左右日活跃用户和6000多万pv, 目前产品业务点较多，本文重点介绍点击品类词后的商品二跳页模块，具体如下图所示：当用户点击相应的品类词图片后，则会进入该类目下的商品集合。

11508 0 0

来自：智能搜索推荐版块

bravery

|

搜索推荐固态存储双11

|

博文

在MaxCompute中，Join操作符的实现算法之一名为"Hash Join"，其实现原理是，把小表的数据全部读入内存中，并拷贝多份分发到大表数据所在机器，在 map 阶段直接扫描大表数据与内存中的小表数据进行匹配。

9937 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算大数据 Apache

|

博文

史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！

Flink Forward 大数据、人工智能领域的顶级大会，旨在汇集一流人才共同探讨大数据、云计算、人工智能、机器学习等领先技术，2019 Flink Forward Asia 重磅开启，征集议题中！

10471 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

SQL 双11 流计算

|

博文

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

通俗讲retract就是传统数据里面的更新操作，也就是说retract是流式计算场景下对数据更新的处理方式。

20614 10 12

来自：实时计算 Flink 版块

傲海

|

机器学习/深度学习人工智能算法

|

博文

【上报纸啦】95后大学生用机器学习PAI大战老年痴呆

中国青年报原文链接：http://zqb.cyol.com/html/2017-07/28/nw.D110000zgqnb_20170728_2-06.htm 燕山大学信息科学与技术专业出身的95后大学生谭创创，没想到自己会与阿尔茨海默症（俗称“老年痴呆症”）为“敌”。

9319 1 1

来自：人工智能平台PAI 版块

勿烦

|

SQL 数据库 HIVE

|

博文

SQL优化器原理 - 查询优化器综述

本文主要是对数据库查询优化器的一个综述，包括查询优化器分类、查询优化器执行过程和CBO框架Calcite。

11585 1 2

来自：大数据计算 MaxCompute 版块

继盛

|

JSON 分布式计算 MaxCompute

|

博文

PyODPS开发中的最佳实践

PyODPS支持用 Python 来对 MaxCompute 对象进行操作，它提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理，并且可以用 ml 模块来执行机器学习算法。

11698 0 1

来自：大数据计算 MaxCompute 版块

erin_726

|

分布式计算 Java MaxCompute

|

博文

flume java介绍

近期在做shark flume开发框架的测试，该框架是一个简单高效的面向数据的pipeline框架，采用flume java的思想，实现了一套flume java on MaxCompute的library。为了更好的了解shark自己也去阅读了flume java的paper，这里做一些总结，主要

9336 0 0

来自：大数据计算 MaxCompute 版块

eric-li

|

SQL 大数据数据处理

|

博文

11958 2 4

来自：实时计算 Flink 版块

晋恒

|

分布式计算大数据 MaxCompute

|

博文

比起表白这件事，玩大数据会更容易吗？

有人认为爱是性，是婚姻，是清晨六点的吻，是一堆孩子，也许真是这样的，莱斯特小姐。但你知道我怎么想吗，我觉得爱是想触碰又收回手。 ——塞林格《破碎故事之心》

7317 0 1

来自：大数据计算 MaxCompute 版块

祎休

|

分布式计算搜索推荐 OLAP

|

博文

基于MaxCompute构建企业用户画像（用户标签的制作）

在数据化营销时代，数据的价值越发显得更为珍贵。那如何让自己的数据发挥价值，也就是说如何让公司沉睡的数据能够驱动业务发展给公司带来商业价值？在营销里面我们都谈精准营销，谈用户画像，那用户画像到底如何构建，用户的标签如何开发？本示例给与最简单的demo，那个大家清楚认识基于MaxCompute如何构建企业用户标签。

9180 0 1

来自：大数据计算 MaxCompute 版块

暮角

|

存储分布式计算 Oracle

|

博文

Oracle存储过程迁移ODPS-00（专有云）：Oracle - ODPS数据类型转换

oracle 数据类型转到ODPS，映射关系

9195 0 1

来自：大数据计算 MaxCompute 版块

场景研读

|

SQL 分布式计算大数据

|

博文

MaxCompute理解数据、运算和用户的大脑：基于代价的优化器

回顾大数据技术领域大事件，最早可追溯到06年Hadoop的正式启动，而环顾四下，围绕着数据库及数据处理引擎，业内充斥着各种各样的大数据技术。在云栖社区2017在线技术峰会大数据技术峰会上，阿里云大数据计算平台架构师林伟做了题为《MaxCompute的大脑：基于代价的优化器》的分享，为大家分享阿里巴巴大数据计算服务的大脑——基于代价的优化器的设计和架构。

8208 0 3

来自：大数据计算 MaxCompute 版块

工程师甲

|

开发者

|

博文

2019北京Elastic开发者大会日程重磅上线 | 由阿里云联合赞助

2019年度Elastic中国开发者大会（北京）是由Elastic官方在中国举办的第三次开发者大会。阿里云作为Elasticsearch云上生态的主要推动者，很荣幸作为本次大会战略级合作伙伴参与其中，届时将和Elastic技术社区联合发布《Elasticsearch中国开发者报告》。

8743 0 0

来自：检索分析服务 Elasticsearch版版块

傲海

|

机器学习/深度学习 TensorFlow 算法框架/工具

|

博文

云端深度学习框架TensorFlow读取数据IO的高效方式

7869 0 1

来自：人工智能平台PAI 版块

寒沙牧

|

分布式数据库 Hbase

|

博文

E-MapReduce的HBase集群使用Hue

E-MapReduce的HBase集群中使用Hue，方便用户访问查询数据

7497 0 1

来自：开源大数据平台 E-MapReduce 版块

继盛

|

SQL 分布式计算 MaxCompute

|

博文

8892 1 2

来自：实时计算 Flink 版块

eric-li

|

SQL 数据可视化关系型数据库

|

博文

E-MapReduce结合DataV进行数据展现

6863 0 3

来自：开源大数据平台 E-MapReduce 版块

百遇

|

机器学习/深度学习数据可视化大数据

|

博文

年服务人次3300万+，网鱼网咖的大数据挑战及架构

从98年成立至今的18年中，网鱼累计签约门店已接近900家，已拥有超过830万会员，2016年网鱼网咖共服务了3300多万人次，服务范围覆盖全国100多个城市，现在网鱼网咖已走出国门，在加拿大、澳大利亚、新加坡等国家开设多家门店。

7379 0 0

来自：大数据计算 MaxCompute 版块

晋恒

|

大数据人工智能存储

|

博文

AI加持的阿里云飞天大数据平台技术揭秘

摘要：2019云栖大会大数据&AI专场，阿里云智能计算平台事业部研究员关涛、资深专家徐晟来为我们分享《AI加持的阿里云飞天大数据平台技术揭秘》。本文主要讲了三大部分，一是原创技术优化+系统融合，打破了数据增长和成本增长的线性关系，二是从云原生大数据平台到全域云数仓，阿里开始从原生系统走入到全域系统模式，三是大数据与AI双生系统，讲如何更好的支撑AI系统以及通过AI系统来优化大数据系统。

9940 0 0

来自：大数据计算 MaxCompute 版块

寒沙牧

|

分布式计算 MaxCompute Spark

|

博文

E-MapReduce中Spark 2.x读写MaxCompute数据

最新的`aliyun-emapreduce-sdk`将`MaxCompute`数据以`DataSource`的方式接入Spark 2.x，用户可以使用类似Spark 2.x中读写`json/parquet/csv`的方式来访问MaxCompute.

7321 0 1

来自：开源大数据平台 E-MapReduce 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

【玩转数据系列七】有娃的注意了，机器学习教您如何提高孩子学习成绩

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案

从单租户IaaS到多租户PaaS——金融级别大数据平台MaxCompute的多租户隔离实践

强化学习在电商环境下的若干应用与研究

从数砖开源 Delta Lake 说起

阿里云工程师用机器学习破解雾霾成因

拍立淘---试妆魔镜 OpenGL ES 2.0 框架及性能优化

钉钉群直播【Spark Relational Cache 原理和实践】

【入门指南】使用阿里云Elasticsearch搭建ELK日志系统

阿里大航杯AI电力大赛比赛分享及数加平台，机器学习pai使用经验

阿里云全新一代企业级新品解读—通过MaxCompute Studio实践大数据时代的DevOps

基于实时计算（Flink）打造一个简单的实时推荐系统

阿里云大数据利器之-RDS迁移到Maxcompute实现动态分区

双11数据大屏直播 / 双11作战大屏

DCN(Deep & Cross Network)模型在手淘分类地图CTR预估上的应用

iGraph 2015双促复盘总结

细数阿里云服务器的十二种典型应用场景

“阿里巴巴大数据系统体系”学习笔记-纲领篇

FM算法介绍

SQL优化器原理 - Auto Hash Join

史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

【上报纸啦】95后大学生用机器学习PAI大战老年痴呆

SQL优化器原理 - 查询优化器综述

PyODPS开发中的最佳实践

flume java介绍

使用Hive进行OSS数据处理的一个最佳实践

Ha3搜索引擎简介

【大数据技巧】MaxCompute中实现IP地址归属地转换

【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

基于Flink的实时日志分析系统实践

比起表白这件事，玩大数据会更容易吗？

基于MaxCompute构建企业用户画像（用户标签的制作）

Oracle存储过程迁移ODPS-00（专有云）：Oracle - ODPS数据类型转换

MaxCompute理解数据、运算和用户的大脑：基于代价的优化器

2019北京Elastic开发者大会日程重磅上线 | 由阿里云联合赞助

云端深度学习框架TensorFlow读取数据IO的高效方式

E-MapReduce的HBase集群使用Hue

PyOdps在交互式环境下的使用，让探索ODPS数据更容易些

深入了解 Flink 网络栈（二）：监控、指标和处理背压

技术论文：电子商务中基于生命阶段的推荐（发表于 ACM KDD2015 )

运维场景下的实时计算应用

使用Ranger对Hive数据进行脱敏

使用E-MapReduce服务将Kafka数据导入OSS

Flink: 快速构建统一的实时日志平台

E-MapReduce结合DataV进行数据展现

年服务人次3300万+，网鱼网咖的大数据挑战及架构

AI加持的阿里云飞天大数据平台技术揭秘

E-MapReduce中Spark 2.x读写MaxCompute数据

大数据与机器学习

活跃用户

相关产品