大数据与机器学习-博文-第10页-阿里云开发者社区

阿里云E-MapReduce团队

|

分布式计算大数据 Spark

|

博文

阿里云大数据+AI技术沙龙上海站

EMR 团队在国内运营最大的 Spark 社区，为了更好地传播和分享业界最新技术和最佳实践，现在联合Intel及开源社区同行，打造一个纯粹的技术交流线下沙龙《大数据 + AI》，定期为大家做公益分享。首站上海开站，请猛戳链接报名！https://www.slidestalk.com/m/61

1820 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

机器学习/深度学习 SQL 人工智能

|

博文

Flink 如何支持特征工程、在线学习、在线预测等 AI 场景？

人工智能应用场景中，Flink 在包括特征工程，在线学习，在线预测等方面都有一些独特优势，为了更好的支持人工智能的使用场景，Flink 社区以及各个生态都在努力。本文将介绍近期 Flink 在人工智能生态系统中的工作进展。

3777 0 0

来自：实时计算 Flink 版块

开源大数据EMR

|

SQL 分布式计算 Apache

|

博文

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

现在还没有一个统一的流式SQL语法标准，各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题，社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持，也会在后续的更新中吸收和支持这些优秀的设计建议。

1631 0 0

来自：开源大数据平台 E-MapReduce 版块

社区小助手

|

分布式计算 Apache Spark

|

博文

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.4 release and the upcoming releases and will be followed by a Q&A session.

1409 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

SQL 人工智能分布式计算

|

博文

学不动？Apache Member 教你评估实用技术的思路

是因为一项技术火，你才学的吗？是因为你老板决定用这项技术，你才学的吗？那你有没有想过为什么这项技术会火，为什么你老板决定用这项技术。今天我们就以 Flink 为例，来好好聊为什么要学习 Flink，以及如何看待一项新技术是否有潜力，希望对你有所启发。

1614 0 0

来自：实时计算 Flink 版块

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作，特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据，一方面可以提高查询性能，另一方面也可以减少资源的消耗(网络/IO/CPU等)，在同样的资源的情况下可以支撑更多的查询。

1893 0 0

来自：开源大数据平台 E-MapReduce 版块

xy_xin

|

SQL 大数据 Shell

|

博文

HIVE TopN shuffle 原理

TopN 问题是排序中的一个经典问题。对于一个长度为 m 的数组，取其最大的 n (n

2541 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算 Apache SQL

|

博文

开源大数据生态下的 Flink 应用实践

11 月 28-30 日，Flink Forward Asia 邀请来自阿里巴巴、戴尔科技集团、英特尔、Cloudera、趣头条、百度、Stream Native 等不同方向的技术专家围绕 Apache Flink 核心大数据生态探讨当下大数据的发展趋势与未来动向，并展现相关技术在一线生产场景的优秀实践。

2037 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

存储消息中间件机器学习/深度学习

|

博文

Flink 完美搭档：数据存储层上的 Pravega

本文将从大数据架构变迁历史，Pravega 简介，Pravega 进阶特性以及车联网使用场景这四个方面介绍 Pravega，重点介绍 DellEMC 为何要研发 Pravega，Pravega 解决了大数据处理平台的哪些痛点以及与 Flink 结合会碰撞出怎样的火花。

2760 0 0

来自：实时计算 Flink 版块

阿里云E-MapReduce团队

|

分布式计算 Spark

|

博文

8月14日Spark社区直播【Spark Shuffle 优化】

本次直播介绍EMR Spark 在shuffle方面的相关优化工作，主要包含shuffle 优化的背景以及shuffle 优化的设计方案，最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据

1629 0 0

来自：开源大数据平台 E-MapReduce 版块

云无谓

|

NoSQL Redis 分布式计算

|

博文

使用spark-redis组件访问云数据库Redis

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成，Redis使用阿里云数据库Redis

2686 0 0

来自：开源大数据平台 E-MapReduce 版块

sling

|

博文

asd【文本分析】新闻分类aaa_2493

流控流控流控流控 数据源: 数据大小:261 KB 字段数量:3 使用组件:读数据表,类型转换,过滤与映射,增加序号列,合并列

1272 0 0

来自：人工智能平台PAI 版块

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算大数据

|

博文

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

数据中台应该是什么样子?如何基于MLSQL完成数据中台的构建? MLSQL是如何基于Spark来完成这些扩展的? Databricks公司新开元项目Delta对于数据和机器学习的意义何在？

1308 0 0

来自：开源大数据平台 E-MapReduce 版块

xue_x18

|

博文

商品推荐引擎实验版

根据用户画像、交易行为和商品特征，用户智能推荐的方式帮助用户找到最合适的商品 数据源:用户数据、交易数据、商品数据 数据大小:184 KB 字段数量:4 使用组件:归一化,过滤与映射,SQL脚本,缺失值填充,读数据表,JOIN,类型转换

1393 0 0

来自：人工智能平台PAI 版块

sling

|

算法

|

博文

农业贷款预测的回归算法实现_0

iip 数据源:撒地方 数据大小:6.62 KB 字段数量:10 使用组件:读数据表,线性回归(旧),SQL脚本,过滤与映射,合并列

1172 0 0

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

SQL 资源调度 Kubernetes

|

博文

重磅！Apache Flink 1.11 功能前瞻抢先看！

Flink 1.11 版本即将正式宣告发布！为满足大家的好奇与期待，我们邀请 Flink 核心开发者对 1.11 版本的功能特性进行解读与分享。Flink 1.11 在 1.10 的基础上对许多方面进行了完善和改进，并致力于进一步提高 Flink 的可用性及性能。

1891 0 0

来自：实时计算 Flink 版块

开源大数据EMR

|

流计算分布式计算 Spark

|

博文

8月28日社区直播【Spark Streaming SQL流式处理简介】

本次直播将简要介绍EMR Spark Streaming SQL，主要包含Streaming SQL的语法和使用，最后做demo演示

1146 0 0

来自：开源大数据平台 E-MapReduce 版块

翠

|

博文

test_multiEvaluation

实验名称实验名称实验名称 数据源:实验名称 数据大小:779 KB 字段数量:42 使用组件:读数据表

1169 0 0

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

消息中间件存储缓存

|

博文

从开发到生产上线，如何确定集群规划大小?

在 Flink 社区中，最常被问到的问题之一是：在从开发到生产上线的过程中如何确定集群的大小。这个问题的标准答案显然是“视情况而定”，但这并非一个有用的答案。本文概述了一系列的相关问题，通过回答这些问题，或许你能得出一些数字作为指导和参考。

1514 0 0

来自：实时计算 Flink 版块

李博garvin1

|

博文

心脏病预测案例_1480

分享到云栖社区 数据源:test 数据大小:7.49 KB 字段数量:15 使用组件:归一化,拆分,SQL脚本,读数据表,类型转换

1131 0 0

来自：人工智能平台PAI 版块

翻滚的樱桃肉

|

博文

Multisim14.0中文下载安装步骤教程

Multisim14.0是由美国NI公司开发的EDA工具，适用于电路设计与仿真。本文提供详细中文安装步骤：下载安装包后解压，运行安装程序并设置路径，填写用户信息，选择安装位置，接受协议完成安装。随后安装NILicense激活器及中文语言包，最终实现软件汉化与正常运行。附带网盘下载链接，方便国内用户获取资源。

13962 16 16

开源大数据EMR

|

分布式计算 Spark 存储

|

博文

Spark Relational Cache实现亚秒级响应的交互式分析

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上，阿里巴巴技术专家王道远为大家分享了阿里云EMR的Spark Relational Cache实现亚秒级响应的交互式分析。

2944 0 0

来自：开源大数据平台 E-MapReduce 版块

李博garvin1

|

博文

心脏病预测案例_1480

主要针对，心脏病预测，具体的场景具体访问中阐述 数据源:预测数据 数据大小:7.49 KB 字段数量:15 使用组件:归一化,拆分,SQL脚本,读数据表,类型转换

1087 0 0

来自：人工智能平台PAI 版块

星月之寂

|

博文

文本分类

文本分类实验 数据源: 数据大小:261 KB 字段数量:3 使用组件:拆分,SQL脚本,读数据表,JOIN,增加序号列,类型转换,合并列

1044 1 1

来自：人工智能平台PAI 版块

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算安全

|

博文

钉钉群直播Spark + AI 北美峰会参会分享

Spark + AI 北美峰会 2019 盛况依然，这两天正如火如荼。大会的主题是 Build，Unify，Scale，对此如何理解？砖厂这次有哪些重磅消息和重要发布，并作如何解读？Spark 过去几年发展的基调和线索是什么，从这次峰会上又如何看出 Spark 在未来几年的发展端倪？阿里巴巴计算平台.

977 0 0

来自：开源大数据平台 E-MapReduce 版块

277024777387709269

|

博文

gbdt

电力 数据源: 数据大小:5.97 KB 字段数量:8 使用组件:写数据表,读数据表

1080 0 0

来自：人工智能平台PAI 版块

228387087934150290

|

算法

|

博文

【推荐算法】商品推荐_3041

asdfsadf eee 数据源: 数据大小:328 KB 字段数量:4 使用组件:读数据表,SQL脚本,JOIN,过滤与映射

1176 0 0

来自：人工智能平台PAI 版块

星月之寂

|

博文

文本分类

文本分析实验 数据源: 数据大小:261 KB 字段数量:3 使用组件:拆分,SQL脚本,读数据表,JOIN,增加序号列,类型转换,合并列

1112 0 0

来自：人工智能平台PAI 版块

t-25771487112-61

|

博文

【评分卡】信用卡消费分析_230

测试测试 数据源: 数据大小:1.36 MB 字段数量:25 使用组件:分箱,读数据表,评分卡预测,评分卡训练,拆分,样本稳定指数(PSI)

974 0 0

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

存储缓存 Java

|

博文

如何在 Flink 中规划 RocksDB 内存容量？

本文将介绍跟 Flink 相关的一些 RocksDB 操作，并讨论一些提高资源利用率的重要配置。

2379 0 0

来自：实时计算 Flink 版块

辉空静寂

|

博文

CTR_GBDT_LR_TEST

实践分享：CTR中的GBDT+LR融合方案 数据源:internet 数据大小:770 KB 字段数量:20 使用组件:拆分,读数据表,特征编码

937 0 0

来自：人工智能平台PAI 版块

1927894408513719

|

算法

|

博文

【推荐算法】商品推荐_1450

测试一下功能 数据源: 数据大小:328 KB 字段数量:4 使用组件:过滤与映射,SQL脚本,读数据表,JOIN

1051 0 0

来自：人工智能平台PAI 版块

力、神

|

博文

CTR_GBDT_LR

基于CTR的GBDT和LR方法融合 数据源:直播提供数据 数据大小:770 KB 字段数量:20 使用组件:拆分,读数据表,特征编码

957 0 1

来自：人工智能平台PAI 版块

辉空静寂

|

博文

CTR_GBDT_LR_TEST

CTR中的GBDT+LR融合方案 数据源:internet 数据大小:770 KB 字段数量:20 使用组件:拆分,读数据表,特征编码

931 0 0

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

SQL 存储分布式计算

|

博文

Flink 与 Hive 的磨合期

在上篇文章中，笔者使用的 CDH 版本为 5.16.2，其中 Hive 版本为 1.1.0（CDH 5.x 系列 Hive 版本都不高于 1.1.0，是不是不可理解），Flink 源代码本身对 Hive 1.1.0 版本兼容性不好，存在不少问题。

2831 0 0

来自：实时计算 Flink 版块

275572597944702476

|

博文

雾霾天气预测_604

管网压力预测 数据源: 数据大小:37.3 KB 字段数量:7 使用组件:归一化,拆分,SQL脚本,读数据表,类型转换

842 0 0

来自：人工智能平台PAI 版块

yx91490

|

博文

心脏病自传数据_07_03

心脏病自传数据预测 数据源: 数据大小:5.88 KB 字段数量:14 使用组件:读数据表

811 0 0

来自：人工智能平台PAI 版块

miaogs

|

博文

lesson1

本人小白，初次学习PAI,欢迎和大家一起交流学习这个PAI学习。阿里API直播课程的“手把手在线直播实操：机器学习PAI教你如何品酒”，我这边也就是学习一下。 数据源: 数据大小:96.1 KB 字段数量:12 使用组件:归一化,拆分,SQL脚本,读数据表

804 0 0

来自：人工智能平台PAI 版块

黯灭_邓彬

|

弹性计算分布式计算 druid

|

博文

E-MapReduce 4月产品新功能

1164 0 0

来自：开源大数据平台 E-MapReduce 版块

tagnzi

|

博文

lr

第一次尝试 LR 数据源: 数据大小:770 KB 字段数量:20 使用组件:拆分,读数据表,特征编码

1019 0 0

来自：人工智能平台PAI 版块

cknote

|

博文

心脏病预测案例_test_2455

test 数据源: 数据大小:7.49 KB 字段数量:15 使用组件:归一化,拆分,过滤式特征选择,SQL脚本,读数据表,类型转换

1050 0 0

来自：人工智能平台PAI 版块

翻滚的樱桃肉

|

11月前

|

数据挖掘计算机视觉 Windows

|

博文

Origin2024 汉化安装专业解析｜企业级部署教程+批量激活解决方案

Origin是一款由OriginLab开发的科学绘图与数据分析软件，支持Windows系统，提供丰富的2D/3D图形模板和强大的数据分析功能，如统计、信号处理、图像处理等。本文详细介绍Origin2024的下载与安装步骤，包括解压文件、运行安装程序、输入序列号、安装路径设置及破解方法，帮助用户快速完成软件安装与激活。

6278 21 21

开源大数据EMR

|

博文

E-MapReduce产品探秘，扩展开源生态云上的能力

E-MapReduce的产品能力介绍，通过EMR来构建高效的云上大数据平台，优化云上的使用成本，更快的计算效率。

853 0 0

来自：开源大数据平台 E-MapReduce 版块

游客a33iifhc5zd4g

|

6月前

|

Python Windows

|

博文

Miniconda 安装与环境配置全流程图解（2025 最新版）

Miniconda 可以看作是 Anaconda 的“轻装版”，只自带 conda 包管理器与基础的 Python 运行时。它体积小、部署速度快，特别适合按需创建与管理虚拟环境的用户。与 Anaconda 相比，Miniconda 不会预先安装一大堆科学计算库，你可以根据项目需求再单独选择、安装需要的包，因此整体更轻巧、更灵活。本文将手把手演示在 Windows 下安装 Miniconda 的全过程：从下载安装器、完成向导配置、设置环境变量，到最后的基础验证与简单示例，帮助你迅速把 Miniconda 用起来。

7948 12 14

来自：人工智能平台PAI 版块

开源大数据EMR

|

分布式计算 Spark

|

博文

8月14日Spark社区直播【Spark Shuffle 优化】

本次直播介绍EMR Spark 在shuffle方面的相关优化工作，主要包含shuffle 优化的背景以及shuffle 优化的设计方案，最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据

915 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算调度缓存

|

博文

Apache Flink 进阶（一）：Runtime 核心机制剖析

本文主要介绍 Flink Runtime 的作业执行的核心机制。首先介绍 Flink Runtime 的整体架构以及 Job 的基本执行流程，然后介绍在这个过程，Flink 是怎么进行资源管理、作业调度以及错误恢复的。最后，本文还将简要介绍 Flink Runtime 层当前正在进行的一些工作。

2648 0 1

来自：实时计算 Flink 版块

啦啦啦191

|

7月前

|

Windows

|

博文

Microsoft Activation Scripts v3.6 （MAS）激活工具安装教程!中文汉化版(激活工具)

Microsoft Activation Scripts v3.6（MAS）是一款开源、轻量级的批量激活工具，支持HWID、KMS38、TSforge等多种方式，可离线永久激活Win7至Win11及Office全系列。兼容旧系统如Vista，操作简单，无误报风险。

10816 1 2

阿里云实时计算Flink

|

Java Shell API

|

博文

如何从 0 到 1 参与 Flink 社区？

本文首先介绍为何要参与开源社区以及在参与开源社区的过程中需要注意什么，然后重点介绍如何参与 Flink 社区以及在社区里面提交 PR 的整个流程。

1702 0 1

来自：实时计算 Flink 版块

开源大数据EMR

|

博文

节日快乐！！！

“我们的未来该有多酷”

870 0 1

来自：开源大数据平台 E-MapReduce 版块

Deephub

|

9月前

|

人工智能边缘计算自然语言处理

|

博文

普通电脑也能跑AI：10个8GB内存的小型本地LLM模型推荐

随着模型量化技术的发展，大语言模型（LLM）如今可在低配置设备上高效运行。本文介绍本地部署LLM的核心技术、主流工具及十大轻量级模型，探讨如何在8GB内存环境下实现高性能AI推理，涵盖数据隐私、成本控制与部署灵活性等优势。

9180 0 0

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

阿里云大数据+AI技术沙龙上海站

Flink 如何支持特征工程、在线学习、在线预测等 AI 场景？

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

学不动？Apache Member 教你评估实用技术的思路

EMR Spark Runtime Filter性能优化

HIVE TopN shuffle 原理

开源大数据生态下的 Flink 应用实践

Flink 完美搭档：数据存储层上的 Pravega

8月14日Spark社区直播【Spark Shuffle 优化】

使用spark-redis组件访问云数据库Redis

asd【文本分析】新闻分类aaa_2493

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

商品推荐引擎实验版

农业贷款预测的回归算法实现_0

重磅！Apache Flink 1.11 功能前瞻抢先看！

8月28日社区直播【Spark Streaming SQL流式处理简介】

test_multiEvaluation

从开发到生产上线，如何确定集群规划大小?

心脏病预测案例_1480

Multisim14.0中文下载安装步骤教程

Spark Relational Cache实现亚秒级响应的交互式分析

心脏病预测案例_1480

文本分类

钉钉群直播Spark + AI 北美峰会参会分享

gbdt

【推荐算法】商品推荐_3041

文本分类

【评分卡】信用卡消费分析_230

如何在 Flink 中规划 RocksDB 内存容量？

CTR_GBDT_LR_TEST

【推荐算法】商品推荐_1450

CTR_GBDT_LR

CTR_GBDT_LR_TEST

Flink 与 Hive 的磨合期

雾霾天气预测_604

心脏病自传数据_07_03

lesson1

E-MapReduce 4月产品新功能

lr

心脏病预测案例_test_2455

Origin2024 汉化安装专业解析｜企业级部署教程+批量激活解决方案

E-MapReduce产品探秘，扩展开源生态云上的能力

Miniconda 安装与环境配置全流程图解（2025 最新版）

8月14日Spark社区直播【Spark Shuffle 优化】

Apache Flink 进阶（一）：Runtime 核心机制剖析

Microsoft Activation Scripts v3.6 （MAS）激活工具安装教程!中文汉化版(激活工具)

如何从 0 到 1 参与 Flink 社区？

节日快乐！！！

普通电脑也能跑AI：10个8GB内存的小型本地LLM模型推荐

大数据与机器学习

活跃用户

相关产品