|
机器学习/深度学习 存储 TensorFlow
|

PAI深度学习Tensorflow框架多机多卡多PS Server使用说明

6136 58
来自: 人工智能平台PAI  版块
|
存储
|

Drill官网文档翻译四 Drill的性能

(翻译自apache drill 官网。) Drill是从地基开始就奔向高性能和大数据集去设计的,下面列出来的是Drill能够做到高性能的核心要点。 分布式的引擎 Drill提供了一个强大的分布式引擎来处理查询。用户可以从集群的任何一个节点是提交查询。你可以添加新的节点到集群中,以为了支持更多

4827 0
来自: 智能搜索推荐  版块
|
新零售 存储 分布式计算
|

MaxCompute大数据实践,电商数据仓库选择雪花还是星型模型?

作者:王永伟 规范化和反规范化   当属性层次被实例化为一系列维度,而不是单一的维度时,此模式被称为雪花模式。大多数联机事务处理系统(OLTP)的底层数据结构在设计时采用此种规范化技术,通过规范化处理将重复属性移至其自身所属的表中,删除冗余数据。

5075 0
来自: 大数据计算 MaxCompute  版块
|
SQL Apache 流计算
|

Apache Flink 漫谈系列(10) - JOIN LATERAL

聊什么 上一篇《Apache Flink 漫谈系列 - JOIN算子》我们对最常见的JOIN做了详尽的分析,本篇介绍一个特殊的JOIN,那就是JOIN LATERAL。JOIN LATERAL为什么特殊呢,直观说因为JOIN的右边不是一个实际的物理表,而是一个VIEW或者Table-valued Funciton。

10647 75
来自: 实时计算 Flink  版块
|
新零售 机器学习/深度学习 算法
|

十年磨一剑,阿里巴巴推荐与搜索深度学习服务体系AI·OS在云栖大会正式亮相

2018年9月21~22日,在以“驱动数字科技”为主题的云栖大会上,阿里巴巴搜索事业部特别推出了“搜索推荐专场”,“推荐与搜索引擎AI·OS专场”,深度参与了这场科技盛宴。   阿里巴巴推荐与搜索引擎平台支持了包括淘宝、天猫、菜鸟、优酷以及海外电商在内的整个阿里集团的推荐与搜索业务,引导成交占据了集团GMV的绝大部分份额。

7812 0
来自: 智能搜索推荐  版块
|
机器学习/深度学习 分布式计算 算法
|

袋鼠云助力光伏产业 | 基于阿里云数加平台做算法预测

随着大数据技术的蓬勃发展,现在关于大数据技术在各行各业的实践也如火如荼。 那么当大数据技术遇到光伏行业会产生何样的化学反应呢? 下面就和大家一起分享一下袋鼠云是如何使用阿里云数加平台和机器学习平台助力光伏行业的。

4276 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 MaxCompute
|

MaxCompute_2_MaxCompute数据迁移文档

乍一看标题会以为是不是作者写错了怎么会有从MaxCompute到MaxCompute迁移数据的场景呢在实际使用中已经有客户遇到了这种场景比如两个网络互通的专有云环境之间数据迁移、公共云数加DataIDE上两个云账号之间数据迁移、还有网络不通的两个MaxCompute项目数据迁移等等下面我们逐个场景介绍。

5168 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 存储 分布式计算
|

Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。

5332 0
|
存储 消息中间件 安全
|

计算与存储分离实践—swift消息系统

swift是搜索事业部自主研发分布式消息系统,它的主要存储基于分布式文件系统,资源需求基于分布式调度系统。swift能支持每秒数亿的消息传递,支持PB级消息的存储。

7272 0
来自: 智能搜索推荐  版块
|
SQL 分布式计算 算法
|

SQL优化器原理-Shuffle优化

分布式系统中,Shuffle是重操作之一,直接影响到了SQL运行时的效率。Join、Aggregate等操作符都需要借助Shuffle操作符,确保相同数据分发到同一机器或Instance中,才可以进行Join、Aggregate操作。

5658 0
来自: 大数据计算 MaxCompute  版块
|
Web App开发 分布式计算 大数据
|

完成数据的打通-豌豆荚被阿里巴巴收购后的168天

曾经表示“要做伟大的公司”的豌豆荚在今年7月被阿里收购了。这家公司巅峰时期,估值曾高达10亿美元。然而,最后被收购时金额大跳水。据传当时的收购价为2亿美元,不过这一数额并未得到阿里巴巴和豌豆荚的确认。

4637 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 测试技术
|

MaxCompute分布式计算如何提升基因大数据处理速率?

在2016杭州云栖大会首日,来自华大基因的基因组学数据专家黄树嘉在大数据专场分享了《基于数加MaxCompute的极速全基因组数据分析》,他主要从全基因组测序的背景与原理、传统单机分析流程的挑战、基于MaxCompute的方案三个方面进行了分享,详细介绍了华大基因运用阿里云处理海量的实践。

4165 0
来自: 大数据计算 MaxCompute  版块
|
算法 Java 应用服务中间件
|

TPP稳定性之场景隔离和多租户

6798 0
来自: 智能搜索推荐  版块
|
分布式计算 Spark 容器
|

Spark Operator浅析

Spark Operator浅析 本文介绍Spark Operator的设计和实现相关的内容. Spark运行时架构 经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最通用的模块逐渐与框架解耦,独立成通用的组件.

11439 81
|
流计算 Java 监控
|

如何分析及处理 Flink 反压?

反压(backpressure)是实时计算应用开发中,特别是流式计算中,十分常见的问题。反压意味着数据管道中某个节点成为瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。

18257 1
来自: 实时计算 Flink  版块
|
存储 分布式计算 监控
|

MaxCompute预付费资源监控工具-CU管家使用教程

MaxCompute管家使用前提 1、用户购买了 MaxCompute 预付费CU资源,60CU以上的用户(备注:CU过小无法发挥计算资源及管家的优势)。 2、支持区域,MaxCompute 华北2北京、华东2上海、华南1深圳 3个Region的用户。

4482 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Java
|

用Java代码调用MaxCompute

有什么办法把MaxCompute的作业、设置和自己的代码做无缝集成呢,MaxComput SDK就能干这个。本文就实际的工作中最常见的几个场景,做一些示例。

5053 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Spark
|

开源大数据周刊-第21期

本周关注:大数据教育、翻译行业应用,大数据与管理的关系、hadoop与mpp的关系、Facebook 60T+的spark应用

3707 0
|
搜索推荐 大数据 数据处理
|

计算广告与流处理技术综述

案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 1.计算广告背景 广告仍然是互联网公司的主要变现手段,其市场规模2017年已达3000亿元,据统计全球互联网市值前十的公司广告收入占比高达40%,可见其重要性。

5768 0
来自: 实时计算 Flink  版块
|
存储 消息中间件 分布式计算
|

日处理数据量超10亿:友信金服基于Flink构建实时用户画像系统的实践

在此背景下,友信金服公司推行全域的数据体系战略,通过打通和整合集团各个业务线数据,利用大数据、人工智能等技术构建统一的数据资产,如 ID-Mapping、用户标签等。友信金服用户画像项目正是以此为背景成立,旨在实现“数据驱动业务与运营”的集团战略。

5576 1
来自: 实时计算 Flink  版块
|
SQL 分布式计算 安全
|

MaxCompute产品最新进展 -- 从马力到计算力

摘要本文从马力作为功率衡量标准为切入点介绍了大数据领域的计算力衡量标准TPCBB以及MaxCompute2.0在Big Bench上的卓越表现。同时详细地分享了取得优异成绩背后的产品在最新有哪些进展帮助大家全面的了解MaxCumpute2.0。

3962 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 人工智能 大数据
|

【通知】阿里云机器学习PAI即将商业化

【通知】阿里云机器学习PAI即将商业化 尊敬的机器学习PAI用户 感谢您一直以来对PAI的支持,从2015年开始,PAI平台和许多深度学习的爱好者一起成长,PAI始终坚持为深度学习用户带来更好的服务与支持,在2018年1月17日,PAI将正式商业化升级,以0元的价格为华东深度学习用户继续提供服务,华北区用户可以通过付费享受独有的计算资源。

4197 0
来自: 人工智能平台PAI  版块
|
分布式计算 安全 关系型数据库
|

十年磨一剑,王坚自研的MaxCompute如何解决世界级算力难题

2009年这项关于大数据的技术长征开始。王坚带队,目标是自研大数据计算平台MaxCompute统一阿里巴巴内部的数据和大数据计算体系。

4094 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 Java Android开发
|

Jarvis-拍立淘里面的深度学习引擎-之持续优化

介绍 Jarvis是一款专门为手机端而设计研发的深度学习引擎,它比我们目前已知的所有开源产品都要快。在使用高通芯片的安卓手机上,其他产品在性能上甚至还没有接近于我们的。小小骄傲一下。在最开始的时候,Jarvis was heavily influenced by Caffe2 and borrowed quite a bit of code from it. 但是随着时间的推移以及业务的演进,Jarvis离Caffe2也越来越远,所以,我们最终决定发布独立的产品。

4074 0
来自: 智能搜索推荐  版块
|
存储
|

Drill官网文档翻译五:连接到数据源

存储插件是Drill中,连接到数据源的模块。一个存储插件通常会优化Drill查询的执行,提供数据的定位,命名空间下的配置和读数据要用到的格式。Drill已经内置了一些存储插件,你只需要根据你的环境配置一下就可以使用了。借助存储插件,你可以连接到各种数据源,像数据库,本地或是分布式的文件,或是Hiv.

3784 0
来自: 智能搜索推荐  版块
|
供应链 大数据 测试技术
|

菜鸟双11在「仓储配送数据实时化」的台前幕后

2017年双11,虽然仓配系统做了非常多业务端的优化,使得峰值不会达到如交易系统那般恐怖的程度,但仓配业务链路长、节点多、分析维度复杂的业务特点,也使我们在开发仓配实时数据的过程中,面临了不少挑战。而正好基于双11的业务背景,我们也开始着手建立起带有"仓配特色"的实时数据版图。

5453 1
来自: 实时计算 Flink  版块
|
人工智能 分布式计算 大数据
|

阿里云在美推出MaxCompute大数据计算平台

2017年11月16日,阿里巴巴集团旗下云计算平台阿里云,宣布在美推出MaxCompute大数据计算平台。正式向美国企业提供大数据计算服务。

3879 0
来自: 大数据计算 MaxCompute  版块
|
资源调度 分布式计算 Java
|

YARN(hadoop2)框架的一些软件设计模式

yarn版本的hadoop无论是从架构上面还是软件设计的层面上面都比原始的hadoop版本有较大的改进。在架构方面,我们认为yarn模式是新一代的框架,这个在官方等丛多的资料中说明得很详细了。在软件设计方面,我认为主要有以下的一些大的方面的改进:服务生命周期管理模式、事件驱动模式、状态驱动模式

3658 0
|
SQL 分布式计算 Apache
|

Hive 终于等来了 Flink

Flink 社区在集成 Hive 功能方面付出很多,目前进展也比较顺利,最近 Flink 1.10.0 RC1 版本已经发布,感兴趣的读者可以进行调研和验证功能。

8223 0
来自: 实时计算 Flink  版块
|
SQL 存储 HIVE
|

Drill官网文档翻译三:Drill的核心模块

(翻译自Drill官网) 核心模块 下图描述了一个drillbit里的各个组件 下面列出drillbit里的关键组件: RPC endpoint Drill开发了一种基于Probobuf的损耗非常低的RPC通信协议来跟客户端打交道。另外,客户端程序也可以使用C++或是JAVA api层来跟

3669 0
来自: 智能搜索推荐  版块
|
存储 SQL 分布式计算
|

MaxCompute 费用暴涨之存储压缩率降低导致SQL输入量变大

现象:同样的SQL,每天处理的数据行数差不多,但是费用突然暴涨甚至会翻数倍。 分析: 我们先明确MaxCompute SQL后付费的计费公式:一条SQL执行的费用=扫描输入量 ️ SQL复杂度 ️ 0.3(¥/GB)。

4070 0
来自: 大数据计算 MaxCompute  版块
|
Web App开发 监控 流计算
|

实时欺诈检测(风控)

基于实时计算,您可以轻松完成实时欺诈检测系统。 实时欺诈检测系统能够及时发现用户高危行为并采取措施,降低损失。 系统架构:   实时欺诈检测(风控)系统流程如下: 用户的行为经由App上报或Web日志记录下来,发送到一个消息队列里去。

5943 0
来自: 实时计算 Flink  版块
|
存储 算法 大数据
|

基于实时计算(flink)打造舆情分析平台——新华智云

基于实时计算打造舆情分析平台——新华智云 1.客户&产品简介: 新华智云是一家致力于通过大数据技术驱动媒体变革的公司,数芯是新华智云推出的实时舆情分析平台,旨在满足用户一系列舆情分析需求。

5788 0
来自: 实时计算 Flink  版块
|
分布式计算 运维 DataWorks
|

MaxCompute安全管理指南-基础篇

背景及目的 方便和辅助MaxCompute的project owner或安全管理员进行project的日常安全运维,保障数据安全。 MaxCompute有安全模型,DataWorks也有安全模型,当通过DataWorks使用MaxCompute,而DataWorks的安全模型不满足业务安全需求时,合理的将两个安全模型结合使用就尤其重要。

4816 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 搜索推荐 大数据
|

专访 Elasticsearch 创始人 Shay Banon:让数据自己说话

11 月 13 日,在 2017 杭州云栖大会上,Elasticsearch 与阿里云宣布达成战略合作,共同研发及发布阿里云上提供托管的 Elasticsearch,为中国市场提供崭新的用户体验。Elasticsearch 挺进中国市场面临的机遇和挑战如何?阿里云 Elasticsearch 为中国用户提供了哪些新服务?为此,InfoQ 采访了 Elasticsearch 的创始人兼首席执行官 Shay Banon。

5209 0
|
机器学习/深度学习 算法 搜索推荐
|

强化学习在锦囊位置调控上的探索和实践

1. 背景     在手淘的搜索中,当用户输入query进行搜索之后,一方面有适合他的商品展现出来,另一方面,如何更好地理解用户意图,为其推荐更合适的关键词进行细分查找,从而更高效的引导用户到他想找的商品,也是一件非常重要的事情。

3460 0
来自: 智能搜索推荐  版块
|
SQL 存储 缓存
|

EMR Spark Relational Cache的执行计划重写

背景 EMR Spark提供的Relational Cache功能,可以通过对数据模型进行预计算和高效地存储,加速Spark SQL,为客户实现利用Spark SQL对海量数据进行即时查询的目的。Relational Cache的工作原理类似物化视图,在用户提交SQL语句时对语句进行分析,并选出可用的预计算结果来加速查询。

3533 0
|
SQL Web App开发 分布式计算
|

阿里云MaxCompute 2018-5月刊

5月,MaxCompute提供全表扫描的设置操作,可允许或禁止全表扫描;支持OSS上的Hive文件格式;支持OSS压缩格式GZIP。。。更多新功能新体验,欢迎阅读本文了解。

3142 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 搜索推荐
|

打击黑灰产的利器 —— 图神经网络(GNN)

阿里巴巴安全部数据与算法团队一直致力于与黑灰产进行对抗,保障用户在淘宝、天猫、闲鱼等平台上的使用体验和切身利益。面对狡猾的黑灰产,我们研究出了一系列算法武器,图神经网络(GNN)是其中重要的防控技术。本文结合阿里开源GNN框架Graph-Learn(https://github.com/alibaba/graph-learn)进行介绍。

4557 1
来自: 人工智能平台PAI  版块
|
存储 API 调度
|

Mars 如何分布式地执行

先前,我们已经介绍过 Mars 是什么。如今 Mars 已在 Github 开源并对内上线试用,本文将介绍 Mars 已实现的分布式执行架构,欢迎大家提出意见。 架构 Mars 提供了一套分布式执行 Tensor 的库。

3672 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute 人工智能
|

爽!MaxCompute老铁们再也不用点点点了!

MaxCompute实现预付费项目自动续费。

2992 0
来自: 大数据计算 MaxCompute  版块
|
大数据 云计算
|

什么是飞天?全球级大数据计算平台,自主研发!

飞天大数据平台就是数字化时代的核心技术。这是中国在新一轮科技革命中把握机遇的关键。

3956 0
来自: 大数据计算 MaxCompute  版块
|
资源调度 网络性能优化 调度
|

阿里巴巴搜索在离线统一调度

1. 发展历程         Hippo是搜索事业部调度系统团队自研的支撑集团内外多个BU搜索与推荐体系和阿里云上Opensearch/ES等的调度系统,经过了5年的快速发展,提供了可靠、简单、低成本的资源及应用托管方案,通过自动化运维、机器合池、智能弹性调度、混部和在离线统一调度等手段解决成本和效率的问题。

5772 0
来自: 智能搜索推荐  版块
|
流计算 存储 调度
|

日均处理万亿数据!Flink在快手的应用实践与技术演进之路

本次的分享包括以下三个部分: 1. 介绍 Flink 在快手的应用场景以及目前规模; 2. 介绍 Flink 在落地过程的技术演进过程; 3. 讨论 Flink 在快手的未来计划。

5298 0
来自: 实时计算 Flink  版块
|
分布式计算 MaxCompute 大数据
|

MaxCompute 助力衣二三构建智能化运营工具

本文由衣二三CTO程异丁为大家讲解了如何基于MaxCompute构建智能化运营工具。 衣二三作为亚洲最大的共享时装平台,MaxCompute是如何帮助它解决数据提取速度慢、数据口径差异等问题呢?程异丁通过衣二三数据体系架构,从用户运营应用、商品运营应用以及算法推荐系统三方面给大家剖析了MaxCompute是如何助力衣二三构建智能化运营工具的。

3316 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 人工智能 分布式计算
|

用炸弹开路——加速到来的证券投资行业人工智能时代

去年开始涉足人工智能技术应用于证券投资领域的研究,将近两年的研究实践,发现公开资料上很多关于人工智能(AI)对证券投资业发展影响的文章都存在几个明显的思维误区:①一个是对人工智能的认识有误。人工智能是个广域笼统的概念,但基石是机器学习,以机器学习算法构建逻辑和规则为基石的人工智能与自动化程序软件及通过数据回测构建起来的以固定逻辑运行的量化投资模型是完全不同的事物,区别就好比活鸡和模型鸡,需要明白自动化软件不是人工智能,国内大多数所谓智能投顾其实还不是真正意义上的人工智能投顾;②另一个是曲解了人工智能在证券投资行业的应用。

2882 0
来自: 大数据计算 MaxCompute  版块
|
数据可视化
|

分享你的花样DataV

投稿你与DataV的“爱恨情仇”就有机会获得丰富的奖品!

5372 0
来自: 数据可视化DataV  版块
|
SQL JSON 分布式计算
|

MaxCompute - ODPS重装上阵 第六弹 - User Defined Type

MaxCompute中的UDT(User Defined Type)功能支持在SQL中直接引用第三方语言的类或者对象,获取其数据内容或者调用其方法 。

3984 0
来自: 大数据计算 MaxCompute  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69520
内容
128
活动
439952
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务