|
机器学习/深度学习 分布式计算 算法
|

Mars——基于张量的统一分布式计算框架

很高兴在这里宣布我们的新项目:Mars,一个基于张量的统一分布式计算框架。我们已经在 Github 开源:https://github.com/mars-project/mars 。 背景 Python Python 是一门相当古老的语言了,如今,在数据科学计算、机器学习、以及深度学习领域,Python 越来越受欢迎。

12594 0
来自: 大数据计算 MaxCompute  版块
|
SQL 数据库 HIVE
|

SQL优化器原理 - 查询优化器综述

本文主要是对数据库查询优化器的一个综述,包括查询优化器分类、查询优化器执行过程和CBO框架Calcite。

11217 1
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 NoSQL
|

MaxCompute访问TableStore(OTS) 数据(20170601更新)

MaxCompute作为阿里云大数据平台的核心计算组件,承担了集团内外大部分的分布式计算需求。

10750 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Java MaxCompute
|

flume java介绍

近期在做shark flume开发框架的测试,该框架是一个简单高效的面向数据的pipeline框架,采用flume java的思想,实现了一套flume java on MaxCompute的library。为了更好的了解shark自己也去阅读了flume java的paper,这里做一些总结,主要

9063 0
来自: 大数据计算 MaxCompute  版块
|
运维 搜索推荐 调度
|

Ha3搜索引擎简介

Ha3是阿里巴巴搜索团队开发的搜索引擎平台,它为阿里集团包括淘宝、天猫在内的核心业务提供搜索服务支持。

24952 1
来自: 智能搜索推荐  版块
|
存储 大数据 数据挖掘
|

读透《阿里巴巴数据中台实践》,其到底有什么高明之处?

最近阿里巴巴分享了《阿里巴巴数据中台实践》这个PPT(自行搜索原始文章),对于数据中台的始作俑者,还是要怀着巨大的敬意去学习的,因此仔细的研读了,希望能发现一些不一样的东西。 读这些专业的PPT,实际是非常耗时的,你需要把这些PPT外表的光鲜扒光,死抠上面的每一个字去理解底下隐藏的含义,然后跟你的已有知识体系去对比,看看是否有助于完善自己的认知,对于自己不理解的,还需要经常去检索相关的文档。

13407 58
来自: 大数据计算 MaxCompute  版块
|
人工智能 大数据 新制造
|

阿里云参与两大国家工程实验室获批,人工智能继续深入工业制造

近日,国家发改委公布大数据国家工程实验室名单,由阿里云参与的“工业大数据应用技术国家工程实验室”和“大数据系统软件国家工程实验室”均获批复认定,分别是工业大数据应用及大数据系统软件领域的唯一国家级工程实验室。

8237 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

Python实现MaxCompute UDF/UDAF/UDTF

参数与返回值类型 参数与返回值通过如下方式指定: @odps.udf.annotate(signature) Python UDF目前支持ODPS SQL数据类型有:bigint, string, double, boolean和datetime。

11393 0
来自: 大数据计算 MaxCompute  版块
|
Web App开发 JavaScript 前端开发
|

(ElasticsSearch学习)歌词检索Demo的实现:二. 搭建spring boot+spring data+jest+elasticsearch环境,实现歌词的全文检索

一个ElasticSearchDemo,讲解如何使用Jsoup爬取歌词数据写入阿里云Elasticsearch,并搭建Web框架实现歌词的全文检索。 本文主要讲解如何使用Spring Boot快速搭建Web框架,结合Spring Data 和 Jest 快速实现对阿里云ElasticSearch的全文检索功能。

10192 1
|
存储 消息中间件 算法
|

Apache Flink 漫谈系列(04) - State

实际问题 在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,Apache Flink是基于上一次的计算结果进行增量计算的。

14434 1
来自: 实时计算 Flink  版块
|
监控 算法 大数据
|

小硅片与大数据的结合 ——协鑫光伏的新制造之路

协鑫光伏坐落在环境优美的苏州工业园区,是全球领先的光伏材料制造商,硅片产品占国内流通硅片的70%,处于国内同行业龙头地位。本文将向读者介绍大数据是如何助力晶片制造,以减少成本,提高效率。

8426 0
来自: 大数据计算 MaxCompute  版块
|
监控 大数据 索引
|

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包,包括安全、告警、监控、报表生成、图分析、机器学习等组件,用户可以开箱即用。本文将对X-Pack 的监控组件功能进行详细解读。

10142 1
|
分布式计算 大数据 MaxCompute
|

【大数据技巧】MaxCompute中实现IP地址归属地转换

大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能其中应用非常广泛的一种场景就是日志分析。在日志类型数据的清洗转换过程中把IP地址转换为归属地又是极为常见的一种场景。

11845 1
来自: 大数据计算 MaxCompute  版块

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

去重逻辑在业务处理中使用广泛,大致可以分两类:DISTINCT去重和FIRST_VALUE主键去重,两者的区别是DISTINCT去重是对整行数据进行去重,比如tt里面数据可能会有重复,我们要去掉重复的数据;FIRST_VALUE是根据主键进行去重,可以看成是一种业务层面的去重,但是真实的业务场景使用也很普遍,比如一个用户有多次点击,业务上只需要取第一条。

11416 0
来自: 实时计算 Flink  版块
|
分布式计算 运维 算法
|

DII—算法服务利器

随着集团内各种离线处理、实时反馈、在线学习和分析系统的发展壮大,为算法同学使用数据提供了更多的手段和玩法,能够从数据中挖掘出更多的宝藏。但是仅仅产出数据是不够的,他们需要将数据结合算法在线服务的方式应用到业务中去,才能真正产生价值。从搜索事业部的现状来看,算法的作用方式主要有两种,一种是嵌入引擎内.

11752 2
来自: 智能搜索推荐  版块
|
存储 分布式计算 大数据
|

专访20年技术老兵云郎:16年峰回路,每一步都是更好的沉淀

从技术研发到产品经理,3次峰回路转,这条路,他走了16年 一个懂技术的产品,更有底气和研发“叫板” 一个具备产品思维的技术,更明白未来的方向

8267 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 JavaScript
|

阿里云大数据利器Maxcompute-使用mapjoin优化查询

small is beautiful,small is powerful

9684 0
来自: 大数据计算 MaxCompute  版块
|
消息中间件 SQL Kafka
|

使用 Kafka 和 Flink 构建实时数据处理系统

引言 在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要。流计算的出现,就是为了更好地解决这类数据在处理过程中遇到的问题。

15114 1
来自: 实时计算 Flink  版块
|
存储 分布式计算 资源调度
|

阿里巴巴飞天大数据架构体系与Hadoop生态系统

先说Hadoop 什么是Hadoop? Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。

10959 59
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Spark Python
|

开源生态的新发展:Apache Spark 3.0、Koala和Delta Lake

Hadoop开源生态Spark已经发展三年有余,今年迎来了Spark 3.0。在2019杭州云栖大会大数据&AI峰会上,Databricks研发总监李潇为大家分享了Spark 3.0版本的新特性,以及其在数据工程以及数据科学方面带来的新技术。

9001 0
|
机器学习/深度学习 自然语言处理 搜索推荐
|

深度语义模型以及在淘宝搜索中的应用

传统的搜索文本相关性模型,如BM25通常计算Query与Doc文本term匹配程度。由于Query与Doc之间的语义gap, 可能存在很多语义相关,但文本并不匹配的情况。为了解决语义匹配问题,出现很多LSA,LDA等语义模型。

11717 0
来自: 智能搜索推荐  版块
|
数据采集 搜索推荐 数据挖掘
|

《云数据·大计算:海量日志数据分析与应用》Workshop-入口

阿里云MVP Meetup Workshop入口

8180 0
来自: 大数据计算 MaxCompute  版块
|
运维 自然语言处理 Java
|

使用llvm实现一门语言 —— cava

本文将介绍如何使用llvm+bison+flex技术实现一门编程语言。 以我们实现的cava语言为例,介绍编译器各阶段,词法分析 -> 语法分析 -> 语义分析 -> 中间代码优化 -> 目标代码生成,最终生成汇编指令,再由汇编语言根据不同的指令集生成对应的可执行程序是如何实现的。

11388 0
来自: 智能搜索推荐  版块
|
存储 分布式计算 大数据
|

如何在E-MapReduce中玩转OSS

在E-MapReduce中,用户可以将OSS作为Hadoop/Spark的可选数据源之一。但是在实际使用时,我们发现Hadoop读写OSS的性能不令人满意。为了解决这个问题,E-MapReduce团队对Hadoop的底层实现进行了优化,使得OSS数据源能够更好地适配Hadoop/Spark。

7805 0
|
SQL 分布式计算 MaxCompute
|

PyODPS 中使用 Python UDF

PyODPS 中使用 Python UDF 包含两方面,一个是直接使用,也就是在 MaxCompute SQL 中使用;一个是间接的方式,也就是 PyODPS DataFrame,这种方式你不需要直接写 Python UDF,而是写普通的 Python 函数或者类。

9768 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 Oracle
|

Oracle存储过程迁移ODPS-00(专有云):Oracle - ODPS数据类型转换

oracle 数据类型 转到ODPS,映射关系

8867 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

MaxCompute理解数据、运算和用户的大脑:基于代价的优化器

回顾大数据技术领域大事件,最早可追溯到06年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术。在云栖社区2017在线技术峰会大数据技术峰会上,阿里云大数据计算平台架构师林伟做了题为《MaxCompute的大脑:基于代价的优化器》的分享,为大家分享阿里巴巴大数据计算服务的大脑——基于代价的优化器的设计和架构。

8026 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 分布式数据库
|

HBase写性能优化

本文介绍了三种HBase数据写入的方法(1种多线程,2种mapreduce),并介绍了各类性能调优的方法

8715 0
|
SQL 大数据 HIVE
|

hive在E-MapReduce集群的实践(二)集群hive参数优化

本文介绍一些常见的集群跑hive作业参数优化,可以根据业务需要来使用。 提高hdfs性能 修改hdfs-site,注意重启hdfs服务 dfs.client.read.shortcircuit=true //直读 dfs.

8053 0
|
分布式计算 大数据 MaxCompute
|

【MaxCompute官宣】大数据计算技术共享计划 — 技术公开课第四季干货集锦!

MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分 析处理海量数据。欢迎加入钉钉交流群11782920。

7365 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 SQL 分布式计算
|

【14点正式开始】技术与架构,解析如何将大数据最快落地到实践

6位阿里技术大咖与4位行业资深实践者将从技术与业务两个方面,与大家探讨大数据如何最快落地到实践。

7526 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 Java
|

MaxCompute 2.0 生态开放之路及最新发展

MaxCompute(原ODPS)是阿里云自主研发的分布式大数据处理系统。

7573 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

MaxCompute 学习计划(二)

学习MaxCompute SQL和UDF的checklist

9277 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Shell MaxCompute
|

PyODPS 安装常见问题解决

10770 2
来自: 大数据计算 MaxCompute  版块
|
资源调度 测试技术 Apache
|

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能,使得NodeManger可以对container的CPU的资源使用进行控制,比如可以对单个container的CPU使用进行控制,也可以对NodeManger管理的总CPU进行控制。

10441 1
|
JSON 安全 BI
|

通过ZeppelinHub viewer来分享zeppelin的notebook和报表数据

最近有使用E-MapReduce的同学咨询如果将zeppelin中的表表数据进行共享。这里就介绍一下在Aliyun E-MapReduce的集群中使用ZeppelinHub来进行notebook和报表的分享。

7213 0
|
机器学习/深度学习 算法
|

query语义改写

1. 问题背景   商品检索的主要的问题还是在于用户query和商品描述之间存在GAP,特别是中长尾query。把问题分成以下几种类型: 多种描述:划痕笔/补漆笔/修补笔/点漆笔 信息冗余:   冰箱温控器温度控制==冰箱温控器 属性检索: 118冰箱、60寸液晶电视机4k高清智能60曲面 宽泛意图: 超美吊灯、大容量冰箱 2.所做工作   query改写的目标空间可以分为文本空间和意图ID空间两种类型:文本空间包含词、短语、query,意图ID空间主要包括pidvid、性别年龄尺码等自定义tag、一些语义聚合的标签如:"奢侈","可爱"等。

10537 1
来自: 智能搜索推荐  版块
|
开发者
|

2019北京Elastic开发者大会日程重磅上线 | 由阿里云联合赞助

2019年度Elastic中国开发者大会(北京)是由Elastic官方在中国举办的第三次开发者大会。阿里云作为Elasticsearch云上生态的主要推动者,很荣幸作为本次大会战略级合作伙伴参与其中,届时将和Elastic技术社区联合发布《Elasticsearch中国开发者报告》。

8017 0
|
分布式数据库 Hbase
|

E-MapReduce的HBase集群使用Hue

E-MapReduce的HBase集群中使用Hue,方便用户访问查询数据

7379 0
|
分布式计算 大数据 开发工具
|

阿里云大学精品课程:深入理解阿里云数加大数据开发套件Data IDE-基本知识

基于阿里云数加·MaxCompute构建大数据仓库的开发工具利器Data IDE《MaxCompute(原ODPS)开发入门指南——数据开发工具篇》,那么基于Data IDE进行数据开发想必也遇到一些不少的困惑,就自己在培训过程中的一些经验或者说阿里集团内的踩坑之路与大家在此分享,也欢迎拍砖。

7831 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 并行计算 算法
|

大规模数据的分布式机器学习平台

来自阿里云IDST褚崴为大家带来分布式机器学习平台方面的内容,主要从大数据的特点和潜在价值开始讲起,然后介绍阿里的业务场景中常用到的机器学习算法,以及阿里采用的分布式机器学习框架,最后介绍了PAI算法平台,一起来看下吧。

7304 0
来自: 大数据计算 MaxCompute  版块
|
算法 数据挖掘 搜索推荐
|

技术论文:电子商务中基于生命阶段的推荐(发表于 ACM KDD2015 )

ACM SIGKDD 国际会议(简称 KDD)是数据挖掘研究领域的顶级盛会,它每年能收到上千篇来自国际知名大学和研究机构的学术论文投稿,这其中仅有一小部分优秀论文可以被接收。2015年5月18日,KDD组委会发布工业和政府相关方向论文的录用消息,阿里巴巴集团搜索事业部推荐团队投稿的论文被录用,表

7063 0
来自: 智能搜索推荐  版块
|
运维 流计算
|

运维场景下的实时计算应用

案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 运维场景主要有下面几个需求: 整体系统运行指标计算与可视化,可参考:数据仓库介绍与实时数仓案例 问题排查与全链路DEBUG,可参考:【阿里内部应用】基于Blink构建搜索全链路debug系统快速定位搜索问题、【阿里内部应用】基于Bli.

7165 0
来自: 实时计算 Flink  版块
|
分布式计算 Hadoop 数据安全/隐私保护
|

E-MapReduce集群中HDFS服务集成Kerberos

本文介绍在E-MapReduce集群中HDFS服务集成Kerberos。

6798 0
|
存储 关系型数据库 数据库
|

时序数据库场景下的Elasticsearch(一):技术特点简介

本文介绍了时间序列数据的特点和主流的技术分类,以及Elasticsearch在时序数据库场景下的技术特点。

11850 2
|
分布式计算 大数据 API
|

PyOdps 0.4版本发布,从一个故事说起

PyOdps 0.4版本,DataFrame API支持使用pandas进行本地计算,用户因此能join ODPS和本地数据,也能进行本地debug,另外还有MapReduce API等新特性

7031 0
来自: 大数据计算 MaxCompute  版块
|
存储 消息中间件 大数据
|

E-MapReduce上如何采集Kafka客户端Metrics

我们知道Kafka提供一套非常完善的Metrics数据,覆盖Broker,Consumer,Producer,Stream以及Connect。E-MapReduce通过Ganglia收集了Kafka Broker metrics信息,可以很好地监控Broker运行状态。

6778 0
|
SQL 分布式计算 大数据
|

MaxCompute UDF系列之判断字符串中是否包含汉字

为了验证字符串中是否包含中文汉字,今天为大家提供一个自动判断中文字符的MaxCompute UDF,下载地址见附件。 效果如下: MaxCompute UDF代码如下: package com.

7560 0
来自: 大数据计算 MaxCompute  版块
|
负载均衡 微服务 Perl
|

istio网络转发分析

通过demo分析istio的网络转发流程,从而对istio实现原理有更为直观的认识。本文先介绍了涉及到的相关概念和背景知识,然后对具体应用进行分析。背景知识概念分散,参考文章较多,敬请谅解。

8815 0
来自: 智能搜索推荐  版块
|
存储 SQL API
|

【对话科技】Flink技术介绍和新功能展望

2017年6月22号,由“京城学堂”和阿里巴巴集团技术发展部主办的“对话科技”系列讲座邀请到了Apache Flink项目的PMC成员,来自德国DataArtisans公司的Till Rohrmann,在北京阿里中心为关注实时计算技术的阿里同学做了一场关于Apache Flink技术发展的精彩分享。

7047 0
来自: 实时计算 Flink  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

6
今日
67671
内容
128
活动
439486
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务