MaxCompute助力北斗大数据,千寻位置3秒实现厘米级定位
无人机、无人车……随着智能无人技术的兴起,背后的核心技术越加受到业界的关注。近日,全球最大地基增强系统运营商千寻位置成功研发出全球首个支持A-北斗的辅助定位平台FindNow, 大大缩短定位时间;结合使用阿里云大计算力量的千寻云踪-位置数据接入服务,为全国智能产业提供厘米级乃至毫米级高精度位置定位,快速+精准定位,为汽车导航、精准农业、防灾减灾等行业正迎来新的机遇。
当 Elasticsearch 遇上 MaxCompute —— 「Elasticsearch on MaxCompute 」简介
转自haixiaElasticsearch on MaxCompute Elasticsearch 是目前最流行的开源分布式搜索系统之一,它有着优秀的近实时搜索性能和丰富的周边配套工具。以 Elasticsearch 为核心的 Elastic Stack (Elasticsearch + Log
gig:自带负载均衡和降级功能的高可用RPC解决方案
gig基于对latency的负反馈控制,实现了坏节点屏蔽、服务预热、异构集群负载均衡、自动降级等功能,大大提高了阿里搜索线上服务的稳定性。
阿里巴巴搜索混部解密
Hippo是搜索调度团队根据搜索、推荐、广告等业务特点从2013年开始打造并逐步完善的一套分布式调度系统,支持了集团内外多个事业部的搜索、推荐、广告等相关业务。2017双11期间,搜索在离线混部实现了全时段无干预无降级稳定运行,提供了搜索双11所有TF模型离线批次训练所需资源,并在2017/11/10晚上23点因为离线训练集群负载过高首次在混部上不间断运行了超过2万core的双11实时训练流程并一直在稳定运行。
专家教你使用MaxCompute玩转大数据分析!
摘要传统的数据分析经常使用的工具是Hadoop或Spark在使用之前环境是需要用户自己去搭建的。随着业务逐渐向云迁移如何在云上进行大数据分析是需要解决的问题。为此阿里云提供了一项很重要的服务——大数据计算服务MaxCompute。
MaxCompute客户端(odpscmd)在windows命令行下查询中文乱码问题处理实践
MaxCompute客户端工具是阿里云大数据计算服务MaxCompue产品官方客户端工具,通过客户端工具可以连接MaxCompute项目,完成包括数据管理、数据上下传、作业执行、用户及授权管理等各项操作。
MaxCompute助力ofo实现精细化运营:日订单超3200万、整体运行效率提升76%
摘要:ofo小黄车大数据BI系统负责人龙利民为大家分享了ofo的上云体验,重点分享了MaxCompute的应用实践,最后对阿里云提出了自己的建议需求。 关于ofo小黄车 共享经济不仅与技术相关,它还关乎人类共同命运,关乎可持续发展。
MaxCompute SQL中的更新和删除如何实现
MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。 由于 MaxCompute是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。
飞天5K实战经验:大规模分布式系统运维实践
传统的运维人员通常只面对几十或者上百台的服务器,但在大规模分布式集群中,运维人员面临工作任务明显不同。本文分别阐述服务器数量激增,要求提升全局掌控能力,如何实现系统的自我保护和自动化恢复,大规模与精细化平衡,以及需要开发和运维更加紧密合作等方面,通过对真实数据进行分析和预测,将判断失误概率降到最低。
【大数据干货】阿里云数加让企业更专注于业务,助力东润环能高效利用大数据资源
最重要的是采用阿里云数加,东润环能将所有精力都放在业务上,节省了自建机房在学习成本、开发成本、管理成本、投入机房资源和运维成本的总成本,“相比自建Hadoop物理集群,使用阿里云数加MaxCompute的总成本有较大降低,应用开发效率有很大提高。”东润环能技术研发部总监王云如是说。
【阿里内部应用】利用blink CEP实现流计算中的超时统计问题
案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 一. 背景介绍 如<利用blink+MQ实现流计算中的延时统计问题>一文中所描述的场景,我们将其简化为以下案例:实时流的数据源结构如下: 物流订单号 支付时间 仓接单时间 仓出库时间 LP1 2018-08-01 08:00 ...
【ELK入门】Elastic中文社区运维监控实战之架构篇
阿里云MVP曾勇撰写的《ELK运维监控入门实战》系列,以Elasticsearch中文社区网站运维监控体系搭建作为案例,讲解了ELK监控系统的相关原理和技术实现,可作为对ELK感兴趣的同学的入门级文章。本篇作为第一篇,介绍了项目背景和技术架构。
Flink SQL 功能解密系列 —— 解决热点问题的大杀器MiniBatch
在Blink的流式任务中,State相关的操作通常都会成为整个任务的性能瓶颈。实时计算部-查询和优化团队开发了MiniBatch功能,大幅降低了State操作的开销,在今年的双11中,几乎所有适用的任务都启用了MiniBatch功能。
Apache Flink 漫谈系列(06) - 流表对偶(duality)性
实际问题 很多大数据计算产品,都对用户提供了SQL API,比如Hive, Spark, Flink等,那么SQL作为传统关系数据库的查询语言,是应用在批查询场景的。Hive和Spark本质上都是Batch的计算模式(在《Apache Flink 漫谈系列 - 概述》我们介绍过Spark是Micr.
走近华佗,解析自动化故障处理系统背后的秘密
集群医生华佗是集群自动化故障监测和处理系统,是平台和运维对接的关键系统,它承担了飞天平台自动化故障处理系统的任务。如何能又快又好地发现和解决线上故障呢?本文为您解析自动化故障处理系统背后的秘密。一起来了解华佗是如何提升集群的故障发现、处理的效率和准确性,解放运维人员,提高飞天稳定性和可靠性的 。
MaxCompute助力OSS支持EB级计算力
一、 MaxCompute是什么 你的OSS数据是否作堆积在一旁沉睡已久存储成本变为企业负担你是否想唤醒沉睡的数据驱动你的业务前行MaxCompute可以帮助你高效且低成本的解决这些问题通过对海量数据进行分析和计算来实现勾勒用户画像、提升营销转化、挖掘产品优化方向、预测业务发展等丰富的业务场景。
分布式大数据系统巧实现,全局数据调度管理不再难
本文从背景、分布式文件系统、容错机制、分布式节点距离计算法则、数据分布策略、分布式计算调度、跨IDC集群规划的两种方式、ODPS跨集群数据依赖等方面深度介绍了分布式大数据系统中全局数据调度和管理。
【文本分析】新闻分类
新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源。本文尝试通过智能的文本挖掘算法对于新闻文本进行分类。无需任何人肉打标,完全由机器智能化实现。<br />数据源:网络爬取新闻数据<br />数据大小:261 KB<br />字段数量:3<br />使用组件:过滤与映射,SQL脚本,读数据表,增加序号列,类型转换<br />

Apache Spark中国技术交流社区历次直播回顾(持续更新)
Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人交流学习,欢迎加入。钉钉入群 https://qr.dingtalk.com/action/joingroup?code=v1,k1,jmHATP9Tk+okK7QZ5sw2oWSNLhkt2lCRvfHRdW7XhUQ=&_dt_no_comment=1&origin=11 更多视频和ppt资料请入群获得。
一场变美盛宴后面的大数据故事
小红唇和阿里云大数据平台的牵手要从2016年5月份说起。随着小红唇业务的发展,用户量和内容量不断增加,迫切需要推出个性化功能,增加用户的使用时长和用户粘度。对于一个没有大数据/机器学习经验和技术储备,并且开发人员有限的年轻团队,在业务快速发展的情况下,如何在非常有限的开发资源和不影响正常业务开发的前提下,快速建立起自己的推荐系统,成为摆在小红唇技术团队面前一个不小的挑战。
【2018杭州云栖】大数据计算专场:带你感知无处不在的超大规模大数据计算
云栖大会首日,与主论坛一同亮相的大数据计算专场获得了极大关注。阿里巴巴计算平台六位技术专家与衣二三公司CTO,共同引领开发者们直击阿里巴巴超大规模的大数据计算服务,解构数据世界,分享大数据计算前沿科技。整个下午座无虚席,众多来宾站立参与全程。

Flink on YARN(下):常见问题与排查思路
上篇分享了基于 FLIP-6 重构后的资源调度模型介绍 Flink on YARN 应用启动全流程,本文将根据社区大群反馈,解答客户端和 Flink Cluster 的常见问题,分享相关问题的排查思路。
欢迎加入Spark中国社区
欢迎大家关注Spark中国社区! 社区成员会定期把Spark(全球)社区的最新发布、文档等翻译后放到社区,并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动,非常欢迎大家加入社区,对于发帖、提问、答疑的同学,社区会给予特色的奖励 Spark社群钉钉群
阿里云MaxCompute 2019-10 月刊
MaxCompute支持分区合并,支持VPC网络IP白名单设置,支持自然连接NATURAL JOIN等新功能尽在10月刊。
HiveServer2集成LDAP做用户认证
HiveServer2支持多种认证方式,通过`hive.server2.authentication`参数来设置,包括`nosasl, none, ldap, kerberos, pam, custom` 本文介绍如何在E-MapReduce中使用LDAP配置HiveServer的认证。
从IaaS到AI,马云为何让阿里云去扛人工智能大旗?
绝大多数人对阿里云的定位仍是国内市场最大的IaaS提供商。不过,随着国内人工智能市场在2016年迎来爆发,阿里开始在人工智能领域发力,阿里云的这一角色正在悄然转变。 布局AI领域,阿里云扛起阿里人工智能大旗 虽然阿里不是BAT三座山头中在人工智能领域的声势最旺的那个(百度躺枪),但事实上阿里从2015年也已经开始了人工智能领域的布局。

MaxCompute - ODPS重装上阵 第七弹 - Grouping Set, Cube and Rollup
MaxCompute中的GROUPING SETS功能是SELECT语句中GROUP BY子句的扩展。允许采用多种方式对结果分组,而不必使用多个SELECT语句来实现这一目的。这样能够使MaxCompute的引擎给出更有的执行计划,从而提高执行性能。
阿里云MaxCompute加速全球化布局 11月1日北京、马来西亚两地开服
11月1日,阿里云宣布大数据计算服务MaxCompute在北京和马来西亚同日开服。这是阿里云首次将其大数据计算服务在国内和海外双节点同时开服,特别是在马来西亚数据中心全球开放2天后,MaxCompute即开服马来西亚,意味着大数据计算产品正在市场和业务的呼唤下加速全球化拓展步伐。
大数据开发套件中数据同步-日志报错回滚信息的一些问题总结
在使用大数据开发套件时最常用的就是数据同步模块,工单里最常见的问题就是其中数据同步的问题,这里总结一些常见一些从odps到其他数据源的同步任务报错案例,主要是日志中出现数据回滚写入的问题。 那首先看下日志中数据回滚的原因,当数据写入rds或者hybridDB等一些支持事务的数据库中,数据批量写入,一旦由于各种原因没有写入成功,这个批次的数据会回滚重新写入,如果再次写入失败,就会报脏数据的错误导致任务失败。
MaxCompute(原ODPS)任务优化之列裁剪
最近因为几个ODPS任务节点扣分严重,计算健康度一度堕落至85分的红线以下,上了一次黑榜,立马开始了艰苦的优化之旅。刚刚前几天搞定了两个OpenMR的列裁剪优化,略作记录。
Mars 算法实践——人脸识别
Mars 是一个基于矩阵的统一分布式计算框架,在之前的文章中已经介绍了 Mars 是什么, 以及 Mars 分布式执行 ,而且 Mars 已经在 GitHub 中开源。当你看完 Mars 的介绍可能会问它能做什么,这几乎取决于你想做什么,因为 Mars 作为底层运算库,实现了 numpy 70% 的常用接口。
Drill官网文档翻译四 Drill的性能
(翻译自apache drill 官网。) Drill是从地基开始就奔向高性能和大数据集去设计的,下面列出来的是Drill能够做到高性能的核心要点。 分布式的引擎 Drill提供了一个强大的分布式引擎来处理查询。用户可以从集群的任何一个节点是提交查询。你可以添加新的节点到集群中,以为了支持更多
2017云栖大会压轴大戏:大数据计算服务MaxCompute持续挑战极限,国家会议中心全球首次现场完成基于公共云的BigBench评测,令人期待!
2017年12月19 -20日,引发全球科技共振的云栖大会在国家会议中心举办2017年的压轴场—北京峰会。在本次大会上,阿里云主力计算平台MaxCompute将全球首次现场完成基于公共云的BigBench评测,并由阿里云总裁胡晓明在20日上午的主论坛宣布最终结果,令人期待。
E-MapReduce解决hive comment中文乱码问题
在最新版本的EMR-1.3.0已经解决了hive comment中文乱码问题。如果已经申请了包年包月的集群,用的是老版本,那么可以过下面介绍的步骤解决这个问题。
阿里云MaxCompute 2018-10月刊
阿里云 MaxCompute 2018-10月 新功能发布汇总,更有技术干货、最佳实践等精彩博文推荐,欢迎阅读。
MaxCompute SQL Row_Sequence 实现列自增长
通过MaxCompute UDF来给海量数据的每一行产生唯一的id
MaxCompute(ODPS)上处理非结构化数据的Best Practice
随着MaxCompute(ODPS)2.0的上线,新增的非结构化数据处理框架也推出一系列的介绍文章,包括 MaxCompute上如何访问OSS数据, 基本功能用法和整体介绍,侧重介绍读取OSS数据进行计算处理; 本文:MaxCompute(ODPS)上处理非结构化数据的Best Practice。
阿里关涛谈大规模计算—从数字化阿里到数字化城市的进化
MaxCompute是ET大脑供血系统极其重要的组成部分,如果没有MaxCompute,今天我们将没办法给大家讲述任何一个成功的故事。
开源大数据周刊-第19期
本周关注:马云谈云计算、大数据、人工智能未来三十年,E-MapReduce存储计算分离,真实的大数据故事,spark session及spark mmlib、presto+oss
列式存储系列(二): Vertica
本文就 Vertica 的数据模型、存储、执行引擎以及这几个方面与 C-Store 的区别进行了简单的介绍。总的来说,Vertica 是一个纯正的列式存储数据库,为此,Vertica 设计实现了 projection 这一数据模型,并围绕该模型设计实现了一套大数据分析管理引擎。

从 Storm 到 Flink,汽车之家基于 Flink 的实时 SQL 平台设计思路与实践
汽车之家的实时 SQL 平台设计思路与实践,主要从架构及设计思路、基于 Flink SQL 平台的实时数仓的实践及使用案例、后续规划。
开源大数据周刊-第83期
资讯 最高法院就Microsoft云计算案的法律问题开展口辩论本案对Microsoft的裁决,可能将会要求位于美国的企业提交其存储在国外服务器上的美国执法数据。在这种情况下,位于美国的企业可能将无法为国外提供许多云计算服务。
MIT评出全球十大突破性技术 阿里巴巴连摘两项
2月21日下午,美国权威科学杂志《麻省理工科技评论》(MIT Technology Review)发布2017年全球十大突破性技术榜单。在与Google、微软、IBM等科技巨头的较量中,阿里巴巴分别入选“强化学习”和“刷脸支付”两大突破性技术榜单。
尝新阿里云E-MapReduce MetaService服务
阿里云E-MapReduce从EMR-2.1.0版本镜像开始,将在VPC集群中提供MetaService服务。
MaxCompute JDBC 2.2 发布说明
相比于v.1.9.1,MaxCompute JDBC v.2.2在易用性、性能以及兼容性方面都有了更好的提升,本文将对其改进与差别做一下简要的说明。
Apache Flink 漫谈系列(13) - Table API 概述
什么是Table API 在《Apache Flink 漫谈系列(08) - SQL概览》中我们概要的向大家介绍了什么是好SQL,SQL和Table API是Apache Flink中的同一层次的API抽象,如下图所示: Apache Flink 针对不同的用户场景提供了三层用户API,最下层ProcessFunction API可以对State,Timer等复杂机制进行有效的控制,但用户使用的便捷性很弱,也就是说即使很简单统计逻辑,也要较多的代码开发。
5块钱低成本阿里云大数据生态协同过滤推荐系统实战
前情提要 人工智能千千万,没法落地都白干。自从上次老司机用神经网络训练了热狗识别模型以后,群众们表示想看一波更加接地气,最好是那种能10分钟上手,一辈子受用的模型。这次,我们就通过某著名电商公司的公开数据集,在阿里云大数据生态之下快速构建一个基于协同过滤的推荐系统! 推荐系统大家都不陌生,早就已经和大家的生活息息相关。
计算与存储分离实践—swift消息系统
swift是搜索事业部自主研发分布式消息系统,它的主要存储基于分布式文件系统,资源需求基于分布式调度系统。swift能支持每秒数亿的消息传递,支持PB级消息的存储。

大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。