阿里云大数据产品专家,擅长MaxCompute、机器学习、分布式、可视化、人工智能等大数据领域;
数字经济时代,互联网改变着我们生活的方方面面,同时也在改变着商业世界的运营法则。而随着云计算、移动互联网、人工智能、大数据新一代技术的应用和发展,以及传统行业转型升级的日益深化,二者之间的关系变得愈发紧密。
1. 假设我们在MaxCompute中有两张表,其中一张表是存用户基本信息,另一张表是存用户的地址信息等,表数据假设如下: user_basic_info: id name 1 a 2 b 3 c
作者:王永伟 规范化和反规范化 当属性层次被实例化为一系列维度,而不是单一的维度时,此模式被称为雪花模式。大多数联机事务处理系统(OLTP)的底层数据结构在设计时采用此种规范化技术,通过规范化处理将重复属性移至其自身所属的表中,删除冗余数据。
作者:王永伟 在Kimball所著的《数据仓库工具箱》一书中,对于维度模型设计采用的4步设计方法:1.选择业务过程 2.声明粒度 3.确定维度 4.确定事实。 在当前的互联网大数据环境下,面对复杂的业务场景,为了更有效准确地进行维度模型建设,基于Kimball的4步维度建模方法,我们进行了更进一步的改进。
MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。 由于 MaxCompute是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。
作者:墨逐 人力资源管理系统是用集中的数据将几乎所有的人力资源相关的信息(组织、招聘、薪资、绩效、审批等)统一管理起来,是企业运行必不可少的管理软件。国际上知名的有Oracle PeopleSoft、SAP 和Workday HCM,世界500强公司有超过一半都在使用。
参考消息网6月19日报道 英媒称,阿里巴巴旗下的云计算部门阿里云将于2017年下半年将其“MaxCompute”大数据服务带入欧洲。 据英国科技经济类网站硅谷网6月15日报道,当地时间6月15日,阿里云在巴黎VivaTech国际科技创新大会上宣布大数据计算产品“MaxCompute”将于年内在欧洲市场开服,该技术涵盖处理分析、机器学习等一系列完善的数据智能服务。
据媒体报道,6月16日,国际知名调研机构Gartner公布了2017年全球云计算IaaS魔力象限,阿里云强势崛起成为这一核心领域的前四名。这也是中国云计算厂商首次进入Gartner的IaaS魔力象限。
概念 大数据开发套件(Data IDE) 是阿里云数加重要的Paas平台产品,是”DataWorks”中最重要的核心组件。提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。
DT时代,越来越多的企业应用数据步入云端。与传统Hadoop相比,阿里云数加MaxCompute(原名ODPS)向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
数加就是阿里云专业搞大数据各种神器的产品大家族其实技术型产品也没辣么难懂,一层各种形式计算完给到二层做数据展现&算法加工,三层通过各种算法延展粗各种数据应用.您买间屋也行,买一层可以,要是高兴买整栋楼都随您意!
最近有朋友问,客户在香港ECS上搭建的MySQl,大概有100GB以上的数据,能否通过MaxCompute做海量数据分析,我的回答是YES! 但客户担心香港与大陆之前数据连通性问题,我的回答依然是YES! 为了让更多个客户不再困扰,笔者做了一份教程,可以通过大数据开发套件中的经典网络进行同步数据
根据John Matherly的说法,不适当地配置HDFS服务器——主要是Hadoop安装——将会泄露超过5PB的信息。John Matherly是用于发现互联网设备的搜索引擎Shodan的创始人。 这位专家说,他发现了4487个HDFS服务器实例,这些服务器可通过公共IP地址获得,而且不需要身份验证。
写这篇文之前想起一个段子:“你在干嘛?”“我在王健林这儿跟马云谈生意。”“说人话!”“我在万达广场逛无聊了坐着拿手机淘宝……” 所以,本来开篇想说上周到马云那里聊了会最新的云计算技术,想想还是不那么得瑟,老实交代吧,上周五到杭州阿里巴巴总部以开小规模研讨会的名义实质上主要是去参观学习了一圈。
目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集。开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据。
最近,经常有客户咨询如何低成本搭建高性能的海量数据搜索引擎,比如实现公众号检索、影讯检索等等。由于客户的数据在阿里云上,所以希望找到云上解决方案。笔者开始调研一些云上产品,很多人向我推荐了OpenSearch,所以花了点时间好好研究了下,用过之后发现效果不错,自带分词、云数据库同步功能,在研究过程中也发现了一些问题,分享给大家。
本次培训讲座是由阿里巴巴创新中心·优客工场(天津于家堡)和天津云顶云科技有限公司联合举办,由阿里云大数据高级认证讲师——宋亚奇博士主讲,旨在通过对大数据及阿里云数加平台的介绍,帮助天津市企业更好的理解大数据,以及更合理有效的利用数据资源促进公司业务发展。
MaxCompute(原ODPS)的概念 海量数据处理平台,服务于批量结构化数据的存储和计算,提供海量数据仓库的解决方案以及针对大数据的分析建模服务.(官方文档有这里就不多做介绍了)官方文档链接 优势 用户不必关心分布式计算细节,从而达到分析大数据的目的。
十三五期间伴随能源互联网的建设,能源大数据及云计算能力长足发展,圈内诸多专家和组织陆续又开始讨论“能源地图”的深化应用, 什么是能源地图: 能源地图 1、反映一定地域范围内能源的发展条件及其水平的地区差异的专题地图。
为企业解答阿里云MaxCompute大数据计算产品购买问题。
概述 不以需求为目的的技术研究都是耍流氓 由于公司业务的快速发展,以及运营部门的需求,需要实现投资用户的月账单功能。 数据背景 目前平台投资用户57万多,投资流水数据已超过千万级,另外还需要统计用户的充值、提现、回款本金、利息、奖励、红包、区分各种产品的分类统计(定期、活期)、历史投资分布、收益趋势、打败多少用户、月度理财之星等等指标。
一,背景与概述 复杂系统的灾难恢复是个难题,具有海量数据及复杂业务场景的大数据容灾是个大难题。 MaxCompute是集团内重要数据平台,是自主研发的大数据解决方案,其规模和稳定性在业界都是领先的。
2017年4月11日晚,在西安举行的架构体系的顶级会议ASPLOS(面向编程语言和操作系统的架构支持会议,Architectural Support for Programming Languages and Operating Systems)公布了最佳论文、最有影响力论文和 Test of Time 几项大奖。
“在原来自建的环境里进行一个维度的数据处理大约需要 2-3天时间,而使用数加平台处理相同数据只需要 3-6 个小时。这些效率的提升可以缩短数据分析应用产品的研发周期,并能更好的提高这些产品的需求符合度。
机构测算,2016年中国公有云市场份额为150亿元左右,阿里云占据将近40%市场份额,一骑绝尘。
随着大数据技术的蓬勃发展,现在关于大数据技术在各行各业的实践也如火如荼。 那么当大数据技术遇到光伏行业会产生何样的化学反应呢? 下面就和大家一起分享一下袋鼠云是如何使用阿里云数加平台和机器学习平台助力光伏行业的。
自从4月1日,中共中央、国务院印发通知,决定设立河北雄安新区之后,这个无名小城就一夜爆红。雄安新区规划范围涉及河北省雄县、容城、安新3县及周边部分区域,地处北京、天津、保定腹地,是继深圳经济特区和上海浦东新区之后又一具有全国意义的新区。
随着互联网、云计算、物联网、社交网络等技术的兴起和普及,全球数据的增长快于任何一个时期,可以称作是爆炸性增长。收集大量数据,并在数据中发现趋势,能使企业能够更快、更平稳、更有效地发展。然而,大数据对许多企业和数据专业人员来说,它仍然很难理解,那么,什么是大数据分析?如何利用阿里云数加平台进行海量数据分析,帮助企业更好地利用数据资源?“天德π客”众创空间特举办本期论坛——“基于阿里云的大数据实践——海量日志分析”,邀请华北电力大学电力系统及其自动化博士,阿里云大数据高级认证讲师宋亚奇主讲。
在使用大数据开发套件时最常用的就是数据同步模块,工单里最常见的问题就是其中数据同步的问题,这里总结一些常见一些从odps到其他数据源的同步任务报错案例,主要是日志中出现数据回滚写入的问题。 那首先看下日志中数据回滚的原因,当数据写入rds或者hybridDB等一些支持事务的数据库中,数据批量写入,一旦由于各种原因没有写入成功,这个批次的数据会回滚重新写入,如果再次写入失败,就会报脏数据的错误导致任务失败。
“C-Tech Awards 2016最具价值大奖评选”活动已经正式结束。从2016年12月22日线上征集至今,活动获得各大技术行业企业的高度关注,现已有来自国内外的近400家企业参与到了本次评选活动中,并提交了全面的产品简介和创新点解析。
本次走访地点为阿里云大厦,由阿里巴巴集团投资建设,这也是阿里集团的南方总部、国际运营总部和商业云计算研发中心。 T4栋大堂 3楼接待台 分享:剖析阿里云 阿里云深圳分公司总经理何为先生(清华大学97级电子系)对阿里云进行了全面的介绍,并就阿里云对计算的定义、产品体系、差异化的核心能力及优秀案例进行了分享。
第一时间带来深圳云栖大会大数据专场现场干货及PPT
欢迎下载:https://yq.aliyun.com/attachment/download/?id=1489
随着信息化的推进,大数据已成为社会生活和工业生产不可或缺的基础资源。有效管理和利用大数据,提升大数据应用效率迫在眉睫。加强大数据标准化顶层设计,逐步完善标准体系,把数据“管好”“用好”。 2017年3月18日, 2017大数据标准化论坛在北京成功召开。
2017年3月18日, 2017大数据标准化论坛在北京成功召开。本次论坛由工业和信息化部信息化和软件服务业司和国家标准化管理委员会工业标准二部指导,中国电子技术标准化研究院和全国信标委大数据标准工作组共同主办。
DT时代,人们比以往任何时候都收集到更多的数据。据IDC报告,预计到2020年,全球数据总量将超过40ZB(相当于40万亿GB),这一数据量是2011年的22倍!正在“爆炸式”增长的数据,其潜在巨大价值有待发掘。
随着业务的发展壮大,数据量持续增加。集群变大,实时计算硬件资源消耗也变大。集群的维护成本不断增加,。大数据计算服务MaxCompute帮我们省去了这些维护成本。让我们更加专注于业务,专注让数据产生价值。
“令人惊喜的是,利用阿里云的数加平台,我们差不多一个多月就搭建好了大数据平台,并且可以通过图形化的界面快速的开发,几个开发人员很快的掌握,甚至我们把阿里云的开发端给了业务部门,他们一些稍微资深一点的业务人员也可以使用,所以我们初步估计了一下,给我们节省的价值至少是千万级的。
摘要: 目前我国物流业保持较快增长,但还是存在一些问题:物流成本高、效率低,条块分割严重(自营物流、规模小、技术落后、标准不统一)、基础设施相对滞后(物流基础设施之间不衔接、不配套),对订单创建到用户签收整套完整流程缺乏完善的监控和预警手段.
本文作者拖雷(陈吉平),袋鼠云CEO ,国内最早一批Oracle ACE Director,前阿里巴巴研究员,先后担任嗨淘、无线事业部、数据事业部资深总监,生活服务事业部总经理,以及阿里云事业群总裁助理。
“最早是新业务要做,但是买服务器来不及,管理员没到位,而且新业务的成本很高,是否能成功也是未知,因此明源决定采用阿里云,等资金和人到位再搬到自己内部。然而就是这种误打误撞,却让明源抓住了一个很好的机会走在了正确的轨道上。
3月9日14点,业内首个结合技术与应用的在线大数据技术峰会即将展开,届时6位阿里技术大咖与4位行业资深实践者将从技术与业务两个方面,与大家探讨大数据如何最快落地到实践。较为有看点的是: 最深入的实践:本次在线峰会上,6个阿里规模的大数据实践将被深入分享,包括大数据平台的性能调优、流式增量计算、持续发布与演进、机器学习平台打造等。
今年年初,Oracle发布了一份大数据变化趋势报告,报告中指出,越来越多的企业将用户分析甚至是企业应用同大数据加以结合。从AI支持型应用到Megabox等数据流客户端,各家企业都将迎来自己的大数据转型及下一代数据驱动型应用。
乍一看标题会以为是不是作者写错了怎么会有从MaxCompute到MaxCompute迁移数据的场景呢在实际使用中已经有客户遇到了这种场景比如两个网络互通的专有云环境之间数据迁移、公共云数加DataIDE上两个云账号之间数据迁移、还有网络不通的两个MaxCompute项目数据迁移等等下面我们逐个场景介绍。
过去的2016年,政府、行业以及大众对大数据的认知有了更进一步提升,但是大数据的应用落地及价值体现还是处在初级阶段,大数据如何促进创新创业,带来新的经济增量,如何推动传统行业转型升级,如何实现商业价值在2017年将会受到更多关注,尤其是以大数据为基石的人工智能应用将会驱动着“AI+”的发展。
2016年10月13日,马云在阿里云栖大会上首提“新零售、新制造、新金融、新技术、新资源”的“五新”概念,并指出线上线下加上现代物流合在一起,才能真正创造出新的零售; 2017年2月10日,刘强东在京东开年大会上,不停强调“新技术”,并且描绘其对于在金融、物流、服务领域等应用,结合其去年刘强东