企业大数据平台如何搭建?

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 在大数据这个词出现之前,我们对日常数据的这种处理和分析,常常使用的一些类似SQL server、MySQL、Oracle等等这些关系数据库,传统的这些数据库处理T级别数据量已经是这些数据库的极限,面对这种P级和E级的数据量,基本上是无能为力。

大数据这个词出现之前,我们对日常数据的这种处理和分析,常常使用的一些类似SQL serverMySQLOracle等等这些关系数据库,传统的这些数据库处理T级别数据量已经是这些数据库的极限,面对这种P级和E级的数据量,基本上是无能为力。



  一直到2005年,提供大数据基础能力的Hadoop项目出来,从技术层面上搭建了一个对非结构化和复杂数据快速可靠分析,变为现实的一个技术平台,从这个时候开始,大数据才成为互联网信息科技里高频的热词;





  2.什么是大数据,大数据有哪些特征





  不管我们是不是大数据的专业人士,在这个信息时代,我们都要了解一些大数据的概念,小到店家,大到国家都在讲大数据,不过真正搞清楚什么是大数据的人,还不是太多;





  对于大数据的概念,我们引用世界著名咨询公司麦肯锡对它的描述:





  大数据是什么?





  麦肯锡的定义:“一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有4V特征”





  4V是什么?





  Volume海量的规模;





  Velocity快速的流转





  Variety多样的类型





  Value低密度的价值





  二.怎样制定企业的大数据战略





  战略是我们工作的指导,一定有正确的战略才能做战术上的执行,战略错了,那么一切战术都是等于0,这里总结了大数据的6大战略;





  1.决策战略





  先了解所在企业的背景状况:比如企业是民企、国企还是上市公司,规模有多大,有多少员工,大数据仅仅是锦上添花还是已经具体的发挥了它的价值;在决策企业是否上大数据项目的时候,以及投入多少的问题上,这些问题都需要考虑清楚的;





  2.时机战略





  就是企业什么时候开始投入大数据建设





  3.人才战略





  4.选型战略





  是自建IDC数据中心、自建私有云,还是选择阿里云(腾讯云等等)共有云这个平台





  5.平台战略





  就是我们先选择搭建一个平台还是先实施一个应用的问题。





  一个原则:离钱越近,越要早做;





  6.管理战略





  关于数据是否可再生的问题:就是如何采集数据、如何存储数据、数据是怎样应用的,数据安全,用户隐私安全问题的保障;





  三.企业如何进行大数据平台建设





  无论从帮助企业营销还是提高效率来看,节约企业成本这个角度来看,大数据有非常大的价值,大数据做好了,可以推动企业的业务突飞猛进的增长;要实现这个大数据的价值,真正让大数据为企业创造贡献,那我们首先要积累有大数据,把日常业务和用户的行为数据收集起来,我们前面说过,有些数据是可再生资源,但更多的是不可再生资源,这就需要我们管理好我们的数据资产,去搭建一个数据平台,负责数据的采集,规整、运算、存储、应用、展现等等;





  1.大数据平台是由三个平台加一个服务组成的





  (1)工具平台,又包括





  -运维平台





  -数据采集平台





  (2)大数据仓库基础平台





  (3)大数据门户,又包括





  -大数据分析平台





  -产品应用平台





  (4)服务





  运维平台主要负责大数据平台的业务调度、任务监控、元数据管理、权限管理等等,主要由图中所示的系统组成的;二个是数据采集平台,主要负责把数据采集到大数据仓库平台当中,企业这种大数据来源,主要从三个方面去获取数据,从业务系统、日志采集系统、外部数据来源采集,每一个方面的来源又包含几个途径,如图所示;





  大数据基础平台,传统的也叫大数据仓库平台,这部分是整个大数据平台的核心;





  下面是大数据门户,是集成数据成果一体化的平台,包括大数据分析平台,和大数据应用平台;大数据门户,作为整个大数据的窗口,所有的数据研究成果,都会展现在这个数据门户当中,这样就极大的方便了公司职能人员使用数据;





  用户服务:使用数据的人主要包括管理人员、分析人员、运营人员、产品经理、技术工程师还有企业投资的相关方,或公司对外的数据服务,我们是通过API接口体现出来;





  2.如何构建大数据基础平台





  大数据基础平台,是整个大数据平台的核心,是企业大数据加工、计算、存储的场所,原本非常凌乱的各种各样来源的数据,进入基础平台之后,都会按照一定的标准,一定的规范化进行存储,处理起来,大数据基础平台有三个核心技术点,第一个是主题模型,第二个是层次模型,第三个是计算模型,下面会给大家一些简单的介绍;





  (1)主题模型





  主体模型详细附件图表





  主体模型设计的注意事项:





  大主题可以有若干的子主题构成





  主题之间不要有交叉,相同特征的要放在同一个主题当中;





  主体要充分的覆盖,能够覆盖到企业所有的业务,能够支持所有的应用和分析的需求





  (a)具备完整性





  (b)主体的独立性





  (c)具备层次性





  (2)层次模型





  层次模型通常由4个层次组成,如下图:





  (a)ODL层(操作数据层)





  功能是存放从业务系统之间抽取过来的数据,数据从数据结构,从数据这种逻辑关系上面,都与业务系统基本上是保持一致的,这里实现了透视字段一些固化的处理,像会员注册,注册时间,还有一些少量的基本的数据清洗,比如脏数据的一些过滤,维度的一些处理等等,最终生成了这种增量的数据





  (b)BDL层(基础数据层)





  该层的主要功能,是基于主题域的划分来完成数据整合的,提供统一的数据的基础平台,在这个层级当中,我们会完成数据的清洗、定义的分类等等的一些功能;





  (c)IDL层(接口数据层)





  面向应用的,统一的应用接口访问平台,客户统一视图都在这一层级实现,该层级的重点就在于实现跨主题域的这种数据的关联计算;在实践当中,会涉及两类模型,一类是为了获取数据更容易,我们会制造一些反规范化的主题模型,我们常常看到的这种宽表模型,另一类就是为了我们实现快速的查询,分析而建立起来的这种比较规范式的多维分析模型,它是由多个维表进行组成的;





  (d)ADL层(应用数据层)





  提供差异化的数据服务,以满足业务方的需求,这一层级我们可以实现一些报表,数据挖掘、产品应用等等需求;





  在传统的数据库时代,ADL层主要在RAC(ORACLE真正应用集群)中实现的,在大数据时代里,我们通常会用hbase这一层的数据的存储;





  我们在工作中,为了降低维度大数据平台的负责度,我们通常把4层压缩到3层,我们通常把ODL层和BDL层进行合并,原来分别在这两层当中实现的一些事情,我们合并到一层里面去实现;如下图所示:





  3.如何构建大数据门户





  企业大数据门户,是企业应用的集成一体化的平台,大数据门户,作为企业服务的窗口,除了数据研究成果外,都会展现在大数据门户中,从而极大的方便了我们企业个只能人员使用、利用这个数据;





  企业大数据门户包含:





  主要由精准营销、个性化推荐等等





  负责业务数据的可视化展现,智能报表,临时取数的分析,还有多维数据分析的一些模型,比如用户画像、业务关键指标监控,还有数据挖掘模型的一些监控等等。


云服务器ECS地址:阿里云·云小站


 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
11月前
|
存储 云安全 大数据
【云计算和大数据平台】云计算平台和大数据平台(如阿里云、腾讯云、华为云等)的搭建和使用方法
【云计算和大数据平台】云计算平台和大数据平台(如阿里云、腾讯云、华为云等)的搭建和使用方法
366 0
|
11月前
|
SQL 数据可视化 数据挖掘
宜搭是一款基于云计算的在线应用搭建平台
宜搭是一款基于云计算的在线应用搭建平台
195 2
|
11月前
|
存储 Cloud Native 大数据
浅谈传统企业的大数据平台如何上云
浅谈传统企业的大数据平台如何上云
|
SQL 分布式计算 运维
国产自研、安全、高可用——袋鼠云大数据基础平台EasyMR筑基企业数字化转型
俗话说 “基础不牢,地动山摇 “。大数据基础平台什么?是打地基的,是重中之重,地基扎得越深、打得越牢,上面的建筑才能越稳定。可以说,数字化转型的 “万丈高楼” 起于基础平台,具备自主可控的平台建设能力,是真正意义上一切的前提。 袋鼠云今年 7 月最新推出自研大数据基础平台 EasyMR,该产品提供 Hadoop、Hive、Spark、Trino、HBase、Kafka 等组件的自动化安装、中心化管理与集群监控告警功能,完全兼容 Apache 开源生态,支持企业级安全管控,一键开启 LDAP+Kerberos+Ranger 认证权限体系,以及提供一站式运维管理平台。
396 0
|
分布式计算 DataWorks Cloud Native
六大能力,助力企业构建全托管的现代化数仓!阿里云云原生一体化数仓新能力解读训练营来袭!
简介: 离线实时一体、分析服务一体、湖仓一体、数据安全、数据建模、数据治理,六大热门主题,六位大数据专家,带你了解当前炙手可热的云数仓产品最新演进趋势。本期训练营带你走进阿里云云原生一体化数仓新能力!
|
存储 运维 监控
如何构建云原生的开源大数据平台 | 微淼基于阿里云大数据生态的应用实践
随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。
如何构建云原生的开源大数据平台 | 微淼基于阿里云大数据生态的应用实践
|
运维 资源调度 监控
SOFAStack背后的实践和思考:新一代分布式云PaaS平台,打造企业上云新体验
近几年云计算的发展如火箭般迅猛,异构变革日新月异,这是基础设施层明确的发展趋势。值得关注的是,随着基础设施的复杂度越来越高,也为整个基础设施的统一资源调度带来了极大挑战。在越来越复杂的异构基础设施上,存量应用和增量应用应该如何上云?面对大量异构基础设施带来的挑战,企业如何最大化上云价值?12月15日,在以“引领分布式云变革 助力湾区数字经济”为主题的全球分布式云大会上,蚂蚁集团数字科技事业部产品总监马振雄分享了在分布式云异构基础设施之上,蚂蚁集团在构建分布式云PaaS平台SOFAStack背后的实践和思考。
315 0
SOFAStack背后的实践和思考:新一代分布式云PaaS平台,打造企业上云新体验
|
运维 资源调度 监控
SOFAStack 背后的实践和思考|新一代分布式云 PaaS 平台,打造企业上云新体验
在越来越复杂的异构基础设施上,存量应用和增量应用应该如何上云?面对大量异构基础设施带来的挑战,企业如何最大化上云价值?
SOFAStack 背后的实践和思考|新一代分布式云 PaaS 平台,打造企业上云新体验
|
人工智能 运维 Prometheus
开源AIOps数据中台搭建
本文介绍我在PyCon2019上海站的议题内容,根据Gartner的报告,AIOps将在未来5-10年落地开花,并集中统一各种Ops平台,本议题介绍AIOps的核心作用、相关工程难点(数据采集、数据中台、智能算法、自动化等)与开源方案选择,适当介绍了Python在其中的主要作用。
16728 1
|
存储 大数据 分布式计算
助力云上开源生态 - 阿里云开源大数据平台的发展
阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上,阿里巴巴高级产品专家夏立为大家分享了阿里云EMR如何助力云上开源生态。
11753 0
助力云上开源生态 - 阿里云开源大数据平台的发展