大数据浅谈1

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 小弟不才,针对于大数据入门的一些小总结,希望能共同成长进步,大咖请绕路!!!

大数据框架简介
1.HDFS:服务器的硬盘存储空间交给HDFS去管理
2.YARN服务器的CPU和内存交给YARN去管理(2x)
3.HBase:HBase分布式列式数据库:支不支持transcation rollback,分布式不支持rollback,半实时数据库(数据入库,不一定能查的到,之前能查出来现在也不一定能查出来)

   HBase优势:满足两个条件(集群足够大-内存足够大;查询的条件是rowkey的精确匹配;),不管查询的数据量多大,时间都是毫秒级。
   HBase劣势:对于编程和维护,比较头疼。
   HBASE替代方案:1)redis,有数据压力,不管是不是大数据,都可以使用redis(MongDB存在安全问题)
                     redis主要担心问题,内存爆掉。需要手动干预,写内存清理规则。
                  2)Cassandra(性能)+kylin(用于查询):Kylin的限制-多张表做JOIN,最多支持到亿级别。cassandra是一套开源分布式NoSQL数据库系统;提升存储性能。kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP(联机分析处理))能力以支持超大规模数据。
                  3)Kudu:适用于中小型企业;有HBase的好处,避开了HBase所有缺点。只要符合sql标准,就可以在kudu上直接跑;可以直接把存在oracle和MySQL上的表拿到kudu上。注:如果想用一套集群解决所有问题,就用kudu框架。
   美团是国内应用HBase最好的一家公司

4.Batch(MapReduce):一个作业涉及到40T数据以上,用MR(Spark经过优化后可以跑80T的数据,80T以上会有局限)

  MR能做的事情:SQL03标准能做的,MR可做;分布式下已经实现的数学模型,MR也能做;

5.Streaming(Storm,Flink,Spark streaming)

  处理速度最快的是Storm,spark streaming抗压性非常好。流对接时用storm

6.In-Memory(Spark):Spark是分布式内存计算,搭建Spark Server时,需要配内存和CPU。Spark的缺陷,CPU利用率不高(一个任务最多能使用70%)

  实例:一亿条数据,一个字段的模糊查询+排序:关系型数据库20min左右;Spark(20核20G内存),需8s2。

7.Interacting(Tez):对MR优化,业务较复杂,做一些复杂的存储时,推进使用Tez
8.Pig被淘汰了
9.Hive:底层是MR,给不会大数据,又想玩大数据的人用的。给老DB人员使用的,能写出高质量SQL+语义分析。
10.Mahout:数据建模+AI使用,底层是MR,将MR的缺陷无限制的扩大,主要是注重底层的算法。

          AI不是随便哪个企业都可以上,上了效果也会不佳。
          AI应用较实在的(用户喜好比较假,成果大都不佳):医疗方面-抗癌药;
          AI招聘人才:以前要求-985数学系本科生;211/985数学相关专业的硕士、博士;其他人-中西方课程相结合(中-求答案;西-求过程和为什么),把所有数学相关课程捡起来;
          AI薪资:30万+,上不封顶;BAT年薪70~80万;

11.Flume:把远程数据,安全拽到中心机房来;flume和kafka
12.Sqoop:底层是MR,Sqoop对Oracle的支持非常差,替代方案dataX(datax是阿里云开源的一个项目,是一个异构数据源离线同步工具)
13.Oozie:调度器
14.ZooKeeper:投票器,分布式锁,协同;部署节点数按基数算,至少3个,用于保证投票。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
传感器 人工智能 大数据
大数据
第二节 大数据 1.大数据的概念 麦肯锡公司对大数据的定义: 大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。 维基百科对大数据的定义: 大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间限制的数据集。这并不是一个精确的定义,因为无法确定常用软件工具的范围,可容忍时间也是个概略的描述。 2.大数据的特点 大数据具有5V特点(IBM提出),即: Volume(规模大)、Variety (种类多) 、Velocity (处理速度快)、Value (价值密度低)、Veracity (真实性) 2.大数据的特点 规模大: 数据规模大是大数据的基本属性。
|
SQL 数据采集 算法
大数据到底应该如何学?
大数据到底应该如何学?
112 0
|
存储 数据采集 分布式计算
大数据能做什么?
大数据能做什么?
222 0
大数据能做什么?
|
SQL 分布式计算 大数据
大数据初了解
了解大数据行业
125 0
|
大数据
大数据的深入理解
大数据的概念、作用、应用
198 0
|
SQL 弹性计算 运维
初识大数据
了解大数据
121 0
|
新零售 存储 Java
关于大数据最常见的10个问题,必看!
1、云计算与大数据是什么关系?   云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。
1311 0