BigData:大数据开发的简介、核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS、HBase、Hive}+Docker)、经典场景应用之详细攻略

简介: BigData:大数据开发的简介、核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS、HBase、Hive}+Docker)、经典场景应用之详细攻略


导读:最近几天,有很多很多的网友留言都在咨询——如何学习大数据开发,以及如何跟上大数据时代而不被抛弃。今天周末,博主花了一段时间,统一采用本文章,以Hadoop生态系统布局进行回答,欢迎网友留言提建议。

首先,大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。

其次,大数据的主要价值——辅助决策。利用大数据分析,能够总结经验、发现规律、预测趋势,这些都可以为辅助决策服务。只有掌握的数据信息越多,人类的决策才能更加科学、精确、合理

 

 

目录

大数据简介

1、大数据的单位

2、大数据的5V特点——Volume、Velocity、Variety、Value、Veracity

3、大数据的价值体现

4、大数据与云计算密不可分

以Hadoop生态系统为基础带你了解大数据必须掌握的那些知识

大数据技术应用场景

1、经典应用场景

大数据核心技术

1、linux基础

2、编程语言——Java、Python

3、分布式存储框架——Hadoop生态系统+列式存储数据库HBase

4、资源调度框架——Docker


 

 

 

推荐文章

BigData之Hadoop:Hadoop的简介、深入理解、下载、案例应用之详细攻略

BigData之Hbase:Hbase数据管理的简介、下载、案例应用之详细攻略

BigData之Hive:Hive数据管理的简介、下载、案例应用之详细攻略

BigData之MongoDB:MongoDB基于分布式文件存储数据库的简介、下载、案例应用之详细攻略

BigData之Spark:Spark计算引擎的简介、下载、经典案例之详细攻略

BigData之Storm:Apache Storm的简介、深入理解、下载、案例应用之详细攻略

Docker:Docker的简介、安装、使用方法之详细攻略

 

大数据简介

         大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

  • Gartner定义的大数据:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
  • MGI麦肯锡全球研究所定义的大数据:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

 

1、大数据的单位

         大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(2的十次方)来计算:

  • 1 Byte =8 bit
  • 1 KB = 1,024 Bytes = 8192 bit
  • 1 MB = 1,024 KB = 1,048,576 Bytes
  • 1 GB = 1,024 MB = 1,048,576 KB
  • 1 TB = 1,024 GB = 1,048,576 MB
  • 1 PB = 1,024 TB = 1,048,576 GB
  • 1 EB = 1,024 PB = 1,048,576 TB
  • 1 ZB = 1,024 EB = 1,048,576 PB
  • 1 YB = 1,024 ZB = 1,048,576 EB
  • 1 BB = 1,024 YB = 1,048,576 ZB
  • 1 NB = 1,024 BB = 1,048,576 YB
  • 1 DB = 1,024 NB = 1,048,576 BB

 

2、大数据的5V特点——Volume、Velocity、Variety、Value、Veracity

         在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

 

3、大数据的价值体现

        大数据的主要价值——辅助决策。利用大数据分析,能够总结经验、发现规律、预测趋势,这些都可以为辅助决策服务。只有掌握的数据信息越多,人类的决策才能更加科学、精确、合理。从这个方面看,也可以说数据本身不产生价值,大数据必须和其他具体的领域、行业相结合,能够给企业决策提供帮助之后,才具有价值。很多企业都可以借助大数据,提升管理、决策水平,提升经济效益。

  • (1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销
  • (2)做小而美模式的中小微企业可以利用大数据做服务转型
  • (3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值

 

 

 

4、大数据与云计算密不可分

         大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

         随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

 

 

 

以Hadoop生态系统为基础带你了解大数据必须掌握的那些知识

大数据技术应用场景

          大数据技术可以应用在各个领域,比如公安大数据、交通大数据、医疗大数据、就业大数据、环境大数据、图像大数据、视频大数据等等,应用范围非常广泛,大数据技术已经像空气一样渗透在生活的方方面面。大数据技术的出现将社会带入了一个高速发展的时代,这不仅是信息技术的终极目标,也是人类社会发展管理智能化的核心技术驱动力。

 

1、经典应用场景

  • (1)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。
  • (2)为成千上万的快递车辆规划实时交通路线,躲避拥堵。
  • (3)分析所有SKU,以利润最大化为目标来定价和清理库存。
  • (4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。
  • (5)从大量客户中快速识别出金牌客户。
  • (6)使用点击流分析和数据挖掘来规避欺诈行为。

 

 

大数据核心技术

1、linux基础

        Linux是一种自由和开放源代码的bai类duUnix操作系统,以Unix为原型改造的,一个多用户多任务的操作系统,任何人都可以修改其代码和页面,主要的目的就是为了不收商业化的限制,服务器部署在linux系统上会更加高效稳定、安全。云计算、大数据的发展是基于开源软件的平台,Linux占据优势, 大数据的分布式集群( Hadoop,Spark )都是搭建在多台 Linux 系统上,对集群的执行命令都是在 Linux 终端窗口输入的。

        在大数据体系中,基本都是开源软件,这些开源软件都是在开源的linux系统上运行的,所以,基本的linux操作一定要会,比如:

  • 系统管理操作
  • 基本的用户管理
  • 文件权限的操作
  • 文件系统操作
  • shell编程

推荐文章Linux:Linux系统新手教程—linux系统使用攻略之常见操作、常用快捷键

 

2、编程语言——Java、Python

基础需要Java语言,数据科学处理需要Python语言等等。

 

 

3、分布式存储框架——Hadoop生态系统+列式存储数据库HBase

学习大数据,必须学习大数据核心知识Hadoop生态系统

  • HDFS技术:
  • HBase技术:
  • Hive数据仓库工具:
  • Spark大数据离线分析:
  • Sqoop使用流程
  • 数据实时分析Storm
  • 消息订阅分发系统Kafka等

推荐文章

BigData之Hadoop:Hadoop的简介、深入理解、下载、案例应用之详细攻略

BigData之Hbase:Hbase数据管理的简介、下载、案例应用之详细攻略

BigData之Hive:Hive数据管理的简介、下载、案例应用之详细攻略

BigData之MongoDB:MongoDB基于分布式文件存储数据库的简介、下载、案例应用之详细攻略

BigData之Spark:Spark计算引擎的简介、下载、经典案例之详细攻略

 

 

4、资源调度框架——Docker

         Docker可是整整火了最近一两年。各个公司都在发力基于Docker的容器解决方案,最有名的开源容器调度框架就是K8S了,但同样著名的还有Hadoop的YARN和Apache Mesos。

推荐文章Docker:Docker的简介、安装、使用方法之详细攻略

 

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
9月前
|
人工智能 前端开发 Java
2025年WebStorm高效Java开发全指南:从配置到实战
WebStorm 2025不仅是一款强大的JavaScript IDE,也全面支持Java开发。本文详解其AI辅助编程、Java特性增强及性能优化,并提供环境配置、高效开发技巧与实战案例,助你打造流畅的全栈开发体验。
707 4
|
6月前
|
安全 前端开发 Java
《深入理解Spring》:现代Java开发的核心框架
Spring自2003年诞生以来,已成为Java企业级开发的基石,凭借IoC、AOP、声明式编程等核心特性,极大简化了开发复杂度。本系列将深入解析Spring框架核心原理及Spring Boot、Cloud、Security等生态组件,助力开发者构建高效、可扩展的应用体系。(238字)
|
9月前
|
前端开发 JavaScript Java
Java 开发中 Swing 界面嵌入浏览器实现方法详解
摘要:Java中嵌入浏览器可通过多种技术实现:1) JCEF框架利用Chromium内核,适合复杂网页;2) JEditorPane组件支持简单HTML显示,但功能有限;3) DJNativeSwing-SWT可内嵌浏览器,需特定内核支持;4) JavaFX WebView结合Swing可完美支持现代网页技术。每种方案各有特点,开发者需根据项目需求选择合适方法,如JCEF适合高性能要求,JEditorPane适合简单展示。(149字)
1042 1
|
9月前
|
安全 Java 领域建模
Java 17 探秘:不容错过的现代开发利器
Java 17 探秘:不容错过的现代开发利器
631 0
|
7月前
|
消息中间件 人工智能 Java
抖音微信爆款小游戏大全:免费休闲/竞技/益智/PHP+Java全筏开源开发
本文基于2025年最新行业数据,深入解析抖音/微信爆款小游戏的开发逻辑,重点讲解PHP+Java双引擎架构实战,涵盖技术选型、架构设计、性能优化与开源生态,提供完整开源工具链,助力开发者从理论到落地打造高留存、高并发的小游戏产品。
|
8月前
|
JavaScript 安全 前端开发
Java开发:最新技术驱动的病人挂号系统实操指南与全流程操作技巧汇总
本文介绍基于Spring Boot 3.x、Vue 3等最新技术构建现代化病人挂号系统,涵盖技术选型、核心功能实现与部署方案,助力开发者快速搭建高效、安全的医疗挂号平台。
390 3
|
8月前
|
安全 Java 数据库
Java 项目实战病人挂号系统网站设计开发步骤及核心功能实现指南
本文介绍了基于Java的病人挂号系统网站的技术方案与应用实例,涵盖SSM与Spring Boot框架选型、数据库设计、功能模块划分及安全机制实现。系统支持患者在线注册、登录、挂号与预约,管理员可进行医院信息与排班管理。通过实际案例展示系统开发流程与核心代码实现,为Java Web医疗项目开发提供参考。
382 2
|
7月前
|
存储 Java 关系型数据库
Java 项目实战基于面向对象思想的汽车租赁系统开发实例 汽车租赁系统 Java 面向对象项目实战
本文介绍基于Java面向对象编程的汽车租赁系统技术方案与应用实例,涵盖系统功能需求分析、类设计、数据库设计及具体代码实现,帮助开发者掌握Java在实际项目中的应用。
271 0