《大数据分析原理与实践》一一导读

简介:

前  言

本书的缘起与成书过程
大数据经过分析能够产生高价值,这无疑已在大数据火爆的今天成为共识,从而使得大数据分析在“大数据+”涉及的领域(如工业、医疗、农业、教育等)有了广泛的应用。大数据分析的相关知识不仅是大数据行业的从业人员应该必备的,也是和大数据相关的各行各业的从业者需要了解的。
然而,人们对大数据分析的解读有多个不同方面。从“分析”的角度解读,大数据分析可以看作统计分析的延伸;从 “数据”的角度解读,大数据分析可以看作数据管理与挖掘的扩展;从“大”的角度解读,大数据分析可以看作数据密集高性能计算的具体化。
而大数据分析的有效实施也需要多个方面的知识。从分析的角度来讲,需要统计学、数据分析、机器学习等方面的知识;从数据处理的角度来讲,需要数据库、数据挖掘等方面的知识;从计算平台的角度来讲,需要并行系统和并行计算的知识。
上述多样化造成了目前大数据分析的教材和参考书的多样化:有些书重点介绍统计学或者机器学习知识,突出“分析”;有些书重点介绍实现平台和技术,突出“大”;有些书重点介绍数据挖掘知识及其应用,突出“数据”。笔者认为,这三类知识对大数据分析都是必不可少的,于是试图编写一本教材来融合这三类知识,给读者展示一个相对广阔的大数据分析图景。
也正是因为解读的角度和所需知识的多样化,本书的成书过程也比较曲折。在成书的过程中,笔者对大数据分析的认识也在不断加深,因而在编写过程中几次变换结构和体例。由于笔者主要从事数据相关工作,所以起初以大数据分析算法和相关技术为主,对数据分析模型方面的知识只是一笔带过。在和业内人士的交流中发现,对于很多读者来说,了解分析模型可能更重要,因为很多分析算法和大数据分析所需的技术都有平台实现,分析模型却需要了解业务的人来建立,于是笔者增加了较多数据分析模型方面的内容。而后通过和阿里云的合作,笔者又进一步了解了大数据分析的需求,于是增加了数据预处理等内容,并基于阿里云的技术和平台对书中的一些内容做了实现。这就是本书现在的版本

目录

第1章 绪  论 1.1 什么是大数据
1.2 哪里有大数据
1.3 什么是大数据分析
1.4 大数据分析的过程、技术与难点
1.5 全书概览
第2章 大数据分析模型
2.1 大数据分析模型建立方法
2.2 基本统计量
2.3 推断统计
第3章 关联分析模型
3.1 回归分析
3.2 关联规则分析
3.3 相关分析
3.4 小结

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
消息中间件 存储 Java
【Kafka】Kafka 组件分析
【4月更文挑战第5天】【Kafka】Kafka 组件分析
|
监控 Cloud Native 容器
基于阿里云容器服务监控 Kubernetes集群GPU指标
### 简介 当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。
17307 0
|
8月前
|
Ubuntu Linux
Ubuntu 25.04 内核确定,Linux 6.14 带来全新体验
Linux 6.14 将带来诸多新特性,包括新的 AMDXDNA 加速器驱动程序,可能完成的 NTSYNC 驱动程序,以及更多图形驱动程序改进等。
|
机器学习/深度学习 人工智能 算法
【VOSViewer】储层计算(Reservoir computing)的发展现状、研究热点、研究方向分析
本文使用VOSViewer工具分析了储层计算(Reservoir computing)的研究现状,通过关键词聚类识别出12个研究方向,并探讨了类脑计算、深度学习及相关技术在光学计算、物理库计算、软体机器人等领域的研究热点和应用。
452 3
|
IDE 前端开发 JavaScript
Prettier与ESLint:代码风格与质量的自动化保证
这两个工具协同工作以确保代码一致性。Prettier负责自动格式化,包括缩进、引号等,而ESLint执行静态分析,检查潜在错误和风格。Prettier配置文件如`.prettierrc`,ESLint配置如`.eslintrc.js`。安装它们并集成,例如使用`eslint-plugin-prettier`和`eslint-config-prettier`。在提交前,可通过husky和lint-staged在本地自动运行格式化和检查。IDE中配置插件可实现实时反馈。自定义规则和选择共享配置(如airbnb)以适应项目需求,并在CI流程中集成以保持高标准。
591 1
|
SQL 数据处理 Apache
Apache Flink SQL:实时计算的核心引擎
Apache Flink SQL 的一些核心功能,并探讨了其在实时计算领域的应用。随着 Flink 社区的不断发展和完善,Flink SQL 将变得越来越强大,为实时数据分析带来更多的可能性。
|
网络虚拟化
MSTP原理与配置
MSTP原理与配置
|
SQL 存储 关系型数据库
MySQL 数据库的备份与恢复
一、MySQL 常见的备份方式 1. 直接拷贝数据库文件(物理拷贝) 2. 使用 mysqldump 工具备份 3. 使用 mysqlhotcopy 工具备份 4. 使用 mysql 的主从同步复制,实现数据实时同步备份   二、MySQL 物理数据文件结构介绍 1.
2261 0
|
存储
门电路
门电路是数字电路中最基本的组成单元之一,它由一组逻辑门组成,用于实现布尔逻辑运算。门电路可以根据输入信号的不同组合产生不同的输出信号,从而实现各种逻辑功能。本文将介绍门电路的基本原理、常见类型以及应用场景。 一、门电路的基本原理 门电路的基本原理是根据布尔代数的逻辑运算规则,将输入信号进行逻辑运算,然后输出结果。门电路通常由多个逻辑门组成,每个逻辑门都有一个或多个输入端和一个输出端。逻辑门根据输入信号的不同组合,产生不同的输出信号。常见的逻辑门有与门、或门、非门、异或门等。 与门是最基本的逻辑门之一,它的输出信号只有在所有输入信号都为1时才为1,否则为0。或门是另一种常见的逻辑
532 0