《大数据分析原理与实践》——导读

简介:


image

前  言

本书的缘起与成书过程

大数据经过分析能够产生高价值,这无疑已在大数据火爆的今天成为共识,从而使得大数据分析在“大数据+”涉及的领域(如工业、医疗、农业、教育等)有了广泛的应用。大数据分析的相关知识不仅是大数据行业的从业人员应该必备的,也是和大数据相关的各行各业的从业者需要了解的。

然而,人们对大数据分析的解读有多个不同方面。从“分析”的角度解读,大数据分析可以看作统计分析的延伸;从 “数据”的角度解读,大数据分析可以看作数据管理与挖掘的扩展;从“大”的角度解读,大数据分析可以看作数据密集高性能计算的具体化。

而大数据分析的有效实施也需要多个方面的知识。从分析的角度来讲,需要统计学、数据分析、机器学习等方面的知识;从数据处理的角度来讲,需要数据库、数据挖掘等方面的知识;从计算平台的角度来讲,需要并行系统和并行计算的知识。

上述多样化造成了目前大数据分析的教材和参考书的多样化:有些书重点介绍统计学或者机器学习知识,突出“分析”;有些书重点介绍实现平台和技术,突出“大”;有些书重点介绍数据挖掘知识及其应用,突出“数据”。笔者认为,这三类知识对大数据分析都是必不可少的,于是试图编写一本教材来融合这三类知识,给读者展示一个相对广阔的大数据分析图景。

也正是因为解读的角度和所需知识的多样化,本书的成书过程也比较曲折。在成书的过程中,笔者对大数据分析的认识也在不断加深,因而在编写过程中几次变换结构和体例。由于笔者主要从事数据相关工作,所以起初以大数据分析算法和相关技术为主,对数据分析模型方面的知识只是一笔带过。在和业内人士的交流中发现,对于很多读者来说,了解分析模型可能更重要,因为很多分析算法和大数据分析所需的技术都有平台实现,分析模型却需要了解业务的人来建立,于是笔者增加了较多数据分析模型方面的内容。而后通过和阿里云的合作,笔者又进一步了解了大数据分析的需求,于是增加了数据预处理等内容,并基于阿里云的技术和平台对书中的一些内容做了实现。这就是本书现在的版本。

本书的内容

本书力求系统地介绍大数据分析过程中的模型、技术、实现平台和应用。考虑到不同部分的侧重不同,故采取了不同的写作方法,尽可能使本书的内容适合更多的读者阅读。

模型部分主要突出了大数据分析模型的描述方法。通过这一部分的学习,读者可以在不考虑实现的情况下,针对应用需求建立大数据分析模型,即使不了解实现平台和具体技术,读者也可以独立学习这部分内容。在实践中,可以将分析模型表达为R语言,甚至像阿里云提供的可视化工具中那样分析流程,即使不掌握算法等方面的技术,同样可以进行大数据分析。

当然,如果对大数据分析相关技术有深入了解,会更加快速有效地进行分析,因而技术部分介绍了大数据分析所涉及的技术,重点在于解决大数据分析的效率和可扩展性问题。

“工欲善其事,必先利其器”,有了好的开发平台,就可以有效地实现相关的技术,因而实现平台部分介绍了多种开发大数据分析系统的实现平台。

最后两章针对“推荐系统”和“社交网络”这两个大数据分析的典型应用涉及的一些模型和技术进行了介绍,也是前面内容在应用中的具体体现。

“大数据”是一个比较宽泛的概念,本书围绕着分析过程进行讲解,突出大数据的特点,与大数据算法、大数据系统、大数据程序的编程实现、机器学习、统计学等书籍具有互补性,读者可以相互参考。

王宏志
2017年2月7日于哈尔滨

目  录

[第1章 绪论
1.1 什么是大数据
1.2 哪里有大数据
1.3 什么是大数据分析
1.4 大数据分析的过程、技术与难点
1.5 全书概览
小结
习题
第2章 大数据分析模型
2.1 大数据分析模型建立方法
2.2 基本统计量
2.2.1 全表统计量
2.2.2 皮尔森相关系数
2.3 推断统计
2.3.1 参数估计
2.3.2 假设检验
2.3.3 假设检验的阿里云实现
小结
习题
第3章 关联分析模型
3.1 回归分析
3.1.1 回归分析概述
3.1.2 回归模型的拓展
3.1.3 回归的阿里云实现
3.2 关联规则分析
3.3 相关分析
小结
习题

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
消息中间件 Shell RocketMQ
百度搜索:蓝易云 ,常用环境部署—Docker安装RocketMQ教程!
通过按照上述步骤,您可以在Docker中成功安装和部署RocketMQ。请注意,上述命令仅提供了一个基本的安装和配置过程,具体配置和使用可以根据您的需求进行进一步调整。确保在执行命令之前,您已经安装并配置好Docker环境。
345 0
|
人工智能 Android开发 开发者
首批!通义千问通过国家大模型标准评测
首批!通义千问通过国家大模型标准评测
638 0
|
1月前
|
消息中间件 缓存 JSON
1688拍立淘API实战指南:以图搜货解锁B2B采购新效率
1688拍立淘API(alibaba.ai.vision.product.search)通过“以图搜货”技术,助力企业快速匹配同款商品,解决B2B采购中“有图无货号、找货效率低”等痛点。支持图片上传、批量处理与全维度数据返回,结合合规性与高精度,重构供应链寻源模式,提升采购效率十倍以上。
|
6月前
|
人工智能 Apache 流计算
FFA 2025 新加坡站全议程上线|The Future of AI is Real-Time
Flink Forward Asia 2025将于7月3日在新加坡举办,主题为“实时智能的未来”。大会聚焦实时AI、实时湖仓与实时分析,展示Apache Flink及社区项目如Paimon、Fluss的最新成果。来自阿里云、AWS、TikTok等企业专家将分享洞见,现场及直播观众均可参与互动抽奖,共襄技术盛宴。
533 14
FFA 2025 新加坡站全议程上线|The Future of AI is Real-Time
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
9月前
|
数据采集 弹性计算 运维
阿里云付费模式介绍:节省计划、预留实例券、抢占式实例区别及选择参考
在我们购买阿里云服务器时,可选的付费模式有包年包月、按量付费、节省计划、预留实例券和抢占式5种付费模式,满足长周期低成本以及短周期高弹性的计算要求,一般用户选择最多的是包年包月和按量付费,包年包月购买适合长期稳定的业务,购买周期越长,折扣越高,按量付费购买紧贴业务需求购买资源的付费方式,秒级计费,用多少花多少。本文主要为大家介绍节省计划、预留实例券、抢占式实例三种付费模式,以供参考。
|
11月前
|
存储 人工智能 安全
阿里云 Confidential Al 最佳实践
本次分享的主题是阿里云 Confidential AI 最佳实践 ,由阿里云乾越分享。 1. 需求背景介绍 2. 大规模场景下面临的系统及安全风险 3. 计算栈的共享职责模型与用户信任边界的冲突 4. 传统计算、存储和网络安全技术中存在用户信任成本较高的问题 5. Confidential AI 方案实施模式 6. 基于CAI技术的阿里云Confidential Cloud Computing架构 7. Confidential AI on EGS DEMO 8. 阿里云全面应用Confidential AI 9. 完备的机密计算远程证明过程 10.发布《机密计算保障人工智能系统安全研究报告
537 1
|
机器学习/深度学习 人工智能 数据处理
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
探测外太空中的系外行星是天文学和天体物理学的重要研究领域。随着望远镜观测技术的进步和大数据的积累,科学家们已经能够观测到大量恒星的光度变化,并尝试从中识别出由行星凌日(行星经过恒星前方时遮挡部分光线)引起的微小亮度变化。然而,由于数据量巨大且信号微弱,传统方法难以高效准确地识别所有行星信号。因此,本项目旨在利用机器学习技术,特别是深度学习,从海量的天文观测数据中自动识别和分类系外行星的信号。这要求设计一套高效的数据处理流程、构建适合的机器学习模型,并实现自动化的预测和验证系统。
387 1
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
|
弹性计算 开发框架 数据可视化
阿里云虚拟主机和云服务器有什么区别?多角度全解析对比
阿里云虚拟主机与云服务器ECS的主要区别在于权限与灵活性。虚拟主机简化了网站搭建流程,预装常用环境,适合初级用户快速建站;而云服务器提供全面控制权,支持多样化的应用场景,如APP后端、大数据处理等,更适合具备技术能力的用户。尽管虚拟主机在价格上通常更优惠,但随着云服务器价格的下降,其性价比已超越虚拟主机,成为更具吸引力的选择。
|
机器学习/深度学习 人工智能 搜索推荐
【人工智能】人工智能在医疗健康中的应用以及实际案例和进展概述
人工智能(Artificial Intelligence, AI)在医疗健康领域的应用日益广泛,为医疗服务的提升和健康管理带来了革命性的变化。以下是人工智能在医疗健康中的主要应用
4224 1