《大数据分析原理与实践》一一第2章 大数据分析模型

简介: 本节书摘来自华章出版社《大数据分析原理与实践》一 书中的第2章,第2.1节,作者:王宏志 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

**第2章
大数据分析模型**
大数据分析模型讨论的问题是从大数据中发现什么。尽管对大数据的分析方法林林总总,但面对一项具体应用,大数据分析非常依赖想象力。例如,对患者进行智能导诊,为患者选择合适的医院、合适的科室和合适的医生。可以通过患者对病症的描述建立模型而选择合适的科室;可以基于对患者位置、医院擅长病症的信息以及患者病症的紧急程度建立模型而确定位置合适的医院;还可以根据医院当前的队列信息建立模型进行推荐,如果队列较长则显示已挂号人数较少、等待时间较短的医生资料,如果队列较短则显示那些挂号费和治疗费较高但医术相对高明、经验相对丰富的医生资料。
这些分析离不开一系列基本的模型与方法。大数据分析模型用于描述数据之间的关系,我们经常听说的贝叶斯分类器、聚类、决策树都是大数据分析模型。
面向具体应用的大数据分析模型往往是这些分析方法的扩展或者叠加,例如我们可以结合支持向量机(SVM)和随机森林一起对心脏病病人的重新入院率做一个预测,对那些重新入院概率高的病人提供更加周到的住院期间的护理和出院后的跟踪护理。
大数据的分析模型有多种不同分类方法。例如,依据分析的数据类型,可以分类成面向结构化多维数据的多元分析、面向半结构化图数据的图分析以及面向非结构化文本数据的文本分析。根据分析过程中输出和输入的关系,又可以分类成回归分析、聚类分析、分类和关联规则分析等。根据输入的特征,可以分为监督学习、无监督学习和半监督学习等。
大数据分析是一个比较广的范畴,和统计分析、机器学习、数据挖掘、数据仓库等学科都存在关系,因而Michael I. Jordan建议用“数据科学”来覆盖整个领域。而大数据分析模型的建立是其中最基础也是最重要的步骤。
本章将对大数据分析模型进行概述,首先在2.1节介绍大数据分析模型建立方法,在接下来的两节中介绍两种从数据中发现规律的统计方法。一种是直接计算数据的统计量(见2.2节),另一种是利用数据来推断数据所描述对象的总体特征,即统计推断(见2.3节)。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
2月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
2月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
2月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
2月前
|
机器学习/深度学习 搜索推荐 数据挖掘
数据分析真能让音乐产业更好听吗?——聊聊大数据在音乐里的那些事
数据分析真能让音乐产业更好听吗?——聊聊大数据在音乐里的那些事
172 9
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
3月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
289 14
|
5月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
204 4
|
4月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
177 0