《大数据分析原理与实践》一一3.4 小结

简介: 本节书摘来自华章出版社《大数据分析原理与实践》一 书中的第3章,第3.4节,作者:王宏志 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.4 小结
关联分析模型用于描述多个变量之间的关联,这是大数据分析的一种重要模型,本章主要探讨了回归分析、关联规则分析和相关分析这三类关联分析。3.1节介绍了回归分析模型,即描述一个或多个变量与其余变量的依赖关系,包括其基本定义和数学模型,并介绍了回归分析的基本计算方法和模型检验,紧接着介绍了回归模型的拓展,包括多项式回归、GBDT回归和XGBOOST回归,并且简要介绍了“回归大家族”,让读者对于整个回归问题有了全面的了解。3.2节讲述了关联规则分析模型,即查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。3.3节讨论了相关关系这种非确定性的关系,介绍了应用典型变量的典型相关分析问题,并介绍了阿里云的相关分析组件和相关实例。
习题

  1. 从20个样本中得到的有关回归结果是:SSR=60,SSE=40。要检验x与y之间的线性关系是否显著,即检验假设H0?∶?β1= 0。
    (1)线性关系检验的统计量F值是多少?

(2)给定显著性水平a=0.05,Fa是多少?
(3)是拒绝原假设还是不拒绝原假设?
(4)假定x与y之间是负相关,计算相关系数r。
(5)检验x与y之间的线性关系是否显著?

  1. 研究某一化学反应过程中温度x (℃)对产品成品率y (%)的影响,现测得若干数据(见表3-11):
    image

设对于给定的x、y为正态变量,且方差与x无关。
(1)试求线性回归方程;
(2)检验线性回归的合理性(取α = 0.05);
(3)若回归效果显著,试求x=135处y的置信度为0.95的预测区间。

  1. 某种水泥凝固时释放的热量y(cal/g)与3种化学成分x1、x2、x3(%)有关。现将观测的13组数据列于表3-12:
    image

试求y对x1、x2、x3的线性回归方程并作出检验(取α=0.05)。

  1. 一种合金在某种添加剂的不同浓度x (%)下其延伸系数y会有变化,为了研究这种关系,现进行16次试验,测得数据如下(见表3-13):
    image

(1)作出散点图。
(2)以=a0+a1x+a2x2为回归方程,确定其系数a0、a1、a2。

  1. 随机干扰项与残差项是否为一回事?若不是,写出二者的区别与联系。
  2. 为什么用R2评价拟合优度,而不用残差平方和作为评价的标准?
  3. (实现)从UCI数据集(https://archive.ics.uci.edu/ml/)中选取数据集,简单实现GDBT算法。
  4. 图3-22为购物篮事务:image

(1)计算{饼干},{啤酒,尿布},{啤酒,尿布,饼干}的支持度。
(2) 使用1)的计算结果,计算关联规则{啤酒,尿布}-> {饼干},{饼干}->{啤酒,尿布}的置信度。置信度是对称的度量吗?
(3)找出一对项a和b,使得规则{a}->{b}与{b}->{a}具有相同的置信度。

  1. 表3-14汇总了超市的事务数据。其中,cola表示包含可乐的事务,cola表示不包含可乐的事务,hamburgers表示包含汉堡包的事务,hamburgers表示不包含汉堡包的事务。
    image

(1) 假设挖掘出来关联规则{hambuger}->{cola}。给定最小支持度阈值是25%,最小置信度阈值为50%,该关联规则是强规则吗?
(2)根据给定的数据,买cola独立于买hamburger吗?如果不是,二者之间存在何种相关关系?

  1. 检查5位同学的学习时间与学习分数(见表3-15):
    image

学习时间与学习分数是否相关?若相关,求出其相关系数。

  1. 对140名学生进行了阅读速度x1、阅读能力x2、运算速度y1和运算能力y2的4种测验,所得成绩的相关系数矩阵为
    R=image

试对阅读本领与运算本领之间进行典型相关分析。

相关文章
|
弹性计算 缓存 监控
基于“日志审计应用”的 DNS 日志洞察实践
DNS 解析日志是一种记录 DNS 请求和响应的基础信息,监控 DNS 服务可以帮助用户识别网络活动并保持系统安全。日志审计服务支持采集 DNS 内网解析日志、公网权威解析日志、GTM 日志。理解 DNS 日志的字段含义,洞察 DNS 日志背后所代表的网络信息,既可以帮助发现和诊断 DNS 解析相关的问题,还可以检测和识别潜在的安全威胁。
8875 112
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的新锐台球厅管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的新锐台球厅管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
397 1
|
12月前
|
存储 编解码 算法
微帧WZ-JPEG图片编码压缩技术,实现超高压缩效率
在数字化时代,图像数据爆炸式增长,对传输和存储提出巨大挑战。JPEG作为互联网上最广泛应用的图片格式之一,占据超过60%的市场份额。微帧WZ-JPEG编码压缩技术通过优化DCT变换、量化及熵编码等步骤,实现了显著的压缩效率提升,平均节省27%的图片体积,复杂场景下可达40%,同时编码速度提升4倍,确保了高质量图像的快速加载与传输,极大提升了用户体验。此外,微帧还针对WebP、HEIF和AVIF等格式进行了专门优化,进一步彰显其在图像处理领域的技术优势。
|
负载均衡 安全 Java
微服务 Gateway 使用详解
网关(Gateway)是连接不同网络并进行数据转发的关键组件。在互联网中,路由器常作为默认网关;在现代操作系统中,网关指本地网络上转发数据包的设备。Spring Cloud Gateway是一款基于Spring Framework的API网关,具备反向代理、高性能、负载均衡、安全控制、限流熔断、日志监控等功能。通过简单配置即可实现请求路由和转发,适用于微服务架构中的集中控制、解耦客户端与服务、自动服务发现等场景,提升系统安全性与可扩展性。
1693 4
|
关系型数据库 MySQL 中间件
【MySQL实战笔记】07 | 行锁功过:怎么减少行锁对性能的影响?-02 死锁和死锁检测
【4月更文挑战第19天】在高并发环境下,死锁发生在多个线程间循环等待资源时,导致无限期等待。MySQL中,死锁可通过`innodb_lock_wait_timeout`参数设置超时或`innodb_deadlock_detect`开启死锁检测来解决。默认的50s超时可能不适用于在线服务,而频繁检测会消耗大量CPU。应对热点行更新引发的性能问题,可以暂时关闭死锁检测(风险是产生大量超时),控制并发度,或通过分散记录减少锁冲突,例如将数据分拆到多行以降低死锁概率。
396 1
|
缓存 前端开发 Go
go中的chan管道机制
Go 语言推崇通过通信来共享内存而非共享内存来通信,其中 Channel(通常简写为 `chan`)作为关键机制之一,允许两个并发执行的协程之间进行同步和数据交换。`chan` 是一种引用类型,可通过 `make` 函数创建,
252 2
|
人工智能
拯救被掰弯的GPT-4!西交微软北大联合提出IN2训练治疗LLM中间迷失
【6月更文挑战第1天】研究人员为解决大型语言模型(LLM)的“中间迷失”问题,提出了IN2训练方法。此方法通过显式监督增强模型对长文本上下文的理解,改善了信息检索能力。应用IN2训练的FILM-7B模型在长文本任务上表现出色,尤其在NarrativeQA数据集上的F1分数提升了3.4。尽管面临数据合成和计算成本的挑战,IN2训练为LLM的进步开辟了新途径,预示着未来在长文本处理领域的潜力。论文链接:https://arxiv.org/pdf/2404.16811
274 5
|
边缘计算 网络协议 云栖大会
|
Shell
openstack 查询网络的port 关联的虚拟机
在OpenStack中,可以通过以下步骤查询网络的端口关联的虚拟机: 打开命令行终端,并使用OpenStack的命令行工具(如openstack命令行客户端)登录到OpenStack平台。 执行以下命令来获取所有端口的列表: bash openstack port list 这将显示所有端口的列表,包括端口ID、网络ID、MAC地址等信息。 3. 从端口列表中,找到与虚拟机相关的端口。通常情况下,虚拟机的端口具有与虚拟机实例相关的标识符,例如MAC地址或端口ID。 4. 执行以下命令来获取虚拟机实例的详细信息: bash openstack instance show <instanc
437 0
|
Java 关系型数据库 MySQL
springboot集成spring-data-elasticsearch 完成对es的操作
springboot集成spring-data-elasticsearch 完成对es的操作
1406 0

热门文章

最新文章