R语言非参数PDF和CDF估计、非参数分位数回归分析间歇泉、GDP增长数据

简介: R语言非参数PDF和CDF估计、非参数分位数回归分析间歇泉、GDP增长数据

全文链接:http://tecdat.cn/?p=29841


最近我们被客户要求撰写关于非参数估计的研究报告。在应用的设置中,我们经常遇到分类数据类型和连续数据类型的组合点击文末“阅读原文”获取完整代码数据


熟悉传统非参数核平滑方法的人会明白,这些方法假定基础数据本质上是连续的,但事实往往并非如此。一种同时处理连续数据和分类数据存在的方法称为“频率”方法,其中数据被分解为对应于分类变量假设值的子集(“单元格”),然后才将密度或位置应用于每个单元格中剩余的连续数据。


非参数频率方法被广泛认为是不令人满意的,因为它们通常会导致使用样品分裂引起的大量效率损失。

在本文中,我们通过许多经验应用来说明R的使用。选择每个应用程序是为了在应用的环境中突出显示特定的计量经济学方法。


非参数无条件PDF和 CDF估计


间歇泉是位于黄石国家公园的旅游景点。这个包含 n = 272 次观测的著名数据集由两个变量组成,以分钟为单位的喷发持续时间(以分钟为单位)和等待下一次喷发的时间(以分钟为单位)。公园服务使用此数据集来模拟预期持续时间,具体取决于自上次喷发以来经过的时间量。然而,对联合分布进行建模本身就很有意义,并且核估计器很容易揭示联合 PDF 和 CDF 的基本双峰性质。在本例中,我们加载旧的间歇泉数据并计算密度和分布函数。结果如图所示。请注意,在此示例中,我们一步进行带宽选择和估计

R> Ful <- npst(~ eruptions + waiting, data = fal)
R> summary(f.fful)

R> summary(Fhful)

以下代码将生成图。

R> plot(f.fthful

如果用参数模型(例如二元正态(对称、单峰和单调递减)来模拟这种密度,当然无法揭示核估计容易揭示的底层结构。

图 :Old Faithful 数据的非参数多变量 PDF 和 CDF 估计值。


点击标题查阅往期内容


R语言非参数方法:使用核回归平滑估计和K-NN(K近邻算法)分类预测心脏病数据


01

02

03

04


非参数条件PDF和CDF估计


我们考虑GDP增长,涵盖1951-1998年期间的21个地区。总共有n = 1008个观测值,以及两个变量,GDP和年份。首先,我们计算带宽。请注意,这可能需要一两分钟,具体取决于计算机的速度。我们覆盖搜索方法的默认容差,因为目标函数表现良好(当然通常不要这样做),然后我们计算。请注意,在本例中,我们一步进行带宽选择和估计。

R> fat <- npns(gdp ~ year,

+ tol = 0.1,

+ ftol = 0.1,

R> Fat <- npst(gdp ~ year,

+ tol = 0.1,

+ ftol = 0.1,

图绘制了 GDP 面板生成的条件 PDF 和 CDF。以下代码将生成图 。

R> plot

图显示,收入分配已从1950年代初的单峰分配演变为1990年代的明显双峰分配。此结果对带宽选择具有鲁棒性,无论是使用简单的经验法则还是数据驱动的方法(如可能叉验证)都可以观察到。核方法很容易揭示这种演变,如果使用收入分配的参数模型(例如,单峰对数正态分布通常用于模拟收入分配),则很容易被忽略。


非参数分位数回归


我们再次考虑GDP增长数据。首先,我们计算交叉验证带宽的可能性(默认)。我们覆盖了搜索方法的默认容差,因为目标函数表现良好(当然,通常不要这样做)。然后我们使用Li和Racine(2008)的方法计算结果的条件分位数估计。例如,我们计算第 25、50 和 75 条件分位数。请注意,这可能需要一两分钟,具体取决于计算机的速度。请注意,对于此示例,我们首先以避免不必要的带宽对象重新计算。

R> bw <- npbw(formula = gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,
R> modq0.25 <- nptau = 0.25)
R> mo.q0.50 <- nbw, tau = 0.50)
R> mod.q0.75 <- npq, tau = 0.75)

图绘制了生成的分位数估计值。以下代码将生成图。

R> plot

R> lines(It$year, mode.q0.25quantile )

此应用程序的一个很好的功能是解释变量是有序的,并且每年存在多个观测值。将绘图函数与有序数据一起使用会生成一个箱线图,该箱线图很容易显示非平滑的第 25、50 和 75 个分位数。然后可以直接将这些非平滑分位数估计值与通过直接估计平滑CDF获得的估计值进行比较,如图所示。

GDP 面板上的非参数分位数回归。


参考文献


Aitchison J, Aitken CGG (1976).“核方法的多元二元判别。”生物计量学,63(3),413-420。

Baiocchi G (2006). “Economic Applications of Nonparametric Methods.” Ph.d. thesis, University of York


相关文章
|
6月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
5月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
87 3
|
6月前
|
机器学习/深度学习 算法
概率分布深度解析:PMF、PDF和CDF的技术指南
本文将深入探讨概率分布,详细阐述概率质量函数(PMF)、概率密度函数(PDF)和累积分布函数(CDF)这些核心概念,并通过实际示例进行说明。
630 15
概率分布深度解析:PMF、PDF和CDF的技术指南
|
6月前
R语言基于表格文件的数据绘制具有多个系列的柱状图与直方图
【9月更文挑战第9天】在R语言中,利用`ggplot2`包可绘制多系列柱状图与直方图。首先读取数据文件`data.csv`,加载`ggplot2`包后,使用`ggplot`函数指定轴与填充颜色,并通过`geom_bar`或`geom_histogram`绘图。参数如`stat`, `position`, `alpha`等可根据需要调整,实现不同系列的图表展示。
103 9
|
6月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
10月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
10月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
7月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
7月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。

热门文章

最新文章