IQR法(四分位距法)

简介: IQR法(四分位距法)

IQR法,即四分位距法,是一种用于识别异常值的统计技术。它基于数据的分位数,特别是第一四分位数(Q1)和第三四分位数(Q3),以及它们之间的距离(即四分位距,IQR)。IQR是描述统计学中衡量数据分散程度的一个方法,它表示在不考虑数据极端值的情况下,数据集中中间50%的数据的范围。

四分位距(IQR)的计算步骤如下:

  1. 将数据集按照数值大小排序。
  2. 计算第一四分位数(Q1),即数据集中25%的数据点的小值。
  3. 计算第三四分位数(Q3),即数据集中75%的数据点的小值。
  4. 计算IQR:( IQR = Q3 - Q1 )。

识别异常值:

一旦有了IQR,就可以设定异常值的阈值,通常使用以下规则:

  • 低于 ( Q1 - 1.5 \times IQR ) 或高于 ( Q3 + 1.5 \times IQR ) 的数据点被认为是异常值。

这个1.5的系数是一个常用的选择,但有时也会根据具体情况使用不同的系数,例如1.0或3.0。

IQR法的优点:

  • 不受极端值的影响,因为它使用的是分位数而不是平均值。
  • 容易理解和计算。
  • 对于不对称数据分布,它通常比基于标准差的方法更有效。

IQR法的缺点:

  • 对于具有重尾分布的数据,可能会将实际的正常值误判为异常值。
  • 在数据集非常小的情况下,四分位数可能会受到少数数据点的强烈影响。

应用示例:

假设有一个数据集 [12, 15, 18, 20, 22, 25, 27, 100]:

  1. 排序后的数据集:[12, 15, 18, 20, 22, 25, 27, 100]。
  2. ( Q1 = 18 )(数据集中第50%的数据点小值)。
  3. ( Q3 = 25 )(数据集中第75%的数据点小值)。
  4. ( IQR = Q3 - Q1 = 25 - 18 = 7 )。
  5. 异常值阈值:( Q1 - 1.5 \times IQR = 18 - 1.5 \times 7 = 5.5 ) 和 ( Q3 + 1.5 \times IQR = 25 + 1.5 \times 7 = 38.5 )。
  6. 根据阈值,数据集中的100将被识别为异常值。

IQR法是一种非常实用的工具,可以帮助我们在数据清洗过程中识别和处理异常值。

相关文章
|
7月前
489: 平方和与立方和
489: 平方和与立方和
|
7月前
|
机器学习/深度学习
299: 平方和
299: 平方和
|
3月前
|
数据挖掘 Python
wustojc2003求整数均值
wustojc2003求整数均值
56 0
|
数据格式
SPSS计算偏度、峰度、平均值、极值、中位数、标准差
本文介绍基于SPSS软件的经典统计学分析与偏度、峰度等常用统计学指标的计算方法~
4157 1
SPSS计算偏度、峰度、平均值、极值、中位数、标准差
|
数据挖掘 BI 定位技术
为什么中位数(大多数时候)比平均值好
为什么中位数(大多数时候)比平均值好
258 1
为什么中位数(大多数时候)比平均值好
|
数据处理
集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关
集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关
517 0
集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关
|
存储
【CCCC】L2-018 多项式A除以B (25分),多项式除法
【CCCC】L2-018 多项式A除以B (25分),多项式除法
183 0