熵值法的原理+实现

简介: 可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大, 该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。因此,可利用信息熵这个工具,计算出各个指标的权重,为多指标综合评价提供依据。

1.定义

4f7d9a917d30eba10fdfd079fa801393.png

熵:在物理学上是度量热力系统学系统中的无序程度,在信息论中是度量系统的不确定性。

下面我们用两个例子来解释熵这个概念

799454959e92429188e58f8a397962e8.png

   左边克劳修斯的罐子里有9颗绿色的豆子,右边波尔兹曼的罐子里有5颗红色豆子和4颗绿色豆子。左边瓶子里的豆子很完整,都是绿色的豆子,所以它的熵比较小,信息熵越小,数据成纯度越高,也就是说左边罐子里只有同一种颜色,它豆子的纯度比较高。右边的瓶子豆子很凌乱,所以熵的伤比较大,也就是说右边的罐子里有红色和绿色两种不一样的豆子,它包含的豆子种类多,信息量大。

323122c1a3aad8e08f2315992911e4b0.png

同样我们对比小唠说的“啦啦啦啦啦”和小叨说的“我是卖报的小行家这”两句话。“啦啦啦啦啦”这几个字它的纯度高,带有的信息量少,所以他的熵值小。“我是卖报的小行家”这几个字,他的纯度低,信息量大,所以你的熵值大。我们可以通过香浓提供的公式来算出它所对应的熵值。

从上面两个案例,我们可以总结出以下两个性质:

信息熵越大,信息量越多,纯度越低。(不确定性高,离散程度高)

信息熵越小,信息量越小,纯度越高。

2.适用范围

   可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大, 该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。因此,可利用信息熵这个工具,计算出各个指标的权重,为多指标综合评价提供依据。

b0ca8c336a9ebceaf2431b6e45add495.png

   通常我们构建一个评价指标需要分为一级指标,二级指标,三级指标等等。例如上表我们评价一级指标时采用了AHP层次分析法,二级指标的权重确定使用了熵值法。因为我们在请专家根据自己的经验对指标进行评价时,我们能请到的专家数量有有限,所以只让专家对一级指标进行主观评定。二级指标,三级指标则通过数据计算的方式确定权重。最终的权重系数为一级指标乘以二级指标乘以三级指标计算得出。同时采用以上的方法AHP和商商权法的组合,是一种主观加客观的方式,在一定程度上避免了层次分析法主观性较强的缺点,使得评价结果更加准准确。

   可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大, 该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。因此,可利用信息熵这个工具,计算出各个指标的权重,为多指标综合评价提供依据。

3.实现

学号

C语言程序设计

数据库原理

体育

平均分

1

85.00

80.00

93.00

86

2

60.00

80.00

88.00

76

3

50.00

80.00

88.00

72.66667

4

40.00

80.00

90.00

70

5

90.00

80.00

88.00

86

   这是几位同学期末的一个成绩单,首先我们来看一下上面的成绩。我们想通过一种方法来确定学号1~5号中谁是最优秀的,我们先计算出了平均分,发现一号和五号的平均分都是86分。我们来看各科的成绩其中数据库原理大家都是80分,c语言程序设计这一门课成绩差异非常大,最低分有40分,最高分有90分。体育一门课成绩成绩差距也不是很大,都是八九十。

   这时我们就要提出一种评价指标,来评价这几位同学的成绩。以上的成绩我们考虑给C语言程序设计加一些权重。根据熵值法的原理来看。数据库原理,这一门课的离散程度为0,他在权重一定是零。体育和c语言程序设计比较来说c语言程序设计的离散程度较大从素质上来看有40的也有90的,差距比较大。体育这一门课最低有88最高也只有93,差距比较小。计算结果的权重一定是c语言程序设计的权重比体育的权重大。因为现实中的思维来想,可能是c语言程序设计考试比较难,所以他的分数差距就比较大,而体育和数据库原理很简单,它的分数差距就比较小。这样子来说,数据库原理和体育这两门课,它的可比性就比较小,因为大家的分数都差不多,C语言程序设计这一门课就有可比性。

下面使用SPSSAU计算以上指标的熵权



2ef8099efddee796f70faeae57d45384.png

0b5ccc48098eab0f6667b4dc205bf73a.png


f56d013c5e97f64c788d26637221593e.png

   以上的分析结果来看C语言程序设计权重系数为99.84,数据库原理的权重为0,体育的权重为0.52。然后我们可以给每一个科目不同的权重系数和各科的成绩相乘以后,得出每一位学生的综合成绩,评价这几位学生。



目录
相关文章
|
关系型数据库 MySQL 数据安全/隐私保护
在 Docker 中部署 Mysql 并挂载配置文件
在 Docker 中部署 Mysql 并挂载配置文件
|
9月前
|
数据采集 存储 数据库连接
Requests与BeautifulSoup:高效解析网页并下载资源
Requests与BeautifulSoup:高效解析网页并下载资源
|
前端开发 UED 开发者
React 数据表格分页实现
本文详细介绍了如何在React中实现数据表格的分页功能,包括基础实现、常见问题及解决方案。通过状态管理和事件处理,我们可以有效地减少页面加载时间,提升用户体验。文章提供了完整的代码示例,帮助开发者解决分页按钮样式、按钮过多和初始加载慢等问题,并给出了相应的优化方案。
384 53
|
边缘计算 人工智能 5G
5G 组网模式:NSA 与 SA 的比较与应用
5G 组网模式:NSA 与 SA 的比较与应用
5753 1
|
传感器 网络协议
CCF推荐B类会议和期刊总结:(计算机网络领域)
中国计算机学会(CCF)推荐的B类会议和期刊在计算机网络领域具有较高水平。本文总结了所有B类会议和期刊的详细信息,包括全称、出版社、dblp文献网址及研究领域,涵盖传感器网络、移动网络、网络协议等多个方向,为学者提供重要学术交流平台。
CCF推荐B类会议和期刊总结:(计算机网络领域)
|
自然语言处理 算法 数据可视化
NLP-基于bertopic工具的新闻文本分析与挖掘
这篇文章介绍了如何使用Bertopic工具进行新闻文本分析与挖掘,包括安装Bertopic库、加载和预处理数据集、建立并训练主题模型、评估模型性能、分类新闻标题、调优聚类结果的详细步骤和方法。
NLP-基于bertopic工具的新闻文本分析与挖掘
|
数据挖掘 索引 Python
数据分析缺失值处理(Missing Values)——删除法、填充法、插值法
数据分析缺失值处理(Missing Values)——删除法、填充法、插值法
1929 2
测量学:水准和导线测量实验报告+详细解析
测量学:水准和导线测量实验报告+详细解析
696 0
|
存储 弹性计算 监控
nacos常见问题之nacos启动后马上停止如何解决
Nacos是阿里云开源的服务发现和配置管理平台,用于构建动态微服务应用架构;本汇总针对Nacos在实际应用中用户常遇到的问题进行了归纳和解答,旨在帮助开发者和运维人员高效解决使用Nacos时的各类疑难杂症。
|
人工智能 安全 物联网
一物一码防伪溯源系统源码,支持正向追踪,逆向溯源
一物一码防伪溯源系统能准确获取产品生产经营各个环节的真实信息,利用物联网、云计算 、区块链、人工智能、5G等先进技术,结合特有的码码关联和RSA加密验证技术,建立区块链的“身份证”,针对产品生长到销售各环节的质量安全数据进行及时采集上传,数据具有不可逆,不可篡改等特点,实现产品溯源追踪、防窜货、产品促销等功能。
989 0
一物一码防伪溯源系统源码,支持正向追踪,逆向溯源