雷同性分析问题

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 雷同性分析问题探讨了企业投标数据的相似度计算方法及其应用。通过比例计算(分子为匹配条数,分母为投标次数乘积)评估企业间关联,达到75%阀值则视为团伙。文中对比了分箱算法、聚类算法和暴力穷举法等方案的可行性,指出目前以比率作为评判依据较为合理,但需进一步讨论其有效性。前端展示方面,建议采用类似企业关联网的方式呈现关联关系。

雷同性分析问题

1. 比例计算

以比较的两个单位的投标次数相乘做分母(因为有两个企业的全量扫描,所以是a*b)

分子是扫描匹配上的条数

注意:以a企业为主企业扫描b的全量,后面也会有个b为主企业扫描全量a 的

结论:暂时没有什么问题,比较合理,是否能作为评判依据待讨论

2. 计算的目的

a和b雷同的比率做为分析的依据,分析团伙嫌疑

a和b的比率达到一定的阀值(目前为75%),统计为一个团伙

再有一个a和c,或者b和d,如果他们之间的比率也达到这个阀值,那就会归入这个团伙。以此类推,判断有多个关系的团伙

3. 算法的可行性

(1) 分箱算法(分箱法):等频分箱,等距分箱,卡方分箱

*箱子数量固定*:分箱算法需要一个数值来判断是否是一个箱子,箱子数量是事先固定的,不宜太多,这就不能满足了;

*数据:*我们异常数据都是固定的是否雷同,比率的话不能做为离散数据,只有一个阀值,也只存在阀值以上和阀值以下两个意义;

*目的*,分箱是为了离散数据,去噪的,是要将连续的数据按不同的方法分开,突出某些特征。

我们想要的是多个企业为一个团伙,这个团伙是以企业为准,而且比率这个数值做不了分箱的条件,只能是将比率比较接近的分在一起(a和b 81%,e和f 81.5%,会分到一个箱子),目前看需求是不满足的;

(2) 聚类算法

一般的聚类算法都是按距离来作为聚类的依据,不管是三维还是二维,都要有一个标准的数值来判定距离

目前测试的几个逻辑:

二维

举例 (ab,80%),(ac,70%),(ef,75%)

三维

(a,b,80%),(a,c,70%),(e,f,75%)

距离计算的算法要求每一个坐标点都有一定的含义,但是a,b,c,是单独的一个企业,在算法里没有距离上的含义,没法计算,硬算出来的也是不对的

(3) 暴力穷举法

现在想到的就是暴力穷举法,反复多次验证,将有关联的企业放入一个团伙里。实现起来比较麻烦。

(4) 前端实现有关联的展示,类似之前的企业关联网

类似有关联的都会有相互连线,只是展示的时候不用这些线展示

目录
相关文章
queryCoord的checkerController分析
queryCoord的checkerController分析
552 0
摊还分析
摊还分析 本章内容: 1.聚合分析 2.核算法 3.势能法 4.动态表   一  聚合分析   1.  在摊还分析中,我们求数据结构的一个操作序列中所执行的所有操作的平均时间,来评价操作的代价,它不涉及概率,可以保证最坏情况下每个操作的平均性能。
776 0
|
定位技术 Android开发
BottomSheetBehavior分析
BottomSheetBehavior分析
BottomSheetBehavior分析
|
供应链 数据挖掘
场景分析
如何梳理业务流程、建立指标体系?
742 0
场景分析
|
测试技术 C#
艾伟_转载:对于C#中b=a的N种情况分析
  本文旨在验证一个容易混淆的概念,从而为《玩转WPF/Silverlight中INotifyPropertyChanged和ObservableCollection》做铺垫。   两个相同类型的变量a和b,并且有如下关系:        b = a;   如果a发生改变,b是否也发生改变呢?    情况很复杂,分以下几种情况谈论:       1) 单个实体             1.
800 0
|
Python 算法 计算机视觉
多因子探索分析
假设检验 检验统计量,根据数据的均值、方差等性质,将数据转换为一个函数,构造这个函数的目的是将这个数据转换为一个已知分布容易解决的格式 显著性水平一般用希腊字母a表示,0.05代表数据有95%的可能与已知分布一致。
1410 0
|
Web App开发 前端开发 NoSQL