开发者社区 > 数据库 > 正文

基于 Ensemble 的检测算法是什么?

已解决

基于 Ensemble 的检测算法是什么?

展开
收起
游客lmkkns5ck6auu 2022-09-07 22:27:33 435 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    iForest 算法是南京大学的周志华于 2010 年设计的一种异常检测算法,该算法利用 数据构建 iTree,进而构建 iForest,是一种无监督的检测算法,具有很好的效果,具体 可参见 http://www.cnblogs.com/fengfenggirl/p/iForest.html。 iForest 是由 iTree 构建而成的。iTree 是一种随机二叉树,其每个节点要么有两个子 节点,要么为叶子节点。对于给定的数据集 D,数据集中的所有的特征都是连续变量。iTree 建好以后,就可以对数据进行预测了,预测的过程就是将测试记录在 iTree 上 走一遍。iTree 能有效地检测异常点是基于异常点都很稀有这一假设的,异常点应该在 iTree 中很快被划分到叶子节点,因此,可以利用检测点被分入的叶子节点到根的路径长 度 h(x)来判断检测点 x 是否为异常点。在构建好 iTree 后,就可以构建 iForest。在构造 iForest 中的每棵树时,并不是要 将所有的数据都用上,而是随机采样,抽取一部分构造 iTree,并尽量保证每棵树都不相 同。事实上,如果 iTree 在构造时运用了很多数据点,反而不能得到很好的效果,这主 要是因为数据点会有重叠。因为由 iTree 变成了 iForest,所以 S(x,n)的计算公式也要改 变,将 h(x)变为 E[h(x)],它就是检测点 x 在每棵树上的平均高度。iForest 算法在 Python 中有现成的包可以调用。 利用 iForest 算法进行判断时,如果检测点的孤立森林分数为正数,那么,检测点为 正常点;否则,检测点为异常点。以上内容摘自《应用智能运维实践(试读版)》电子书,点击https://developer.aliyun.com/ebook/download/367 可下载完整版

    2022-09-08 08:20:15
    赞同 展开评论 打赏
问答分类:
问答地址:

数据库领域前沿技术分享与交流

相关电子书

更多
数据+算法定义新世界 立即下载
袋鼠云基于实时计算的反黄牛算法 立即下载
Alink:基于Apache Flink的算法平台 立即下载