basic concept| 学习笔记

简介: 快速学习 basic concept。

开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):basic concept】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/921/detail/15641


basic concept

 

在决策数这一章中,我们将向大家介绍决策树的基本概念、hunt 算法、评估、属性测试条件的方法、过拟合以及树的剪枝。

我们首先来看一下决策树。决策树分类方法是通过给定的训练集构建一棵决策树分类模型,然后利用决策树分类模型,对未标记的数据进行分类。

image.png

对于决策树分类模型,大家可以看一下我们的 PPT。它是一种由多个节点和有向边组成的树状网络结构。在决策树模型中,它的节点主要有三类,最上面的这个节点,我们把它称之为叫做根结点,它没有入编,只有两条或多条出边。其次黄色节点把它称之为叫做中间节点。对于中间节点,它有一条路边,有两条或多条出边。这一类节点就是蓝色代表的节点,我们把它称之为叫做叶子节点。对于叶子节点,它只有一条入边,没有出边。

在决策树模型中,我们把叶子节点又称之为叫做终结节点。其余的根节点和中间节点称之为非终结节点。在决策树模型中,非中间节点它代表的是属性测试条件。

根据属性测试条件,我们可以把落入到这个节点上的数据集划分为两个或多个子集。而我们的叶子节点代表的是类的数值 no 或者 yes,它的含义是录入到叶子节点上的所有数据对象的类别等于叶子节点的值。一旦我们的决策树模型构建好了,我们就可以对我们未标记的数据对象进行检测。

image.png

比如我们这里举一个例子,我们给出了一个未标记数据对象,根据我们的决策树模型,首先从根节点开始检测,根节点的属性是 home owner,我们根据我们的被标记数据对象 home owner 的取值 no 选择一个合适的分支,沿着这个分支,我们的未标记数据对象落入到下一个节点,下一个节点是中间节点,我们可以根据这个中间节点所代表的属性测试条件,继续对我们的未标记数据进行检测。对于我们这个节点,它的属性是 mary status,也就是婚姻状态。再根据我们对标的属性对象的婚姻状态取值,Mary 的又可以选择一个合适的分支落入到下一个节点。

此时我们录入的节点是一个叶子结点,其值为 no,它的含义是代表落入到这个节点上的所有数据对象的被标签是 no,所以我们最后得到这个未标记数据对象的类别就为  no。

相关文章
|
9月前
|
算法 安全 编译器
【C++20 新特性Concepts 概念】C++20 Concepts: Unleashing the Power of Template Programming
【C++20 新特性Concepts 概念】C++20 Concepts: Unleashing the Power of Template Programming
374 0
|
6月前
|
存储 网络协议 Linux
Overview of Concepts
Overview of Concepts
56 1
|
9月前
|
自然语言处理 算法 Python
[SentencePiece]论文解读:SentencePiece: A simple and language independent subword tokenizer...
[SentencePiece]论文解读:SentencePiece: A simple and language independent subword tokenizer...
144 0
|
数据采集 运维 算法
Best Matching Unit,简称 BMU
最佳匹配单元(Best Matching Unit,简称 BMU)是自组织映射(Self-Organizing Maps,简称 SOM)算法中的一个重要概念。在 SOM 网络中,每个神经元都对应一个权重向量,表示该神经元对输入特征的响应。BMU 是指在 SOM 网络中与输入数据最相似的神经元,即具有与输入数据最接近的权重向量。在训练过程中
334 3
|
设计模式 缓存 监控
译|Design patterns for container-based distributed systems(下)
译|Design patterns for container-based distributed systems(下)
87 0
|
设计模式 分布式计算 Kubernetes
译|Design patterns for container-based distributed systems(上)
译|Design patterns for container-based distributed systems
106 0
|
机器学习/深度学习 算法
Data Structures and Algorithms (English) - 7-28 Review of Programming Contest Rules(30 分)
Data Structures and Algorithms (English) - 7-28 Review of Programming Contest Rules(30 分)
225 0
Data Structures and Algorithms (English) - 7-28 Review of Programming Contest Rules(30 分)
Basic Concepts of Genetic Data Analysis
Basic Concepts of Genetic Data Analysis
921 0
|
Java Go Kotlin
For an experienced software engineer, what would be a preferred new programming language to learn?
For an experienced software engineer, what would be a preferred new programming language to learn? Chanaka Fernando, knows Sin...
1126 0