Python3入门机器学习 - 决策树

简介: 信息熵左式的信息熵较高,代表左式的不确定性更强,左式即指数据有三个类别,每个类别占1/3右式的信息熵为0,是信息熵可以达到的最小值,代表数据的不确定性最低,即最确定绘制决策树的决策边界import numpy as npimport matplotlib.

信息熵


img_51e96405a413f4855387d799e60194cf.png

img_6affab1bf952a409a052b2cf71251805.png
左式的信息熵较高,代表左式的不确定性更强,左式即指数据有三个类别,每个类别占1/3

img_0b810efece75b83be3368d5a359ca981.png
右式的信息熵为0,是信息熵可以达到的最小值,代表数据的不确定性最低,即最确定


绘制决策树的决策边界


import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

iris = datasets.load_iris()
X = iris.data[:,2:]
y = iris.target

from sklearn.tree import DecisionTreeClassifier
#criterion="entropy"代表使用信息熵进行划分
dt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy")
dt_clf.fit(X,y)

plot_decision_boundary(dt_clf,axis=[0.5,7.5,0,3])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1])
plt.show()
img_339abfd6c2cfa19c416bb8b805e98f60.png


使用信息熵寻找最优划分


from collections import Counter
from math import log

def split(X,y,d,value):
    index_a = (X[:,d]<=value)
    index_b = (X[:,d]>value)
    return X[index_a],X[index_b],y[index_a],y[index_b]

def entropy(y):
    counter = Counter(y)
    res = 0.0
    for num in counter.values():
        p = num/len(y)
        res += -p*log(p)
    return res

def try_split(X,y):
    
    best_entropy = float('inf')
    best_d,best_v = -1,-1
    
    for d in range(X.shape[1]):
        sorted_index = np.argsort(X[:,d])
        for i in range(1,len(X)):
            if(X[sorted_index[i-1],d]!=X[sorted_index[i],d]):
                v = (X[sorted_index[i-1],d]+X[sorted_index[i],d])/2
                X_l,X_r,y_l,y_r = split(X,y,d,v)
                e = entropy(y_l)+entropy(y_r)
                if e<best_entropy:
                    best_entropy,best_d,best_v = e,d,v
    return  best_entropy,best_d,best_v

try_split(X,y)
>>> (0.6931471805599453, 0, 2.45)  #对于第一次划分,得到的信息熵为0.36,是在第0个维度上的2.45处划分的结果

best_entropy,best_d,best_v = try_split(X,y)
X_l,X_r,y_l,y_r = split(X,y,best_d,best_v)
entropy(y_l)   #划分结果的y_l信息熵为0,不能继续划分,但我们可以对y_r继续划分
>>> 0.0

try_split(X_r,y_r)
>>> (0.4132278899361904, 1, 1.75)


使用基尼系数进行划分


基尼系数的划分整体和信息熵是一样的,只是使用计算的公式不同


img_54d0457571dd6a85daf34750dfce8501.png
基尼系数计算公式
def entropy(y):
    counter = Counter(y)
    res = 1.0
    for num in counter.values():
        p = num/len(y)
        res -= p**2
    return res
#try_split逻辑和信息熵划分完全一样


决策树的超参数


#在创建对象的时候,如果不传参数,那么默认会划分到所有分类的基尼系数都为0
dec_clf = DecisionTreeClassifier()
dec_clf.fit(X,y)
plot_decision_boundary(dec_clf,[-1.5,2.5,-1.0,1.5])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()
img_8407f7e79fa5044c1e4fdd886830673f.png
过拟合
  • max_depth #最大深度
  • min_samples_split #对于节点来说至少有多少个样本数据
  • min_samples_leaf #对于叶子节点至少要几个样本
  • max_leaf_nodes #最多有多少个叶子节点
img_0401534a012816f49b2e54f4e319431d.png
CART决策树的超参数


决策树解决回归问题


决策树解决回归问题的思路是,将每个叶子节点内所有样本数据的平均值作为预测结果。

目录
相关文章
|
1月前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
本文将引导读者了解如何使用Python进行数据分析,从安装必要的库到执行基础的数据操作和可视化。通过本文的学习,你将能够开始自己的数据分析之旅,并掌握如何利用Python来揭示数据背后的故事。
|
11天前
|
存储 数据挖掘 数据处理
Python Pandas入门:行与列快速上手与优化技巧
Pandas是Python中强大的数据分析库,广泛应用于数据科学和数据分析领域。本文为初学者介绍Pandas的基本操作,包括安装、创建DataFrame、行与列的操作及优化技巧。通过实例讲解如何选择、添加、删除行与列,并提供链式操作、向量化处理、索引优化等高效使用Pandas的建议,帮助用户在实际工作中更便捷地处理数据。
22 2
|
1月前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
82 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
30天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
155 15
|
17天前
|
人工智能 编译器 Python
python已经安装有其他用途如何用hbuilerx配置环境-附带实例demo-python开发入门之hbuilderx编译器如何配置python环境—hbuilderx配置python环境优雅草央千澈
python已经安装有其他用途如何用hbuilerx配置环境-附带实例demo-python开发入门之hbuilderx编译器如何配置python环境—hbuilderx配置python环境优雅草央千澈
python已经安装有其他用途如何用hbuilerx配置环境-附带实例demo-python开发入门之hbuilderx编译器如何配置python环境—hbuilderx配置python环境优雅草央千澈
|
1月前
|
IDE 程序员 开发工具
Python编程入门:打造你的第一个程序
迈出编程的第一步,就像在未知的海洋中航行。本文是你启航的指南针,带你了解Python这门语言的魅力所在,并手把手教你构建第一个属于自己的程序。从安装环境到编写代码,我们将一步步走过这段旅程。准备好了吗?让我们开始吧!
|
1月前
|
测试技术 开发者 Python
探索Python中的装饰器:从入门到实践
装饰器,在Python中是一块强大的语法糖,它允许我们在不修改原函数代码的情况下增加额外的功能。本文将通过简单易懂的语言和实例,带你一步步了解装饰器的基本概念、使用方法以及如何自定义装饰器。我们还将探讨装饰器在实战中的应用,让你能够在实际编程中灵活运用这一技术。
44 7
|
1月前
|
开发者 Python
Python中的装饰器:从入门到实践
本文将深入探讨Python的装饰器,这一强大工具允许开发者在不修改现有函数代码的情况下增加额外的功能。我们将通过实例学习如何创建和应用装饰器,并探索它们背后的原理和高级用法。
49 5
|
1月前
|
机器学习/深度学习 人工智能 算法
深度学习入门:用Python构建你的第一个神经网络
在人工智能的海洋中,深度学习是那艘能够带你远航的船。本文将作为你的航标,引导你搭建第一个神经网络模型,让你领略深度学习的魅力。通过简单直观的语言和实例,我们将一起探索隐藏在数据背后的模式,体验从零开始创造智能系统的快感。准备好了吗?让我们启航吧!
90 3