数据准备
使用sklearn.datasets导入癌症数据load_breast_cancer
# 获取数据对象
data=load_breast_cancer()
获取目标变量与特征变量
1. # 导入数据 2. from sklearn.datasets import load_breast_cancer 3. # 获取数据对象 4. data=load_breast_cancer() 5. # 获取目标变量 6. # 获取特征变量 7. x=data.data 8. y=data.target 9. 10. print(len(data.data)) 11. # print(len(data.target))
数据处理
将导入的数据转化为DataFrame格式,便于后期的数据建模
1. import pandas as pd 2. data_x=pd.DataFrame(x) 3. data_y=pd.DataFrame(y) 4. data_x 5. data_y
数据划分
将导入的数据划分为测试集与训练集两部分
并取80%的数据作为训练集,20%作为测试集
1. # 划分数据集 2. from sklearn.model_selection import train_test_split 3. X_train,X_test,y_train,y_test=train_test_split(data_x,data_y,test_size=0.2) 4. X_train
数据建模
接下来选取逻辑回归模型进行数据建模工作
1. # 模型构建 2. from sklearn.linear_model import LogisticRegression 3. model=LogisticRegression() 4. model.fit(X_train,y_train) 5. model
模型评估
使用R的平方(可决系数也称决定系数)来评估模型的好坏,可以看到有94%的结果预测成功的,使用该模型最大的好处就是利用决策树二分类的机制,对数据进行有效的分类,提高预测的准确度
1. y_pred=model.predict(X_test) 2. # 预测结果 3. y_pred
1. # 准确率 2. from sklearn.metrics import accuracy_score 3. score=accuracy_score(y_pred,y_test) 4. score
结果预测
讲实际值与预测值进行对比可以发现也存在部分数据预测错误的情况,但从数据的整体预测结果来看可以发现模型的评分是达到了94%的准确率。
1. y_te=[] 2. for i in y_test.values: 3. y_te.append(i[0]) 4. # y_te 5. result={ 6. "预测值":list(y_pred), 7. "实际值":list(y_te) 8. } 9. 10. result=pd.DataFrame(result) 11. result
通过该模型能够准确的对癌症的结果进行分类,并达到94% 的准确度。