【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(下)

简介: 【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(下)

【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(上):https://developer.aliyun.com/article/1496748


刚上新酒店 60 #未登录APP 118

avgprice 0 填充一部分价格填充为0 近一年未下过订单的人数,cr 用0填充,

tkq = ["hstoryvsit_7ordernm","historyviit_visit_detaipagenum","frstorder_b","historyvi
# tbkq = ["hitoryvsit_7dernum","hisryvisit_isit_detailagenum"]
X_train[i].fillna(0,inplace=True)
## 一部分用0填充,一部分用中位數填充
# 新用戶影響的相關屬性:ic_sniti,cosuing_cacity
n_l = picesensitive","onsmng_cpacty"]
fori in n_l
X_trini][Xra[X_trinnew_ser==1].idex]=0
X_est[i][X_test[X_test.nw_user==1].inex]=0

4.1.5 异常值处理

将customer_value_profit、ctrip_profits中的负值按0处理

将delta_price1、delta_price2、lowestprice中的负值按中位数处理

for f in flter_two:
a = X_trin[].median()
X_tran[f][X_train[f]<0]=a
X_test[f][X_est[]<0]=a
tran[f][train[f]<0]=a

4.1.6 缺失值填充

趋于正态分布的字段,使用均值填充:businessrate_pre2、cancelrate_pre、businessrate_pre;偏态分布的字段,使用中位数填充.

def na_ill(df):
for col in df.clumns:
mean = X_trai[col].mean()
dfcol]=df[col].fillna(median)
return
## 衍生变量年成交率
X_train["onear_dalate"]=_tain["odernum_onyear"]/X_tran"visinum_onyar"]
X_st["onyardealae"]=X_st["orernum_neyear"]/Xtest[visitumonyear"]
X_al =pd.nca([Xtin,Xtes)
#决策树检验
dt = Decsionr(random_state=666)
pre= dt.prdict(X_test)
pre_rob = dt.preicproa(X_test)[:,1]
pre_ob

4.2 数据标准化

scaler = MinMacaer()
#决策树检验
dt = DeonTreasifi(random_state=666)


5 特征筛选


5.1 特征选择-删除30%列

X_test = X_test.iloc[:,sp.get_spport()]
#决策树检验
dt = DecisonreeClssifie(random_state=666)
dt.fit(X_trin,y_tain)
dt.score(X_tst,y_est)
pre = dt.pdict(X_test)
pe_rob = dt.redicproba(X_test)[:,1]
pr_rob
uc(pr,tpr)

image.png

5.2 共线性/数据相关性

#共线性--严重共线性0.9以上,合并或删除
d = Xtrai.crr()
d[d<0.9]=0 #赋值显示高相关的变量
pl.fufsiz=15,15,dpi200)
ssheatp(d)

image.png

6 建模与模型评估


6.1 逻辑回归

y_prob = lr.preictproba(X_test)[:,1]
y_pred = lr.predict(X_test
fpr_lr,pr_lr,teshold_lr = metris.roc_curve(y_test,y_prob)
ac_lr = metrcs.aucfpr_lr,tpr_lr)
score_lr = metrics.accuracy_score(y_est,y_pred)
prnt("模准确率为:{0},AUC得分为{1}".fomat(score_lr,auc_lr))
prit("="*30

6.2 朴素贝叶斯

gnb = GasinNB() # 实例化一个LR模型
gnb.fi(trai,ytran) # 训练模型
y_prob = gn.pic_proba(X_test)[:,1] # 预测1类的概率
y_pred = gnb.preict(X_est) # 模型对测试集的预测结果
fpr_gnb,tprgnbtreshold_gb = metrics.roc_crve(ytesty_pob) # 获取真阳率、伪阳率、阈值
aucgnb = meic.aucf_gnb,tr_gnb) # AUC得分
scoe_gnb = merics.acuray_score(y_tes,y_pred) # 模型准确率

image.png

6.3 支持向量机

s =SVkernel='f',C=,max_ter=10,randomstate=66).fit(Xtrain,ytrain)
y_rob = sc.decsion_untio(X_st) # 决策边界距离
y_ed =vc.redit(X_test) # 模型对测试集的预测结果
fpr_sv,tpr_vc,theshld_sv = mtris.rc_urv(y_esty_pob) # 获取真阳率、伪阳率、阈值
au_vc = etics.ac(fpr_sc,tpr_sv) # 模型准确率
scre_sv = metrics.ccuracy_sore(_tst,ypre)

6.4 决策树

dtc.fit(X_tran,_raiproba(X_test)[:,1] # 预测1类的概率
y_pred = dtc.predct(X_test # 模型对测试集的预测结果
fpr_dtc,pr_dtc,thresod_dtc= metrcs.roc_curvey_test,yprob) # 获取真阳率、伪阳率、阈值

image.png

6.5 随机森林

c = RndoForetlassiir(rand_stat=666) # 建立随机森
rfc.it(X_tain,ytrain) # 训练随机森林模型
y_rob = rfc.redict_poa(X_test)[:,1] # 预测1类的概率
y_pedf.pedic(_test) # 模型对测试集的预测结果
fpr_rfc,tp_rfc,hreshol_rfc = metrcs.roc_curve(y_test,_prob) # 获取真阳率、伪阳率、阈值
au_fc = meris.auc(pr_rfctpr_fc) # AUC得分
scre_rf = metrcs.accurac_scor(y_tes,y_ped) # 模型准确率

6.6 XGboost

# 读训练数据集和测试集
dtainxgbatrx(X_rai,yrain)
dtest=g.DMrx(Xtest
# 设置xgboost建模参数
paras{'booser':'gbtee','objective': 'binay:ogistic','evlmetric': 'auc'
# 训练模型
watchlst = (dtain,'trai)
bs=xgb.ran(arams,dtain,n_boost_round=500eva=watchlst)
# 输入预测为正类的概率值
y_prob=bst.redict(dtet)
# 设置阈值为0.5,得到测试集的预测结果
y_pred = (y_prob >= 0.5)*1
# 获取真阳率、伪阳率、阈值
fpr_xg,tpr_xgb,heshold_xgb = metricsroc_curv(test,y_prob)
aucxgb= metics.uc(fpr_gb,tpr_xgb # AUC得分
score_gb = metricsaccurac_sore(y_test,y_pred) # 模型准确率
print('模型准确率为:{0},AUC得分为:{1}'.format(score_xgb,auc_xgb))

image.png

6.7 模型比较

plt.xlabel('伪阳率')
plt.ylabel('真阳率')
plt.title('ROC曲线')
plt.savefig('模型比较图.jpg',dpi=400, bbox_inches='tight')
plt.show()

image.png

6.8 重要特征

ea = pd.Sries(dct(list((X_trclumsfc.eatre_imortancs_))))
ea.srt_vlues(acedig=False
fea_s = (fa.srt_vauesacnding=alse)).idex


6.9 流失原因分析

  • cityuvs和cityorders值较小时用户流失显著高于平均水平,说明携程平台小城市的酒店信息缺乏,用户转向使用小城市酒店信息较全的竞品导致用户流失
  • 访问时间点在7点-19点用户流失比例高与平均水平:工作日推送应该避开这些时间点
  • 酒店商务属性指数在0.3-0.9区间内用户流失大于平均水平,且呈现递增趋势,说明平台商务指数高的酒店和用户期望有差距(价格太高或其他原因?), 商务属性低的用户流失较少
  • 一年内距离上次下单时长越短流失越严重,受携程2015年5月-2016年1月爆出的负面新闻影响较大,企业应该更加加强自身管理,树立良好社会形象
  • 消费能力指数偏低(10-40)的用户流失较严重,这部分用户占比50%应该引起重视
  • 价格敏感指数(5-25)的人群流失高于平均水平,注重酒店品质
  • 用户转化率,用户年订单数,近1年用户历史订单数越高,24小时内否访问订单填写页的人群比例越大流失越严重,需要做好用户下单后的追踪体验, 邀请填写入住体验,整理意见作出改进
  • 提前预定天数越短流失越严重用户一年内取消订单数越高流失越严重


6.10 建议:

image.png

  • 考虑占取三四线城市和低端酒店范围的市场份额
  • 用户易受企业负面新闻影响,建议企业勇于承担社会责任,加强自身管理,提高公关新闻处理时效性,树立品牌良好形像
  • 在节假日前2-3周开始热门景点酒店推送
  • 做好酒店下单后的追踪体验,邀请填写入住体验,并整理用户意见作出改进


7 客户画像


7.1 建模用户分类

# 用户画像特征
user_feature = ["decisiohabit_user,'starprefer','lastpvgap','sid',
'lernum",'historyvisit_visit_detaipagenum',
"onyear_dealrat
]
# 流失影响特征
fea_lis = ["cityuvs",
"cityorders",
"h",
"businessrate_pre2"
# 数据标准化 Kmeans方法对正态分布数据处理效果更好
scaler = StanardScalr()
lo_atribues = pdDatarame(scr.fittransfrm(all_cte),columns=all_ce.coluns)
# 建模分类
Kmens=Means(n_cluste=2,rndom_state=0) #333
Keans.fi(lot_attributes # 训练模型
k_char=Kmenscluster_centers_ # 得到每个分类
plt.figure(figsize=(5,10))

image.png

image.png

7.2 用户类型占比

types=['高价值用户','潜力用户']
ax.pie[1], raius=0.,colors='w')
plt.savefig(用户画像.jpg'dpi=400, box_inchs='tigh')

7.3 高价值用户分析

占比19.02,访问频率和预定频率都较高,消费水平高,客户价值大,追求高品质,对酒店星级要求高,客户群体多集中在老客户中,

建议:

多推荐口碑好、性价比高的商务酒店连锁酒店房源吸引用户;

在非工作日的11点、17点等日间流量小高峰时段进行消息推送。

为客户提供更多差旅地酒店信息;

增加客户流失成本:会员积分制,推出会员打折卡

7.4 潜力用户分析

占比:80.98% 访问频率和预定频率都较低,消费水平较低,对酒店星级要求不高,客户群体多集中在新客户中,客户价值待挖掘 建议:

因为新用户居多,属于潜在客户,建议把握用户初期体验(如初期消费有优惠、打卡活动等),还可以定期推送实惠的酒店给此类用户,以培养用户消费惯性为主;

推送的内容应多为大减价、大酬宾、跳楼价之类的;

由于这部分用户占比较多,可结合该群体流失情况分析流失客户因素,进行该群体市场的开拓,进一步进行下沉分析,开拓新的时长。

相关文章
|
5天前
|
存储 缓存 Java
Python高性能编程:五种核心优化技术的原理与Python代码
Python在高性能应用场景中常因执行速度不及C、C++等编译型语言而受质疑,但通过合理利用标准库的优化特性,如`__slots__`机制、列表推导式、`@lru_cache`装饰器和生成器等,可以显著提升代码效率。本文详细介绍了这些实用的性能优化技术,帮助开发者在不牺牲代码质量的前提下提高程序性能。实验数据表明,这些优化方法能在内存使用和计算效率方面带来显著改进,适用于大规模数据处理、递归计算等场景。
37 5
Python高性能编程:五种核心优化技术的原理与Python代码
|
28天前
|
前端开发 搜索推荐 编译器
【01】python开发之实例开发讲解-如何获取影视网站中经过保护后的视频-用python如何下载无法下载的视频资源含m3u8-python插件之dlp-举例几种-详解优雅草央千澈
【01】python开发之实例开发讲解-如何获取影视网站中经过保护后的视频-用python如何下载无法下载的视频资源含m3u8-python插件之dlp-举例几种-详解优雅草央千澈
【01】python开发之实例开发讲解-如何获取影视网站中经过保护后的视频-用python如何下载无法下载的视频资源含m3u8-python插件之dlp-举例几种-详解优雅草央千澈
|
2月前
|
算法 数据处理 Python
高精度保形滤波器Savitzky-Golay的数学原理、Python实现与工程应用
Savitzky-Golay滤波器是一种基于局部多项式回归的数字滤波器,广泛应用于信号处理领域。它通过线性最小二乘法拟合低阶多项式到滑动窗口中的数据点,在降噪的同时保持信号的关键特征,如峰值和谷值。本文介绍了该滤波器的原理、实现及应用,展示了其在Python中的具体实现,并分析了不同参数对滤波效果的影响。适合需要保持信号特征的应用场景。
116 11
高精度保形滤波器Savitzky-Golay的数学原理、Python实现与工程应用
|
16天前
|
数据采集 Web App开发 数据可视化
Python用代理IP获取抖音电商达人主播数据
在当今数字化时代,电商直播成为重要的销售模式,抖音电商汇聚了众多达人主播。了解这些主播的数据对于品牌和商家至关重要。然而,直接从平台获取数据并非易事。本文介绍如何使用Python和代理IP高效抓取抖音电商达人主播的关键数据,包括主播昵称、ID、直播间链接、观看人数、点赞数和商品列表等。通过环境准备、代码实战及数据处理与可视化,最终实现定时任务自动化抓取,为企业决策提供有力支持。
|
23天前
|
安全 数据挖掘 编译器
【01】优雅草央央逆向技术篇之逆向接口协议篇-如何用python逆向接口协议?python逆向接口协议的原理和步骤-优雅草央千澈
【01】优雅草央央逆向技术篇之逆向接口协议篇-如何用python逆向接口协议?python逆向接口协议的原理和步骤-优雅草央千澈
|
2月前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
2月前
|
数据采集 存储 XML
python实战——使用代理IP批量获取手机类电商数据
本文介绍了如何使用代理IP批量获取华为荣耀Magic7 Pro手机在电商网站的商品数据,包括名称、价格、销量和用户评价等。通过Python实现自动化采集,并存储到本地文件中。使用青果网络的代理IP服务,可以提高数据采集的安全性和效率,确保数据的多样性和准确性。文中详细描述了准备工作、API鉴权、代理授权及获取接口的过程,并提供了代码示例,帮助读者快速上手。手机数据来源为京东(item.jd.com),代理IP资源来自青果网络(qg.net)。
|
C++ Python
54 python - 类属性、实例属性
54 python - 类属性、实例属性
53 0
|
Python
【从零学习python 】43. Python面向对象编程中的实例属性和类属性
【从零学习python 】43. Python面向对象编程中的实例属性和类属性
93 0
|
Python
【Python零基础入门篇 · 21】:构造函数、类属性和实例属性的访问
【Python零基础入门篇 · 21】:构造函数、类属性和实例属性的访问
198 0
【Python零基础入门篇 · 21】:构造函数、类属性和实例属性的访问