Splunk Machine Learning Toolkit在分类问题上的应用(一)

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: Splunk MLTK提供了创建告警接口,可以快速创建一个告警。 对于机器学习的算法和workflow,Splunk MLTK已经帮你实现,你甚至不需要知道这些算法的原理,只需要根据Splunk MLTK提供的workflow,就可以训练出自己的模型,它是真正把机器学习算法应用到真实数据的工具。

如果预测值是离散的,比如“好”“坏”,这类问题称为分类;对只涉及两个类别的二分类问题,通常称一个类为正类,另一个类为负类。我们看一下有关算法和概念。


真实类别和预测类别的关系

在二分类问题中,真实类别和预测类别有四种关系,真正类(true positive, tp)、假正类(false positive, fp)、真负类(false negative, fn)、假负类(true negative, tn),很明显,样本总数=tp+fp+fn+tn。

真实类别 预测类别
正类 负类
正类 tp fn
负类 fp tn

tp:true positive,被预测为正类,事实上也是正类,可以称为真的正确率;

fn:false negative,被预测为负类,事实上是正类,可以称为假的正确率;

fp:false positive,被预测为正类,事实上是负类,可以称为误报率;

tn:false negative,被预测为负类,事实上也是负类,可以称为漏报率;

评价模型的准确性 

准确率(accuracy),表示正确分类的样本数与总样本数之比。

查准率(precision),表示真正类个数与预测为正类的总数之比。

查全率(recall),表示真正类个数与实际为正类的总数之比。

F1度量(F1-Measure),表示查全率和查准率的调和均值。

一般情况:

其中当β>0时度量了查全率和查准率的相对重要性。β=1为F1形式,β>1时查全率有更大影响,β<1时查准率有更大影响。

LogisticRegression分类算法

在线性回归中,我们使用线性函数 来预测y(i),显然它不能很好预测分类问题,比如输出标记y(i)∈{0,1}。我们引入logistic函数来处理二分类问题:

函数称为logistic或者sigmoid函数,函数是S型曲线:

σ(z)∈ [0,1],它能处理二分类问题,比如有“1”“0”两类,当x属于 “1” 类时,调整参数θ使P(y=1|x)=hθ(x)尽可能大;相反使P(y=0|x)尽可能大。

成本函数(cost function)是评价模型拟合训练集好坏的方法。在二分类中,对于x(i)的预测值y(i),i=1,...,m,我们有成本函数:

J(θ)值越小,代表拟合的越好。

为了找到拟合最好的模型,我们把问题转化为求最小的J(θ)。参数不同导致函数hθ(x)有很多,哪个函数才能使J(θ)最小?梯度下降(Gradient Descent)可以找到函数J(θ)的最小值。

梯度下降是一种优化算法,它是在目标函数的超平面上,沿着斜率下降的方向前进,直到遇到了超平面构成的“谷底”,这个谷底就是极小值点,同时也是局部最优点。对于J(θ)的梯度∇θJ(θ)为:

LogisticRegression算法先介绍到这里,如果你还没明白它的原理,也没关系,我们看一下它在Splunk MLTK中,怎样利用防火墙流量日志判定用户恶意行为。

首先,firewall_traffic.csv是一份带有标签(特征)的防火墙流量日志,used_by_malware字段标记了日志是否有恶意行为。我们的目标是通过学习这些日志,判断新来流量是否有恶意行为。

很明显,这是二分类问题,我们可以使用LogisticRegression算法来拟合我们的模型。

对于这个界面相信大家都不陌生,首先我们搜索我们的数据,再选择LogisticRegression算法,选定预测字段(used_by_malware),选择特征字段等,最后拟合模型。

同时,如果你不太熟悉Splunk ML-SPL的话,可以点击“Show SPL”按钮查来看。

拟合后,我们在表格中看到模型准确性指标。

Splunk MLTK提供了创建告警接口,可以快速创建一个告警。

对于机器学习的算法和workflow,Splunk MLTK已经帮你实现,你甚至不需要知道这些算法的原理,只需要根据Splunk MLTK提供的workflow,就可以训练出自己的模型,它是真正把机器学习算法应用到真实数据的工具。

如果你想了解更多有关机器学习的信息,或者在使用Splunk MLTK中有任何疑问,都可以到论坛(http://ask.10data.com)进行留言和讨论。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
8月前
|
数据可视化 测试技术 API
Azure Machine Learning - Azure可视化图像分类操作实战
Azure Machine Learning - Azure可视化图像分类操作实战
98 1
|
5月前
|
机器学习/深度学习 算法 数据可视化
Machine Learning With Go 第4章:回归
Machine Learning With Go 第4章:回归
48 1
|
8月前
|
存储 人工智能 机器人
Azure Machine Learning - 聊天机器人构建
Azure Machine Learning - 聊天机器人构建
86 0
|
算法 IDE 关系型数据库
Machine Learning-L13-频繁模式挖掘
Machine Learning-L13-频繁模式挖掘
Machine Learning-L13-频繁模式挖掘
《The 8 Neural Network Architectures Machine Learning Resarchers Need to Learn》电子版地址
The 8 Neural Network Architectures Machine Learning Resarchers Need to Learn
92 0
《The 8 Neural Network Architectures Machine Learning Resarchers Need to Learn》电子版地址
|
算法 数据挖掘 Python
Machine Learning-L15-EM算法全解析(下)
Machine Learning-L15-EM算法全解析(下)
Machine Learning-L15-EM算法全解析(下)
|
机器学习/深度学习 算法 数据挖掘
Machine Learning-L15-EM算法全解析(上)
Machine Learning-L15-EM算法全解析
Machine Learning-L15-EM算法全解析(上)
|
机器学习/深度学习 人工智能 自然语言处理
Machine Learning-L0-机器学习简介
Machine Learning-L0-机器学习简介
Machine Learning-L0-机器学习简介
|
机器学习/深度学习 算法 搜索推荐
Paper:《A Few Useful Things to Know About Machine Learning—关于机器学习的一些有用的知识》翻译与解读
Paper:《A Few Useful Things to Know About Machine Learning—关于机器学习的一些有用的知识》翻译与解读
|
数据挖掘 Python
社交网络分析(Social Network Analysis in Python)①
今天的网络是我们日常生活的一部分。 让我们学习如何使用网络在Python中可视化和理解社交网络 网络无处不在,道路网络,社交媒体上的朋友和关注者网络以及办公室同事网络。
2094 0