《数据驱动安全:数据安全分析、可视化和仪表盘》一3.4 探索数据

简介: 本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第3章 ,第3.4节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第3章 ,第3.4节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.4 探索数据

你大致了解变量及其形式,现在是时候把你的安全领域专业知识加进来以探索与发现数据中的奥秘。这将促使你提出和回答好的问题。即便有近26万条记录,也会有很多工具随时告知你数据中有什么内容。
在开始深入探索数据之前,我们总结了一些关于数据的信息:
Reliability、Risk和x是整型。
IP、Type、Country、Locale和Coords是字符串。
IP地址使用点分四组表示法存储,而不是主机名或十进制格式。
每个记录与唯一的IP地址关联,所以共有258 626个IP地址(在本次下载中)。
每个IP地址已经通过Coords字段被地理定位为经度和纬度,且记录在同一个字段中并用逗号分隔。如果你希望使用该字段,就必须进一步解析。
当你有描述数量的变量(这是一种奇特的方式说“代表数量的数字”),你可以尝试分析变量的基本描述性统计数据。这些统计数据包括:
最小和最大值;求差可以得到范围(范围=最大值–最小值)。
中位数(数据集正中的数值)。
第一和第三个四分位数(是第25和75百分位数,或者你可以认为它是第一个半部分数据的中间值和最后一个半部分数据的中间值)。
均值(所有数据值求和然后除以数据数量)。
你可以认为最大值、最小值、中位数和两个四分位数是一个数据集的五数概括法(由Tukey发明),并且两种语言都有内置函数计算它们,即R中的summary()和Python中的describe(),两种语言同样有函数可以计算均值。请阅读Reliability和Risk(程序清单3-7和程序清单3-8)两个主要数据行的概要。
程序清单3-7
image

程序清单3-8
image
image

正如这些结果,Reliability列可能存在于[1…10]的范围(http://www.slideshare.net/alienvault/building-an-ip-reputation-engine-tracking-the-miscreants的第十页),而Risk列(AlienVault说其可能的归格范围是[1…10]),实际上只存在于[1…7]范围。你也可以看到,Risk和Reliability都以2为中心。
你现在可以深入一些,共同使用Reliability、Risk、Type和Country这些字段定义数据集的种类。尽管我们认为Reliability和Risk仅是数值,但是它们实际上是序数,这意味着各列中的每个项都可以赋予一个整数,在Reliability和Risk中数值4实际意义不一定指的是数值2的两倍,这意味着当Reliability和Risk的值为4时仅表示相比于它们值为2时程度更高。换言之,这些数据更像是标签而不是仅代表数值大小。分类数据也看做“标称值”(nominal values)、“因子”(factor),或在某些情况下是“定性变量”(qualitative variables)。

“数据”不仅仅是“数据”吗?
你可能已经习惯了从整体的角度处理数据,认为日志文件内容和数据库提取的信息仅仅是数据。如果你习惯了处理电子表格形式的数据(如Microsoft的Excel),你很难改变对它的固有认识。实际上,单个的数据元素可以分为两类:定量(quantitative)数据和定性(qualitative)数据。定量数据元素代表实际数量,而定性数据(或分类数据)元素是对性质的描述。
TCP或UDP的端口号是数字,但是它们不代表数量;当使用数据命名实体时,它们只是分类信息的一部分。接口“22”实际上并不大于或小于接口“7070”。相反,“传输的字节数”或者“染毒主机数”代表了具体数量并且可以对比大小。
分类数据在R中作为factor进行操作被控制,在Python中作为pandas Categorical类。实际上R和Python都有丰富的函数来实现因子的组建、分割、提取和分析。在程序清单3-4中,在扫描了AlienVault IP信誉数据文件后,R做出了合理的推测,IP、类型、国家和区域在本质上都是分类。国家名称和恶意软件类型简单定义为类型(统计方面的标称数据)。你也会发现R不能正确地识别出Reliability和Risk的定性性质,尽管有意义明确的序列数值,例如风险级别“5”高于“1”,但是序列数值不代表具体数量。(这意味着你不能计算Risk的均值或与其他Risk值做减法。)

在R中,定性和定量变量的差别由summary()函数自动处理(见程序清单3-9),而且它会显示每个类别的计数。这个工作对定量变量不起作用。当变量中存在太多独立数值时,为了得到计数,可以使用table()函数。在Python中,你可以生成一个简短的函数,利用pandas转换数据帧的列(它只是一个数组),将其转换为一个命名恰当的Categorical对象(见程序清单3-10),你可以适当调整来得到相似的有用输出。
程序清单3-9
image

程序清单3-10
image
image
image
image

这些数值表能帮助你了解数据的概况,但是一个数据分布图能提供一个全新的视角,让人们了解到单纯的数字不足以展示数据。我们以一个简单的柱状图给出Country、Risk和Reliability因子快速直观的概述(分别参见图3-2到图3-4)。你将需要单独运行每个R代码来得到每幅图。
程序清单3-11
image

程序清单3-12
image
image


image

程序清单3-13
image


image


这些可视化程序的Python版本在程序清单3-14、程序清单3-15和程序清单3-16中。
程序清单3-14
image
image

程序清单3-15
image

程序清单3-16
image

图3-5所示的国家图说明了确实有一些国家明显存在更多的恶意节点,你可以通过一个时刻的数量来观察列表中前十个国家的数量比例(程序清单3-17和程序清单3-18)。
程序清单3-17
image


image


image


程序清单3-18
image

这个快速计算展示了列表中中国和美国共统计出大约46%的恶意节点,而俄罗斯大约有2.4%。在这里,探索的关键点之一是如何比较各种行业报告,因为你期望这些国家中的多个都出现在前十位。然而,一些国家的节点数量显示出数据集可能有一些偏差。你还可以看到,3%的节点不能地理定位(在R程序输出中的[other]分类)。
第5章包含了IP地址的地理定位的挑战与陷阱,所以我们不在这里进一步讨论。
对于Risk变量,你会发现大多数节点的风险都是微不足道的(非常低以至于可以忽略)。有一些其他元素很有特点,实际上没有端点在1、5、6或7类别中,同时也没有端点存在于剩余的定义范围[8-10]中。这种异常是一种标志,值得深入挖掘,这个异常是数据集内容不均衡的直接证据。
最后,节点的Reliability率也显得有些偏斜(也就是其分布偏向了均值或呈集中趋势)。大部分数值被分类到级别2和级别4中,大于级别4的评级不多。可信度评级完全没有级别3,这个现象应引发一些思考。它也许说明了评级分配的一种系统缺陷,也可能你至少有两个独立的数据集。无论如何,大量数据集中在级别2和级别4而少量集中在级别3这个现象是一个标志,你应进一步探索,因为它有些奇怪并令人惊讶。
你现在有些线索并对数据核心内容的构成有了更清晰的认识。这个初步的分析给你足够的信息来制定研究问题。

相关文章
|
4月前
|
存储 安全 网络安全
都在谈数据安全,可你真的会做数据全生命周期防护吗?
数据安全远不止防火墙和杀毒软件,而是贯穿数据从产生到销毁的全过程。本文详解数据全生命周期保护,涵盖数据产生、存储、传输、处理、使用、共享、归档与销毁七大阶段,剖析各环节风险与防护要点,帮助企业构建系统性防护体系,真正守住数据安全底线。
都在谈数据安全,可你真的会做数据全生命周期防护吗?
|
11月前
|
存储 安全 Cloud Native
从数据风险出发的云上数据安全最佳实践
本文介绍了从数据风险出发的云上数据安全最佳实践,涵盖数据泄露现状及原因分析,以及基于云的安全机制。文章详细探讨了以云为基础实现数据全链路可视可控的方法,包括资产可见可控、数据安全中心、治理闭环和自动化智能化的数据安全治理能力。通过云原生方案,企业可以更高效地识别、预警和处置数据风险,确保数据安全。文中还提到多项免费工具和服务,帮助企业降低数据泄露风险并减少安全投入。
398 60
|
11月前
|
存储 安全 大数据
数据安全中心:云上全域数据防泄漏与安全解决方案
在数字化转型中,企业面临数据安全挑战。为应对《个人信息保护法》等法规要求,我们推出“数据安全中心”,提供云上全域数据防泄漏与安全解决方案。该产品涵盖敏感数据自动识别、分级分类、大数据审计、数据脱敏及列加密等功能,帮助企业轻松实现数据治理,确保合规并保护客户信任。欢迎参加12月11日晚7:30阿里云中小企业直播间了解更多。
231 2
|
人工智能 安全 网络安全
揭秘!大模型私有化部署的全方位安全攻略与优化秘籍,让你的AI项目稳如磐石,数据安全无忧!
【10月更文挑战第24天】本文探讨了大模型私有化部署的安全性考量与优化策略,涵盖数据安全、防火墙配置、性能优化、容器化部署、模型更新和数据备份等方面,提供了实用的示例代码,旨在为企业提供全面的技术参考。
932 6
|
存储 人工智能 安全
数据治理:强化数据安全与隐私保护的基石
在当今这个数字化时代,数据已成为推动社会进步和企业发展的核心驱动力。从个人消费习惯到企业运营策略,从政府决策支持到科研创新突破,数据无处不在,其价值不言而喻。然而,随着数据量的爆炸性增长和流通范围的扩大,数据安全与隐私保护问题也日益凸显,成为制约数据价值最大化利用的重要瓶颈。因此,构建完善的数据治理体系,特别是强化数据安全与隐私保护,成为了时代发展的必然要求。
1269 5
|
Kubernetes 安全 Cloud Native
解锁安全新纪元:利用服务网格Istio,打造全链路mTLS加密隧道,从入口网关到出口网关,守护数据安全的每一步
【8月更文挑战第2天】随着云原生技术的发展,服务网格(Service Mesh)如Istio已成为微服务架构的核心,通过双向TLS(mTLS)确保通信安全。首先,在Kubernetes部署Istio以管理服务通信。接着,配置入口网关实现所有入向流量的加密处理,防止数据泄露。最后,通过配置Sidecar代理如Envoy,确保服务网格安全访问外部mTLS服务,从而构建起全链路的数据安全防护。
472 11
|
人工智能 安全 大数据
CDGA|数据要素与数据安全:携手构建可信数据生态的深远探讨
数据要素与数据安全是数字经济时代不可分割的双生子。只有在保障数据安全的前提下,才能充分发挥数据要素的价值,推动数字经济持续健康发展。构建可信数据生态,需要政府、企业、社会组织及广大公众的共同努力,形成合力,共同应对挑战,共创数字经济的美好未来。
|
监控 安全 数据安全/隐私保护
确保数据安全与隐私保护的数据治理最佳实践
【8月更文第13天】随着数据成为企业最重要的资产之一,数据安全和隐私保护变得至关重要。本文将探讨数据治理中的一些最佳实践,并提供具体的代码示例来说明如何实施这些策略。
2569 4
|
存储 安全 数据安全/隐私保护
🔎Android安全攻防实战!守护你的应用数据安全,让用户放心使用!🛡️
【7月更文挑战第28天】在移动应用盛行的时代,确保Android应用安全性至关重要。本文以问答形式探讨了主要安全威胁(如逆向工程、数据窃取)及其对策。建议使用代码混淆、签名验证、数据加密等技术来增强应用保护。此外,还推荐了加密API、HTTPS通信、代码审计等措施来进一步加强安全性。综上所述,全面的安全策略对于构建安全可靠的应用环境必不可少。#Android #应用安全 #代码混淆 #数据加密
383 3

热门文章

最新文章