Python 大数据开源生态在网络安全防御中的探索与实践(一)

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
实时计算 Flink 版,5000CU*H 3个月
简介: 本文主要介绍了由阿里构建的 Python 大数据生态(包括 Alink,Mars,Pygrape 等)有效改善了目前大数据处理与 AI 模型训练不能使用一门编程语言进行高效开发的现状,并介绍了部分开源框架在网络安全防御中的初步探索与实践。

1、背景

当前有关网络黑客的书籍和工具呈现指数级的增长,已经进入了一个号称“全民黑客”的时代。相应的,许多企业和政府部门为了自身业务和数据的安全,部署了大量的由不同安全厂商提供的网络安全检测及防御设备,也同时积累了大量的网络安全数据,形成了数目可观的数据孤岛。如何把各个安全设备的数据孤岛汇总到一个统一的平台,使用人工智能的方式建立模型和网络,充分利用批量和实时的安全数据,检测出正在发生的网络攻击事件或潜在的网络威胁事件,进行及时准确的告警或预警,是目前许多企业和政府部门的迫切需求。

与此同时,在大数据和人工智能技术持续升温的今天,Python 已经是人工智能领域中事实上的第一编程语言,但是在大数据计算领域中主流的计算框架,如Spark 和 Flink,第一编程语言却是 Scala 和 Java,这就造成了大数据处理(包括批式数据与流式数据的处理)与模型训练不能统一使用一门编程语言进行高效开发的尴尬现状。

自从今年4月份的 Spark + AI Summit 2019 大会以来,Spark 和 Flink 框架都开始加大了对 Python 语言的支持力度。Spark 开源了 Koalas 项目,使其与 Python 的 Pandas 无缝兼容;Flink 重构了 PyFlink,极大地提升了 Flink 中 Python API 的性能。但这些都还只是在数据读写和数据处理的层面,要深入到特征工程、模型训练及预测的层面,目前 Koalas 和 PyFlink 尚无法很好的满足这样的需要。虽然 Spark 和 Flink 都有各自的机器学习组件,SparkML 和 FlinkML,但是 SparkML 所能支持的算法十分有限,FlinkML 更是大约有两年左右都没有更新了。所以,如何在分布式集群上,打通数据前向(包括数据读取、数据处理等)与数据后向(包括特征工程、模型训练、模型预测、模型部署等),并兼容现有的主流深度学习框架,如 TensorFlow, PyTorch 和 MXNet 等,不仅是 Spark 和 Flink 社区目前的一个发展方向,也是各个大厂的一个发力方向,包括阿里、因特尔、戴尔等。就我个人来看,其中阿里开源的许多框架,包括 Alink、Mars、Pygrape、GraphT、Euler 等,极大的加快了构建 Python 大数据开源生态的步伐。真可谓是良心之举!

2、Alink

先来说说最近才开源的 Alink,这款由“豪门战队”,阿里云 MaxCompute PAI 团队研发开源出来的框架,聚集了诸多的亮点,批流一体、在线学习、Link 方式等,真的是让我这样的做数据挖掘的码农有种欲罢不能的感觉。不过为什么我要说 PAI 团队是“豪门战队”呢?原因除了 PAI 平台的功能强大和使用方便以外,就是 PAI 平台的收费真心好贵呀!完全就像是给豪门公司准备的……我也只是在2017年 PAI 平台上线公测的时候,有幸在上面做了几个公司数据挖掘的任务,自从它开始收费之后,我就只能远远的注视着她了……一不小心,吐了个小槽,继续哈。虽说现在大多数像我这样不在豪门公司的数据挖掘工程师或者算法工程师用不起 PAI 平台,但是在我个人看来,Alink 也着实继承了 PAI 平台一些优秀的特性,比如 Pipeline 的方式,就可以轻松的将批数据与流数据统一在一个模型中使用,使用 linkFrom,linkTo 等 link 语句就可以轻松的实现基于批数据或流数据的模型训练,以及模型预测功能,从而构建在线学习的模型。

在网络安全防御的平台中,汇集了各个不同厂商安全设备的告警及安全信息数据,如果能利用近一段时间的历史数据,比如最近一个月的数据,挖掘已经发生的攻击事件或潜在的威胁事件,提取相关的特征建立模型或网络,再根据线上的实时数据,针对目前攻击行为发生的演变,以及新增的潜在威胁等状况,实时地优化利用批数据训练好的模型,从而提高模型的自适应能力以及预测的准确性,是目前我们项目在安全防御平台上一个重要的探索方向,如图一所示。

soc.png

图一 安全防御平台中在线学习模型的方案

当然,在线学习只是 Alink 的一个亮点,她还支持其他很多的算法,如图二所示。
Alink.png

图二 Alink框架算法

不过 Alink 也并不是十全十美的,就我的实际项目经历来说,我们项目中的数据源是 Elasticsearch,目前 Alink 还没有对接 Elasticsearch 的 Connector,无法直接与 Elasticsearch 进行数据交换。而且读取 Kafka 的 Connector 也只有对 Kafka 0.11.X 版本的,可惜我项目中使用的 Kafka 不是这个版本。可见,Alink 要快速应用在不同的项目中,除了更多、更可靠的算法库,与不同数据源对接的 Connector 也是十分重要的。

3、Mars

再来说说 Mars,在我看来,Mars 跟一门小众编程语言 Ocaml 有点像,本身的特性都很优秀,但是不太注重市场营销,这一点从 Github 上 Start 的数量就可以反映出一二,Mars 是在2018年12月开源的,目前的 Start 数量是1.7k,而 Alink 是在2019年11底刚刚开源的,目前的 Start 数量就已经是1.6k了。Mars 其中的一个亮点就是她的大规模分布式计算不依赖 Spark 和 Flink 等计算框架,直接在 K8S 的集群上运行 pip install 'pymars[distributed]' 命令就可以安装分布式的 Mars 框架了,非常方便。而且在代码上,不仅做到了与 Numpy,Pandas,Sklearn 库的完美兼容,如图三所示,而且 Mars 中的数据抽象是 tensor,与 TensorFlow 和 PyTorch 框架可以做到无缝对接,目前 Mars 正在加大对 PyTorch 和 Scipy 技术栈的支持,进一步加强数据前向与数据后向任务的整合。不过 Mars 也同样缺少对 Elasticsearch 等数据源的 Connector,而且她目前只支持在 K8S 集群上执行分布式计算,不支持在 Yarn 集群上的分布式计算,所以在我们部署在 Yarn 集群的实际项目中,并没能用上 Mars 分布式计算的能力。但是在 Mars 中,数据格式np.ndarray、pd.dataframe 与 mt.tensor 之间的相互转化十分方便,比起在 PySpark 中进行类似数据格式的转化,用户体验要好很多;而且性能开销也不大,比起 PySpark 中 DataFrame 转换成 Pd.dataframe 的 toPandas() 方法的性能开销要小很多。

Mars.png

图三 Mars与Numpy、Pandas、Sklearn的对比

4、Pygrape & graphT

在以上两个性能优越的框架中,数据无论是以 ndarray、dataframe,还是以 tensor 的形式参与建模,模型都是在处理关系型数据的业务。而在今年的云栖大会上,针对图像、语音、文本等建立的深度学习模型已经被称为传统深度学习,GNN(图神经网络)算法被称为深度学习 2.0 版本。Gartner 发布的 2019 年跟数据相关产品魔力象限的分析报告也预测在未来的 2 到 5 年内,在企业层面和实际的需求落地层面,图相关的项目和需求都会有很大的发展,说明企业在业务中应用图计算的需求也在不断的涌现。所以今年的云栖大会开设了图神经网络的专场,还发布了 GraphCompute 平台,同时还介绍了即将开源的 Pygrape 和 graphT 框架(有关我对今年云栖大会中图计算理解的文章,请出门左转看这里 )。本文着重要说的就是 Pygrape 和 graphT 这两个即将开源的框架。在网络安全防御领域,少量的高危攻击事件隐藏在海量的普通访问和低危试探攻击中,具体到实际的项目中,需要在大约平均每天几百万条的攻击日志中,快速锁定隐藏在其中的高危攻击事件,通过构建关系型数据的模型是比较难满足需求的,尤其是在攻击者经过多级跳板,最终攻击目标服务器的攻击事件中,如图四所示。

attack.png

图四 多跳网络攻击示意图

在这种攻击日志超过几百万条,IP节点数达到数十万甚至过百万的业务数据中,很难在单台服务器上使用 Networkx 库构建网络拓扑去发现真正的攻击者,这时 Pygrape 框架就可以大显身手了。而且就云栖大会上公布的 PPT 来看,Pygrape 至少有两个吸引人的亮点。第一个就是在代码上,Pygrape 提供了一个 Networkx 兼容的API层,这大大减低了 Pygrape 的学习成本,如图五所示;第二个亮点就是 Pygrape 在数据处理任务中与 Mars 无缝对接,极大的提升了在网络拓扑中对点和边的属性做数据处理的性能。

python_graph_16.png

图五 Pygrape代码示例

当然,Spark 框架中的 GraphX 和 Flink 框架中的 Gelly 也都可以实现图中节点和边的计算,但是对计算结果图的可视化,目前都不能很好的支持,而且这两个框架都不支持 Python API。而 graphT 的开源,无疑将在 Python 大数据生态中,扭转计算图无法可视化的尴尬局面,而且代码依旧十分简洁,如图六所示。

python_graph_27.png

图六 graphT代码示例

Mars、Pygrape 和 graphT 的有效结合,未来势必将极大的提升 Python 大数据生态对图计算的处理能力。期待 Pyprape 和 graphT 的早日开源。

5、Euler

在图深度学习方面,阿里在今年1月份开源了 Euler,一个工业级的图深度学习框架。这个库中包括了比较多的GNN 算法,如 LsHNE、LasGNN、ScalableGCN 等,而且还列出了相关的论文,作为 GNN 算法的学习是比较好的。不过这个库目前只支持 Pyton2,而我们项目的所有模型今年刚好全都升级到 Python3 的版本,所以这个库在我们的项目中并没有做进一步的探索。

6、综述

综上,阿里的 Alink、Mars、Pygrape、graphT 以及 Euler 等性能卓越的开源框架,正在或即将为构建 Python 大数据生态绽放自己的光彩,而作为在项目中以 Python 为主要编程语言的数据挖掘工程师,我很荣幸、也很乐意把这些开源框架逐步应用在我的实际项目中,用心体会她们的卓越,及时发现她们的不足,反馈给社区,为构建 Python 大数据生态,践行自己的一份力量。

此为开篇,后续我会持续更新在实际项目中实践这些优秀开源框架的一些感受和心得,也会把相关数据和代码脱敏后分享出来,兴许会对无意中看到这篇文章的你有点借鉴作用,也许你会开始对 Python 大数据生态感兴趣,谁知道呢……因为未知,所以期待。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
110 3
|
7天前
|
机器学习/深度学习 人工智能 分布式计算
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
80 35
|
5天前
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
38 7
|
12天前
|
SQL 分布式计算 DataWorks
MaxCompute MaxFrame评测 | 分布式Python计算服务MaxFrame(完整操作版)
在当今数字化迅猛发展的时代,数据信息的保存与分析对企业决策至关重要。MaxCompute MaxFrame是阿里云自研的分布式计算框架,支持Python编程接口、兼容Pandas接口并自动进行分布式计算。通过MaxCompute的海量计算资源,企业可以进行大规模数据处理、可视化数据分析及科学计算等任务。本文将详细介绍如何开通MaxCompute和DataWorks服务,并使用MaxFrame进行数据操作。包括创建项目、绑定数据源、编写PyODPS 3节点代码以及执行SQL查询等内容。最后,针对使用过程中遇到的问题提出反馈建议,帮助用户更好地理解和使用MaxFrame。
|
1月前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
81 2
|
3月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
289 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
2月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
3月前
|
机器学习/深度学习 数据可视化 大数据
驾驭股市大数据:Python实战指南
【10月更文挑战第1天】随着信息技术的发展,投资者现在能够访问到前所未有的海量金融数据。本文将指导您如何利用Python来抓取当前股市行情的大数据,并通过分析这些数据为自己提供决策支持。我们将介绍从数据获取到处理、分析以及可视化整个流程的技术方法。
176 2
|
4月前
|
存储 大数据 索引
解锁Python隐藏技能:构建高效后缀树Suffix Tree,处理大数据游刃有余!
通过构建高效的后缀树,Python程序在处理大规模字符串数据时能够游刃有余,显著提升性能和效率。无论是学术研究还是工业应用,Suffix Tree都是不可或缺的强大工具。
78 6
|
4月前
|
机器学习/深度学习 数据挖掘 大数据
大数据时代的“淘金术”:Python数据分析+深度学习框架实战指南
在大数据时代,数据被视为新财富源泉,而从海量信息中提取价值成为企业竞争的核心。本文通过对比方式探讨如何运用Python数据分析与深度学习框架实现这一目标。Python凭借其强大的数据处理能力及丰富库支持,已成为数据科学家首选工具;而TensorFlow和PyTorch等深度学习框架则为复杂模型构建提供强有力的技术支撑。通过融合Python数据分析与深度学习技术,我们能在各领域中发掘数据的无限潜力。无论是商业分析还是医疗健康,掌握这些技能都将为企业和社会带来巨大价值。
177 6