带你读《Apache Doris 案例集》——06 Apache Doris 助力中国联通万亿日志数据分析提速10倍(1)

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 带你读《Apache Doris 案例集》——06 Apache Doris 助力中国联通万亿日志数据分析提速10倍(1)

作者:联通西部创新研究院大数据开发工程师,刘宇麒、贾涛

 

导读:在数据安全管理体系的背后,离不开对安全日志数据的存储与分析。以终端设备为例,中国联通每天会产生百亿级别的日志数据,对于保障网络安全、提高系统稳定性和可靠性具有至关重要的作用。目前,Apache Doris 在联通体系的落地已支持了30多条业务线和数百个实时作业,不仅帮助联通实现了万亿级安全日志的高效分析和低成本,也为其他运营商提供了成功的参考案例和学习经验,对推动运营商的数字化转型进程具有重要意义。

 

联通西部创新研究院是中国联通在西部地区布局的重要载体,也是中国联通数字化创新能力体系的重要组成部分,承载了集团公司科技创新体系和数字化创新体系的需求。依托联通数科的优质资源及能力底座,在云计算、大数据、物联网、人工智能、网络安全等业务领域具备深厚的技术能力和丰富的项目经验。

 

近些年来,网络高危漏洞数量的增长、DDoS攻击比例的提升、恶意 Bot流量的持续上升使得Web 安全威胁态势愈发严峻,而数字化转型进程的推进在丰富业务创新的同时、也提升了网络空间复杂度、进一步加剧了网络安全风险。这样的背景之下,联通以攻防实战对抗为目标、进行国家级网络空间的安全治理工作,围绕---构建了多级综合防控体系,聚焦于实时监测、攻击溯源、通报预警、应急处置、情报共享等工作,构建数据全生命周期安全管理体系,为客户提供从顶层设计到运营维护一站式服务。

 

在数据安全管理体系的背后,离不开对安全日志数据的存储与分析。以终端设备为例,每天会产生海量的设备日志,这些日志数据记录着各种网络时间和系统操作的细节信息,对于保障网络安全、提高系统稳定性和可靠性具有至关重要的作用。为了更好的管理和分析安全日志数据,联通西部创新研究院应集团要求构建一个集中化日志数据分析平台,满足对事件和日志数据自动化采集、存储、管理、分析和可视化的诉求。这要求集中化数据分析平台具备以下能力:

 

建模分析:基于网络日志数据和告警数据进行规则或智能挖掘,发现潜在的安全事件,例如钓鱼邮件、非法访问等,并进行定向威胁感知。

 

态势大屏:通过多种维度不同监控指标的组合,例如安全事件TOP5等,密切监控当前网络安全态势状况,通过态势大屏呈现攻击威胁的主要分布。

 

追踪溯源:通过对安全事件的快速研判,还原整个攻击链条进行精准的溯源取证,从而保障网络和数据安全。

 

为搭建具备上述能力的集中化日志数据分析平台,在正式搭建之前,结合日志数据的特性及业务要求,我们需要综合考虑考虑如何满足以下要求,以确保平台能高效的支持联通日志分析场景的实际应用:

 

数据接入方面:日志数据具有种类繁多、格式多样化、规模庞大等特点,要求数据平台支持多种日志格式数据的导入,并支持高性能的数据写入。

 

实时性要求方面:为及时监控和了解系统运营情况和存在的问题,高实时性对于数据平台非常关键。这要求平台要实时进行数据同步,保障数据的一致性,并支持数据实时查询,以便获取最新的系统和业务状态。

 

可扩展要求方面:数据平台需要具备计算与存储的拓展能力,以便满足集团及分公司不断增长的数据处理分析需求。

 

在中国联通安全日志数据分析平台的迭代过程中,经历了从基于 Hive 的离线数据仓库到以Apache  Doris为核心的实时数据仓库。从具体业务收益来讲,Apahce  Doris的引入支持了联通30+条业务线和数百个实时作业,为联通带来了存储资源节约50%、百亿级别数据查询秒级响应、数据导入效率提升60%的显著成果,成功实现了降本增效的业务目标;从集团整体价值来通过该平台,联通可以更好地监控运营状态、保障网络安全,为运营商安全管理体系提供了重要的底层支持。总而言之,ApacheDoris在联通体系的落地,不仅帮助联通实现了万亿级安全日志的高效分析和低成本,也为其他运营商提供了成功的参考案例和学习经验,对运营商数字化转型进程的推进有着重要作用。

 

基于Hive的离线数据仓库 

 

在项目一期建设中,我们以Apache Hive 为核心建立了离线数仓,并在其此础上进行了数据仓库分层。当原始数据经过数据采集进入离线数仓后,由 Spark  逐层进行处理,并配合Apache DolphinScheduler 以分钟级调度执行计算作业,最终将数据输出至OLAP  和应用数据库。 

 image.png

 从业务的角度来看,该架构数据流的痛点问题在于数据实时性不足,主要受限于 Hive  的离线批

处理模式,端到端的延迟最短竟然需要10分钟。

 

 构 中ClickHouseOLAP  引擎,但在实际使用场景中发现

ClickHouse 存在以下不足:

 

ClickHouse 并发支持能力不足,无法满足业务需求,例如实时大屏指标的计算与加载缓慢,经常会在业务高峰期出现查询超时。

 

业务中有大量安全事件表需要进行多表 Join, 这些表数据量较大,而Clickhouse 在分布式Join 实现性能较低,时常会出现OOM  问题,为避免该情况发生,常常需要依赖宽表才能缓解,而这既影响了业务的稳定性,也增加了许多额外的维护成本。 

 

由于 ClickHouse 对于数据更新操作支持较弱、更新性能较差,这也限制了它在某些场景下的应用。

 

ClickHouse  使用和运维成本较高,也给我们带来了更高的人工投入成本。 

 

系统选型及落地 

 

随着一期架构问题的逐步暴露,我们迫切需要对数据分析平台进行更新迭代。对于二期建设来说,提升数据的实时性被确立为首要目标,为了实现这一目标,我们计划增加实时数据处理链路,以更好地实现数据的实时收集、处理和查询要求,为系统稳定和网络安全提供更有力的支持和保障。其次,为解决一期平台存在的并发能力不足、多表Join 性能低等核心问题,提升OLAP 引擎性能成为二期建设的的另关键目标,因此亟需对期平台中 OLAP  引擎ClickHouse 进行替换,以满足业务侧日益严格的数据分析和处理需求。

 

在此背景下,我们考虑是否可以只选择一个新的实时数据仓库同时满足以上两个目标,一方面即能帮助我们构建实时数据分析处理链路,另一方面又可以作为性能更强悍、更易用OLAP 析引擎,这样不仅可以简化数据处理流程、提高实时效率,而且可以降低平台运维管理的成本。

 

为了找到符合条件的数据库,我们进行了多方调研和对比研究,最终选择以 Apache  Doris 为核心来构建统一的实时数据仓库体系。为了直观展示 Apache  Doris 的性能和功能特点,我们使用Apache  Doris 与 ClickHouse 进行了对比,其中最直观的感受是 Apache  Doris 在系统并发、Join 性能以及多个功能的易用性都更为领先。  image.png 

更多精彩内容,欢迎观看:

带你读《Apache Doris 案例集》——06 Apache   Doris  助力中国联通万亿日志数据分析提速10倍(2):https://developer.aliyun.com/article/1405719

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
29天前
|
存储 监控 安全
实时记录和查看Apache 日志
Apache 是一个开源、跨平台的 Web 服务器,保护其平台需监控活动和事件。Apache 日志分为访问日志和错误日志,分别记录用户请求和服务器错误信息。EventLog Analyzer 是一款强大的日志查看工具,提供集中收集、分析、实时警报和安全监控功能,帮助管理员识别趋势、检测威胁并确保合规性。通过直观的仪表板和自动化响应,它简化了大规模日志管理,增强了 Apache 服务器的安全性和性能。
|
2月前
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
|
11天前
|
存储 运维 监控
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
中信银行信用卡中心每日新增日志数据 140 亿条(80TB),全量归档日志量超 40PB,早期基于 Elasticsearch 构建的日志云平台,面临存储成本高、实时写入性能差、文本检索慢以及日志分析能力不足等问题。因此使用 Apache Doris 替换 Elasticsearch,实现资源投入降低 50%、查询速度提升 2~4 倍,同时显著提高了运维效率。
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
|
8天前
|
SQL 存储 分布式计算
Apache Doris 2.1.8 版本正式发布
该版本持续在湖仓一体、异步物化视图、查询优化器与执行引擎、存储管理等方面进行改进提升与问题修复,进一步加强系统的性能和稳定性,欢迎大家下载体验。
|
2月前
|
存储 SQL Apache
Apache Doris 创始人:何为“现代化”的数据仓库?
3.0 版本是 Apache Doris 研发路程中的重要里程碑,他将这一进展总结为“实时之路”、“统一之路”和“弹性之路”,详细介绍了所对应的核心特性的设计思考与应用价值,揭晓了 2025 年社区发展蓝图
Apache Doris 创始人:何为“现代化”的数据仓库?
|
2月前
|
SQL 存储 数据处理
别让你的CPU打盹儿:Apache Doris并行执行原理大揭秘!
别让你的CPU打盹儿:Apache Doris并行执行原理大揭秘!
91 1
别让你的CPU打盹儿:Apache Doris并行执行原理大揭秘!
|
29天前
|
存储 SQL 监控
计算效率提升 10 倍,存储成本降低 60%,灵犀科技基于 Apache Doris 建设统一数据服务平台
灵犀科技早期基于 Hadoop 构建大数据平台,在战略调整和需求的持续扩增下,数据处理效率、查询性能、资源成本问题随之出现。为此,引入 [Apache Doris](https://doris.apache.org/) 替换了复杂技术栈,升级为集存储、加工、服务为一体的统一架构,实现存储成本下降 60%,计算效率提升超 10 倍的显著成效。
计算效率提升 10 倍,存储成本降低 60%,灵犀科技基于 Apache Doris 建设统一数据服务平台
|
2月前
|
存储 监控 安全
实时记录和查看Apache 日志
Apache 是一个开源、跨平台的Web服务器,保护其安全依赖于监控活动和分析访问日志。日志分为访问日志和错误日志,前者记录用户请求及响应情况,后者记录服务器错误信息。EventLog Analyzer等工具可集中收集、分析日志,提供直观的仪表板和实时警报,帮助识别趋势、异常和威胁,确保服务器稳定性和安全性,并支持合规管理。
|
2月前
|
机器学习/深度学习 数据采集 DataWorks
数据分析经典案例重现:使用DataWorks Notebook 实现Kaggle竞赛之房价预测,成为数据分析大神!
Python是目前当之无愧的数据分析第一语言,大量的数据科学家使用Python来完成各种各样的数据科学任务。本文以Kaggle竞赛中的房价预测为例,结合DataWorks Notebook,完成数据加载、数据探索、数据可视化、数据清洗、特征分析、特征处理、机器学习、回归预测等步骤,主要Python工具是Pandas和SKLearn。本文中仅仅使用了线性回归这一最基本的机器学习模型,读者可以自行尝试其他更加复杂模型,比如随机森林、支持向量机、XGBoost等。
|
2月前
|
SQL 存储 Apache
Apache Doris 3.0.3 版本正式发布
亲爱的社区小伙伴们,Apache Doris 3.0.3 版本已于 2024 年 12 月 02 日正式发布。该版本进一步提升了系统的性能及稳定性,欢迎大家下载体验。

推荐镜像

更多