网络运营系列(二):“交易促销型流量”在双11网络容量评估中的智能识

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: “交易促销型流量”新名词get~

首图-图标.png


【阅读原文】戳:网络运营系列(二):“交易促销型流量”在双11网络容量评估中的智能识别

 

 

文/ 康鑫磊(子昊) 、胡欢武(瑾为)

 

如果将日常网络平稳运营比喻成人体的日常态,双11流量则相当于人体血压瞬间暴增,正如血液在人体供应受阻会引起心梗、脑梗,流量洪峰时的网络堵塞也会引起交易的不畅

 

 

如何提前识别双11交易峰值网络流量的隐患,从而确保业务在交易峰值时的网络丝般顺滑,稳如磐石?本文将分享2021年双11 网络流量风险隐患识别的一个场景案例,来真实呈现日常工作中如何通过技术创新实现“更高效率、更低成本、更精细化”的网络运营。

 

 

01

全面上云新机遇

 

在全面上云的大背景下,2021年的双11给网络运营的同学带来了新挑战:

 

  1. 多个BU参加双11大促,数万个应用、多地域、云上云下调用链关系复杂,单纯靠人工手工梳理无法精准识别核心链路和关键节点。
  2. 部分数据密集型业务上云,摆脱了传统独享物理集群的束缚,与交易型业务实例混布在一起,在边缘,泛边缘与接入层的流量路径上有一定程度的重叠和耦合,在流量评估、业务规划、故障诊断上增加了复杂度。
  3. 叠加了公有云业务的本身背景流量。
  4. 国内,海外二个主战场同时作战,国内主场涉及多个地域的数据中心,海外涉及多个国家和地域。
  5. 物理设备叠加集团虚拟化层面的网元实例体量巨大……

 

在过往双11备战中,技术同学最关注的是自己系统在零点流量洪峰中的表现,尤其是极限峰值压力场景下秒级交易大盘是否出现各种‘抖动’,哪怕有一次‘抖动’即使上下波动很小,在技术人眼中这就是遗憾。细节决定成败,对于双11的网络运营,魔鬼般的小细节就藏在这些‘抖动’里……

针对出现的问题,运营团队反复复盘过往各种压测和历次双11真实出现过的不同‘抖动’场景,最终发现了在峰值场景下‘抖动’或多或少存在一些共性特征。这些共性的特征,如果用一个形象的比喻就像是:人体血压瞬间暴增,主动脉虽畅通无阻,但极少毛细血管存在一些小拥塞(如各种热点,冷热负载不均,局部缓存击穿等),如果拥塞的血管正好在心脏附近,则容易造成心梗,甚至有生命危险。


基于这些分析总结,2021年双11,在全面上云的背景下,在往年双11 网络高保套餐的基础上,网络运营团队新增了一个高级检查项——‘防抖动’之交易促销型流量的网络链路精准识别与精准风险防控。这是什么名词?换用一个通俗易懂的解释就是从被动变主动,针对上面提到的毛细血管小拥塞,提前主动筛查它们在血压暴增时是否有爆管的隐患,从而精准识别并定向解决,防患于未然。

 

 

02

挑战:人工规则定义识别

 

什么是交易促销型流量?

什么是交易促销型流量?为什么需要重点关注交易促销型流量?下图是一个典型的应用场景:零点时刻,交易峰值的理想趋势图是一竖一横,即竖直横平(注:横平是因为到达业务预设容量峰值,触发限流导致,符合预期),零点时刻的峰值压力通常是其他时段的成百上千倍

配图1111.png

(注:光看曲线图还没有实际的体感,网络运营君从网上找了一个上世纪某线下商场开业的排队图,大家脑补一下容量峰值压力)

 

从网络视角看零点业务峰值带来的流量都可以认为是交易促销型流量,这些交易促销型流量经过网络全路径相关链路,包括网络虚拟化实例(LB实例、NAT实例、ENI等与网络相关的虚拟化实例) 都需要重点关注。

 

02.jpg

 

理想丰满,而现实骨感。事实上,超大数据中心的流量组成往往十分复杂,尤其当在线业务容器化和微服务化之后,由叠加部分数据密集型业务上云后产生的混布流量。数百万级业务容器规模下,如果能做到零点峰值交易促销型流量全链路精细化识别,那对容量风险将进一步精准化管控,从而对容量精细化规划有较大收益。

 

 

数据密集型业务:典型流量特征的定义,通常流量占比较大,但对网络抖动,拥塞相对交易容忍度更高,典型场景如大数据离线计算业务型业务、图像视频类AI算法训练业务等。

 

 

人工规则定义带来的挑战:

真正的技术挑战是:我们很难用人工规则定义识别清楚这些交易促销型流量的精细化分布;尤其针对毛细血管层面的风险,很难精准识别并定向解决。

 

在超大复杂业务体量下,假如交易促销型流量识别采用传统的人工规则定义方案,有如下劣势:


  • 规则源存在一定的系统偏见

因为系统规则由人定义,业务输入过程中,下述3种情况较为常见:

评估遗漏型-梳理未到位导致规则遗漏,风险未识别;

人为偏见型-定义非核心链路资源,加入黑名单;

资源浪费型-业务评估输入时层层加码,一定程度上造成了部分资源浪费。

 

  • 人工定义的规则结论质量依赖于专家经验

存在一定程度的‘误报、漏报’;需要有专业人士二次分析研判,对人的技能和经验要求较高。

 

  • 工作量大

非常精细的场景下,大体量的规则定义和维护带来的工作量较大。

 

 

 

03

解决方案:“AI网眼”

 

随着算法、算力、大数据技术的快速迭代,人工智能在各种专业领域的应用不断取得新成就和新突破。在上述场景中,“AI网眼”就是一种基于人工智能的网络运营自主原创解决方案。其核心思路是基于全网的数百万链路流量数据,结合全链路压测期产生了大量的交易流量样本,基于算法生成交易促销型流量特征模型,最终由机器给出大促交易相关的网络容量风险模型

 

AI网眼图片.jpg

只是在数百万级链路中看了一眼,风险便已纳入AI 网眼

 

实战效果

 

该方案已用于2021 双11 大促网络容量风险排查实战中,一位项目成员说:“这么大的体量,我不知道如何用规则来检验机器自动识别出来的准确率,但多次随机抽样识别效果确实准确度非常高”。

 

效果一:风险排查:识别并解决了近百个未被关注到的业务网络实例容量隐患风险。

 

 

效果二:人工偏见之纠错:算法识别出之前未被人工规则关注的一些应用系统,这些应用系统属于‘沉默的大多数’,看流量图趋势又确实参加了0点大促流量组成;这些未被关注到的应用系统,是否会成为未来异常流量中‘灰犀牛',值得进一步关注。

 

 

04

未来

 

在《十四五规划和二〇三五远景目标建议》中,人工智能被放在了第一位。正如技术创造新商业,阿里云基础设施网络运营团队也在积极推动内部自动化向智能化技术方向演进,在部分风险预警场景上,结合历史沉淀的海量运营数据,对故障数据进行机器学习和深度数据挖掘。创新性的设计并引入部分AI算法模型用于风险预警。目前仅仅是万里长征第一步,希望此文能给业内同行在方案上带来一些新的视角输入。

 

风正潮平,自当扬帆破浪;任重道远,更需策马扬鞭!

 


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
28天前
|
传感器 运维 物联网
蓝牙Mesh网络:连接未来的智能解决方案
蓝牙Mesh网络:连接未来的智能解决方案
150 12
|
2月前
|
机器学习/深度学习 人工智能 TensorFlow
神经网络深度剖析:Python带你潜入AI大脑,揭秘智能背后的秘密神经元
【8月更文挑战第1天】在当今科技飞速发展的时代,AI已成为日常生活中不可或缺的一部分。神经网络作为AI的核心,通过模拟人脑中的神经元连接方式处理复杂数据模式。利用Python及其强大的库TensorFlow,我们可以轻松构建神经网络模型。示例代码展示了如何建立一个含有两层隐藏层的简单神经网络,用于分类任务。神经网络通过反向传播算法不断优化权重和偏置,从而提高预测准确性。随着技术的进步,神经网络正变得越来越深、越来越复杂,能够应对更加艰巨的挑战,推动着AI领域向前发展。
41 2
|
5月前
|
JavaScript Java 测试技术
基于ssm+vue.js+uniapp小程序的网络游戏交易平台信息管理系统附带文章和源代码设计说明文档ppt
基于ssm+vue.js+uniapp小程序的网络游戏交易平台信息管理系统附带文章和源代码设计说明文档ppt
37 1
|
20天前
|
机器学习/深度学习 数据采集 网络安全
使用Python实现深度学习模型:智能网络安全威胁检测
使用Python实现深度学习模型:智能网络安全威胁检测
77 5
|
21天前
|
5G 网络安全 SDN
网络功能虚拟化(NFV)和软件定义网络(SDN):赋能5G网络灵活、智能演进的关键
网络功能虚拟化(NFV)和软件定义网络(SDN):赋能5G网络灵活、智能演进的关键
44 3
|
22天前
|
传感器 物联网 人机交互
物联网:物联网,作为新一代信息技术的重要组成部分,通过智能感知、识别技术与普适计算等通信感知技术,将各种信息传感设备与互联网结合起来而形成的一个巨大网络,实现了物物相连、人物相连,开启了万物互联的新时代。
在21世纪,物联网(IoT)作为新一代信息技术的核心,正以前所未有的速度重塑生活、工作和社会结构。本文首先介绍了物联网的概念及其在各领域的广泛应用,强调其技术融合性、广泛的应用范围以及数据驱动的特点。接着,详细阐述了物联网行业的现状和发展趋势,包括政策支持、关键技术突破和应用场景深化。此外,还探讨了物联网面临的挑战与机遇,并展望了其未来在技术创新和模式创新方面的潜力。物联网行业正以其独特魅力引领科技发展潮流,有望成为推动全球经济发展的新引擎。
|
4天前
|
移动开发 网络协议 测试技术
Mininet多数据中心网络拓扑流量带宽实验
Mininet多数据中心网络拓扑流量带宽实验
18 0
|
1月前
|
机器学习/深度学习 人工智能 TensorFlow
神经网络深度剖析:Python带你潜入AI大脑,揭秘智能背后的秘密神经元
【9月更文挑战第12天】在当今科技飞速发展的时代,人工智能(AI)已深入我们的生活,从智能助手到自动驾驶,从医疗诊断到金融分析,其力量无处不在。这一切的核心是神经网络。本文将带领您搭乘Python的航船,深入AI的大脑,揭秘智能背后的秘密神经元。通过构建神经网络模型,我们可以模拟并学习复杂的数据模式。以下是一个使用Python和TensorFlow搭建的基本神经网络示例,用于解决简单的分类问题。
42 10
|
2月前
|
云安全 安全 物联网
惊叹:《黑神话:悟空》所在 Steam 发行平台遭网络狂袭,威胁流量猛增两万倍!
8月24日,热门游戏《黑神话:悟空》的玩家发现主要发行平台Steam无法登录,引发“#Steam崩了#”登上微博热搜。起初猜测是在线人数过多导致,但完美世界竞技平台公告表示系遭受DDoS攻击。奇安信Xlab实验室详细解析了此次攻击,发现攻击指令暴增两万多倍,涉及多个僵尸网络。此次攻击对Steam造成严重影响,但也凸显了网络安全的重要性。为保障游戏环境安全,需加强服务器防护并选择可靠的防御公司。德迅云安全提供高防服务器、DDoS高防IP和安全加速SCDN等服务,助力游戏企业提升安全性。
|
2月前
|
机器学习/深度学习 自然语言处理 并行计算

热门文章

最新文章