两种策略可保护企业免受下一次大规模技术故障的影响

简介: 两种策略可保护企业免受下一次大规模技术故障的影响

本文来源:企业网D1net

CrowdStrike事件暴露了允许软件供应商深入访问网络基础设施的潜在风险,引发了对数字服务集中化的广泛担忧。本文探讨了如何通过多样化供应商和系统,以及强化应急计划,来降低类似大规模故障的风险。随着全球企业越来越依赖第三方软件和云服务,抵制“将所有鸡蛋放在一个篮子里”的诱惑,变得尤为重要。本文提供了防范措施,并以Netflix和Rogers Communications的案例分析,展示了如何通过规划和演练应对灾难性事件,保障业务连续性。


7月的CrowdStrike事件清楚地展示了允许软件供应商深入访问网络基础设施的风险,这也引发了人们对数字服务集中在少数几家公司手中的担忧。一篇预见性的Reddit帖子指出,CrowdStrike对于世界上许多最大企业来说是一个威胁载体,同时也是一个数据的金矿。


鉴于7月19日CrowdStrike失败更新后引发的全球计算机停机事件,审慎的高管们正在问:“我如何防止类似的事情再次发生?”


随着大型科技公司市场集中度的提高,类似的大规模故障完全有可能再次发生。根据Synergy Research Group的数据,三大领先的云服务提供商——Amazon、Microsoft和Google——占据了全球市场的67%,其中,仅Amazon在2023年底就占据了31%的市场份额。


有两种策略可以减轻类似软件故障的影响:多样化网络基础设施和模拟故障处理。在讨论防御措施之前,我们先来讨论一下引入CrowdStrike或其他第三方软件供应商进入企业所带来的风险。


CrowdStrike崩溃事件只是冰山一角


将设备访问权限授予外部软件或服务供应商会带来以下风险:


  • 失去对网络功能的访问(如CrowdStrike事件中所发生的那样)


  • 数据的未经授权访问(你的知识产权和客户数据安全吗?)


  • 通过聚合数据对你的业务活动进行可视化监控


此外,你的数据安全现在依赖于网络安全公司或云服务提供商的安全实践。


考虑一下“移动设备管理”或“设备监控”工具,它们中的大多数实际上都是rootkit,可以让第三方100%控制你公司的设备。对于任何拥有专有知识产权并希望保密的公司来说,这种做法似乎都不明智。


没错,CrowdStrike确实搞砸了,并以一种极其壮观的方式导致数百万台Windows计算机瘫痪,但这只是冰山一角,更大的威胁——我们集体而方便地忽视了——是某个外部实体掌控了你的业务运营。


高级安全软件至关重要,但你在提供安全仪表板的名义下将网络的钥匙交给了别人。


人们担心Facebook的跟踪,并关闭第三方Cookies以保护私人生活,但像CrowdStrike这样的软件可以监视、跟踪每一台公司电脑,从最底层的实习生到CEO。与之相比,Cookies只是小问题。


现在,即使CrowdStrike本身是可靠的,他们的软件也按预期运行,但如果有人入侵了CrowdStrike会怎样?理论上,攻击者可能会获得航空公司网络、银行网络以及全球各大企业的访问权限,这让我感到担忧。如果你给予某个供应商如此广泛的网络访问权限,这种风险必须被评估。


那么,作为CIO或CISO,你如何减少这些大型科技公司发生另一场大规模故障的风险呢?


为失败做好准备:规划、演练、预期


减少大规模系统故障的关键在于为灾难性事件做好规划,并演练应对措施。将应对失败的过程纳入日常业务实践中。当失败是出乎意料且罕见时,处理它的流程往往未经测试,甚至可能导致使情况恶化的行动。


建立一个能够适应和应对故障的网络和团队。记得保险公司以前运行自己的数据中心,并每年进行两次灾难恢复测试吗?如今很少有公司在应急计划上做到如此彻底,但一些公司,如Netflix,通过混沌工程树立了良好的榜样。Netflix的Chaos Monkey开源软件通过引入故意的系统中断,模拟现实世界中的故障,以测试系统的弹性。


要像Netflix,而不是像Delta Airlines那样:在CrowdStrike更新后,Delta的关键机组人员跟踪系统大部分时间都处于离线状态,几乎持续了一周。


多样化你的供应商和系统


减少大规模故障的第二个策略是避免因数字技术供应商的集中化而造成的软件单一化。这虽然更复杂,但值得尝试。


一些公司有一项政策,即从三到四个不同的供应商那里购买核心网络设备。虽然这使得日常管理变得稍微困难一些,但他们有信心,即使一个供应商出现问题,他们的整个网络也不会瘫痪。无论是在技术领域还是生物学中,单一文化都极易受到能够摧毁整个系统的流行病的攻击。


在CrowdStrike的情境下,如果公司网络是Windows、Linux和其他操作系统的混合体,那么损害就不会如此广泛。


对于“多样化系统”这一观点,2022年7月加拿大的Rogers Communications网络中断就是一个例子,这家加拿大电信提供商经历了一次重大服务中断,导致其有线互联网和移动网络服务停止,影响了超过1200万用户,持续时间长达26小时。


恢复工作受到阻碍,因为Rogers的员工通常是使用Rogers的蜂窝和互联网系统的用户,而这些系统当时崩溃了。那些不在办公室的员工无法访问互联网,甚至无法使用他们的手机。一份第三方审查报告指出,Rogers的员工在中断发生14小时后才得以访问记录故障根本原因的关键错误日志。


结 论


第三方软件供应商和云服务已经成为IT领域不可或缺的一部分,但如果我们想要将业务风险降到最低,就必须抵制将所有鸡蛋放在一个篮子里的诱惑。

从CrowdStrike事件中得到的教训是:多样化你的供应商和系统,并重新审视你的应急计划。


版权声明:本文为企业网D1net编译,转载需在文章开头注明出处为:企业网D1net,如果不注明出处,企业网D1net将保留追究其法律责任的权利。



相关文章
|
23天前
|
数据管理
在制定恢复策略时,有哪些常见的挑战和应对策略?
在制定恢复策略时,有哪些常见的挑战和应对策略?
|
2月前
|
存储 监控 安全
强化数据丢失防护:五大策略助力数据分类与安全升级
强化数据丢失防护:五大策略助力数据分类与安全升级
|
3月前
|
数据管理
在制定恢复策略时的挑战和应对策略
在制定恢复策略时的挑战和应对策略
|
6月前
|
存储 安全 网络安全
云端防御策略:确保云计算环境下的网络安全与信息完整性
【2月更文挑战第29天】 随着企业加速数字化转型,云计算已成为支撑现代业务架构的关键。然而,云服务的广泛采用也带来了前所未有的安全挑战。本文深入探讨了云计算环境中网络安全和信息保护的重要性,分析了云服务模型(IaaS, PaaS, SaaS)中存在的安全风险,并提出了综合性的安全策略,包括数据加密、访问控制、威胁检测与响应机制等,以增强云基础设施的安全性和数据的保密性、完整性及可用性。文章旨在为云服务用户提供战略层面的安全指导,帮助他们在享受云计算带来的便利的同时,有效防范潜在的安全威胁。
|
负载均衡 API 数据库
【韧性架构设计】软件韧性:从意外中恢复的 7 个必备因素
【韧性架构设计】软件韧性:从意外中恢复的 7 个必备因素
|
人工智能 监控 供应链
应对2023年不可避免的数据泄露的5个步骤
应对2023年不可避免的数据泄露的5个步骤
187 0
|
存储 传感器 监控
为什么数据安全十分重要?影响数据安全因素有哪些
数字化转型正在深刻地改变当今企业运营和竞争的方方面面。 企业创建、控制和存储的数据量正在不断增长,并推动了对数据治理的更大需求。
648 0
为什么数据安全十分重要?影响数据安全因素有哪些
网络舆情应对策略建议
在舆情应对工作过程中,或多或少地会暴露出一些不足和存在的问题,那么针对这些问题应该如何解决呢?下面小编为大家整理了一些舆情策略建议,可供参考。
|
存储 监控 安全
IT解决方案如何为网络基础设施做好应对灾难的准备
企业需要制定灾难恢复计划,以确保员工的健康和安全并减少或限制停机时间,以便无论发生什么样的灾难都能继续正常运行业务,关键是积极主动性。以下是7条必要的IT解决方案建议,以确保企业基础设施的网络和技术能够抵御任何灾难。
192 0
|
安全 网络安全 Android开发