点击链接下载查看完整版内容👉:《阿里云安全白皮书(2024版)》
点击链接下载查看上文👉:带你读《阿里云安全白皮书》(二十)——云上安全重要支柱(14)
面向线上威胁的快速响应与恢复
在严峻的攻防态势下,综合业务灵活性、成本的考虑,很难做到绝对安全,但是需要追求风险可 控的安全。因此必须要考虑线上出现风险后,如何动态地控制风险。阿里云为了帮助客户控制风险, 建设了一体化的安全运营能力,帮助客户在极端威胁下快速感知风险、响应风险、恢复数据及服务。
安全对抗不是单个系统、单个组织、单个国家的事情,只有将各方关联起来,进行联动防御,才 能取得更好的效果。为履行数字基础设施的社会责任,阿里云还推出一系列机制,压制黑灰产的 云上行动,为社会的安全稳定做出贡献。
1 安全运营能力一体化
软件实施的疏漏或云资源的不当配置会引发线上安全漏洞,外部恶意攻击者便有机会利用这些漏 洞侵入系统,进行数据盗窃、植入勒索软件等非法活动,严重威胁企业信息安全。漏洞类型错综 复杂,而攻击手法又变幻莫测,成为了当前企业在安全领域中的一大严峻挑战。
“如何将线上威胁检测能力全面覆盖企业资产”“如何精准识别具体风险点”“如何快速、稳定、 无损地完成风险治理”,这是对企业安全响应能力的严峻挑战。
阿里云云安全中心从事前、事中、事后全流程的角度出发,以资产数据、风险识别、风险治理为 重点建设方向,建设了一体化的安全运营能力体系。为企业克服上述挑战,提供了强大的能力支持。
1.1 全面可视的资产梳理
基于阿里云标准化的资产定义、API,阿里云可以帮助客户自动化地生成云上业务的架构图。客 户可通过该架构图分析云上应用的互联网暴露情况、云内的 VPC 内部的流量、云服务的调用关系。 解决了风险管理中的“影子资产”痛点问题,为下一步的风险管理、检测与响应、安全加固打下 坚实的基础。
注 *: 影子资产,指那些在资产统计中没有明确列出,但对机构的风险水平有一定影响的资产。
1.2 及时联动的威胁情报分析
面对严峻的安全威胁,阿里云建设了一系列安全能力,能够帮助客户集中处理来自多云环境、多 账户和多产品的告警和日志数据,并从中分析出潜在威胁,通过 SOAR(威胁分析与响应服务响 应编排)完成自动化、流程化安全响应。
- 威胁情报共享
威胁情报不只需要关注自持资源的常规安全威胁,还需要能够结合全球威胁情 报,进行跨产品的综合评估。客户可在阿里云获得最新的安全情报,并通过云 上安全产品,即时具备检测与防护能力。
为面向社会共享威胁情报,阿里云建设了公开的 AVD 漏洞库,将全球开源安 全漏洞情报及其分析结果向社会公开分享。针对重大安全缺陷,会及时将检测 规则集成到云安全中心,并推动告警信息到客户侧,帮助客户更好地应对安全 威胁。
- 联动防御威胁
阿里云还具备跨产品联动防御、防御策略辐射多客户的能力。举例说明,众多客 户均授权了云安全中心来分析日志、执行防御动作,当其中某客户被新型勒索病 毒入侵后,阿里云能够从该用户主机行为日志中识别该病毒,并拦截其进一步横 向移动。这一入侵特征在经过分析后,会进入到安全策略库中,其它客户也可以 基于云安全中心的能力,快速识别此类新型勒索病毒。该策略也会同步到云防火 墙规则中,能够通过云防火墙标记、告警、拦截连向病毒控制中心的请求。通过 这样的联动防御,可以大大提升云上众多客户的安全威胁防御能力。
1.3 高效的风险识别
基于全面的资产梳理,阿里云利用其技术领先的安全扫描与巡检能力,建立了一套高效的风险识 别与治理体系,能够自动帮助客户定期检查云资源,包括识别互联网暴露风险、配置风险、漏洞 风险及身份权限管理风险。另外还通过无代理技术等方式,规避了风险识别阶段的稳定性风险。
在风险识别和分析过程中,阿里云不仅仅依赖单一信息来源,而是整合多方面 的信息进行综合分析。当存在漏洞的服务被暴露于互联网上时,该风险的预警 级别会因为同时满足“存在漏洞”和“对外开放于互联网”这两个条件而显著 提高,这样有助于客户科学合理地确定风险治理的优先顺序。
1.4 精准、稳定的风险治理与业务恢复
在基础安全领域,安全专家们面临着诸多日常而琐碎的简易任务,诸如进行安全审查、处理木马 与挖矿软件等事宜。这些繁杂的工作大幅度占用着高级安全专家的时间和精力。因此,那些对于 企业内部环境了如指掌、熟练掌握竞争对手信息、并能深入分析攻击者行为模式的专家们,难以 腾出更多资源聚焦于至关重要的网络攻防对抗及深度安全研究领域。
基于自动化响应编排 SOAR 能力,可以将安全事件运营自动化、流程化, 从而提升安全响应速度。 自动化编排系统将安全专家从日常繁重琐碎的工作中解放出来,集中精力应对真正需要处理的安 全事件。自动化剧本也可积累安全运营的经验,将人员的经验转化为可解释、可执行的自动化剧 本沉淀在企业内,更利于经验的传承。响应编排 SOAR 能够以比人工快得多的速度对大量的攻 击告警事件和其他数据进行初步处理,并从中过滤出真正需要人员关注的重点事件,以进一步跟 踪处置。
响应编排 SOAR 能力适用于安全运营过程中的调查、检测、响应、溯源、经 验积累等各个环节,并不限于事件响应。自动化剧本支持对安全事件进行信息 富调查、联动处置等流程,减少重复性劳动,提升安全事件的平均响应时效。 响应编排 SOAR 可以定期执行任务剧本,可以设定定期运行巡检任务。人工 运行剧本可以按需手动执行特定的任务。企业可通过响应编排 SOAR 的各种 安全组件,调用云防火墙、云 WAF、主机安全以及本地威胁情报等各种安全 设备的安全能力,进行调查、分析、处置等动作。云安全中心支持一键修复能力, 能够自动修复云资源错误配置、账号身份权限错误配置等问题。通过这一系列 机制和能力,云上客户可实现人与工具、工具与工具之间的有效协作,将安全 设备作为一个完整的整体,可以节约人效 120 倍,防御效果提升 10 倍以上。
除响应速度的提升以外,阿里云提供了一系列能力支持客户进行风险行为拦截。 如支持安装 RASP 工具来保障业务“带洞运行”时的基本安全水位,动态无 损地防御恶意行为;统一的 one-agent 防护架构,还可以通过日志与流量结 合分析,发现恶意攻击行为,并自动化拦截恶意命令。
遭遇攻击后,迅速恢复业务运作十分重要。云备份(Cloud Backup,原混合 云备份 HBR)作为阿里云统一灾备平台,是一种简单易用、敏捷高效、安 全可靠的公共云数据管理服务,可以为阿里云 ECS 、RDS 数据库等敏感 资料,提供备份、容灾保护以及策略化归档管理能力。客户可以针对敏感资产, 开启对应产品的自动备份功能,一旦被入侵或蠕虫攻击,立刻恢复正常业务 运行。
1.5 专业的安全服务
阿里云提供了完整的方案,帮助企业解决不同场景下的安全专家资源不足的困境。
在日常场景下,阿里云提供了渗透测试服务,以攻击者思维,模拟黑客对业务 系统进行全面深入的安全测试,帮助企业挖掘出正常业务流程中的安全缺陷和 漏洞,助力企业先于黑客发现安全风险,防患于未然。
同时,阿里云可支持企业组织与协调红蓝对抗,由蓝军负责发起攻击、红军负 责内部防御,通过对抗的形式深入挖掘企业内部的安全风险。
针对重点业务的重保时期,可采购阿里云的“重保护航服务”,由专人在特定 时间段,提供 7*24 的全方位守护。通过重要时期安全保障运营服务,开展梳 理筹备、摸底评估、布防加固、模拟演练、值守保障、整改优化等一系列安全 工作,能够系统化提升企业整体的安全防护监测、应急响应、分析溯源能力。
阿里云在安全服务领域具备深厚的积累与丰富的实践经验,曾承担过 2023 杭 州亚运会、2024 巴黎奥运会等重大国际体育赛事的安全保障工作,并成功保 障 0 安全事故。
2 场景演练:防勒索病毒
借助比特币等数字货币的匿名性,勒索攻击在近年来快速兴起,给企业和个人带来了严重的威胁。 越来越多的勒索病毒集成了丰富的攻击模块,在业务场景复杂多样的背景下,企业常因口令管理、 访问控制等原因而遭受勒索病毒的攻击。勒索病毒会严重影响用户业务,带来严重的数据泄露、 业务中断、经济损失,为此阿里云提供了完整的防勒索解决方案。
● 服务器安全加固:支持服务器漏洞、弱口令的检测及一键修复,协助用户做好 服务器的安全加固,避免用户服务器被入侵。
● 勒索病毒查杀:支持对大量已知勒索病毒的实时防御,在企业主机资源被病毒 感染的第一时间进行拦截,避免文件被加密勒索。
● 诱饵目录:针对新型未知的勒索病毒,通过放置诱饵的方式一旦识别异常加密 会立刻拦截同时触发告警,通知用户进行防御。
● 关键文件备份:和文件备份服务合作,定期对指定文件备份,在文件被加密时 能通过文件恢复的方式找回,做到万无一失。
基于上述一体化的安全运营能力,云上客户可高效地发现、响应勒索攻击事件, 并快速恢复业务系统。
3 联合对抗黑灰产
阿里云作为基础设施提供商,正在积极承担社会责任,为云上租户提供多种产品能力和解决方案, 从而帮助租户应对黑灰产对云上资源的威胁。
除网络攻防领域的对抗外,阿里云也在响应国家的相关法规要求,与监管部门 紧密配合,建立了一套对云上黑灰产团伙的联合压制措施,全力守护一个健康、 有序、安全的云环境。
在“云上安全共同体”的理念引导下,阿里云还将持续投入对黑灰产攻击态势 的研究工作,持续优化安全解决方案与产品能力,为云上租户着想,保障云环 境的安全与稳定,也为社会的稳定运行贡献一份力量。
面向攻击的安全高可用
随着攻击态势的加剧和攻击规模的扩大,部分攻击已威胁到云服务的可用性,而云服务的可用性 直接关系到用户数据的完整性和可用性。具体而言,特定类型和规模的攻击能够严重地破坏流量 通道、业务集群乃至机房的物理基础设施,这不仅威胁到业务系统的持续运行能力(即数据可用 性受到威胁) ,还极易导致数据在传输、存储或处理过程中受损或丢失,导致数据的完整性受到 破坏,给用户带来难以估量的损失。
长期以来,阿里云持续开展着系统化的安全高可用架构设计,并进行相关的能力和机制建设工作, 以守护用户数据完整性与可用性。其目标是构建一个既安全又高度可用的云环境以确保用户数据 在面对攻击威胁时始终保持安全可用的状态,并随时供用户调用。
1 面向攻击的安全高可用设计
1.1 多维度隔离机制
云上基础产品采用多租户的架构。以 ECS 举例,同一物理机上的 ECS 实例会分配给不同的用户。 因此,实例之间的隔离对各个用户来说是重要的安全保障。阿里云在计算、存储、网络等方面建 立了多维度的隔离机制,充分实施租户间隔离架构,以确保在面对攻击时各个用户之间不会相互 影响。
1.1.1 计算资源的隔离
阿里云提供的计算能力采用多种安全加固方式进行计算资源隔离,包括:
● 虚拟化隔离:使用自研 Hypervisor 和 MoC 设备将单一物理主机切分为多个 相互独立的虚拟机。通过限制虚拟机之间可使用的资源,如操作系统、CPU 份额、内存空间和磁盘资源,能防止单一用户在物理机上消耗大量资源导致的 性能影响。
● 容器隔离:容器技术(如 Docker)通过操作系统级别的虚拟化,在单一操作 系统内核上运行多个隔离的用户空间实例。容器共享主机的操作系统核心,但 通过命名空间(Namespace)对文件系统、网络设备、进程 ID 空间等进行 隔离,通过控制组(Cgroups)对资源使用(如 CPU 时间、内存)进行限制, 实现了轻量级的资源隔离。
1.1.2 存储的隔离方式
存储资源的隔离主要是为了保护数据的隐私和安全,具体方式包括:
● 多租户架构:云存储服务通过逻辑上的多租户架构,确保不同用户的存储资源 在逻辑层面完全隔离,即使存储在相同的物理设备上,也通过访问控制和身份 验证机制确保数据不会被非授权用户访问。
● 加密存储:对存储的静态数据进行加密处理,支持选择主流加密算法,密钥管 理独立于存储服务,进一步增强数据的安全性。
1.1.3 网络的隔离方式
网络隔离是确保云环境中服务间安全交互的关键,具体实现方法有:
● 虚拟私有云(VPC): 为每个用户创建一个逻辑上的隔离网络环境,用户可 以自定义 IP 地址范围、子网、路由表和网络访问控制列表(ACL),实现网 络流量的细粒度控制。
● 安全组和网络 ACL:安全组工作在网络层,根据端口和协议控制入站和出站 流量;网络 ACL 更侧重于子网级别,提供更基础的防火墙规则,两者结合使 用能有效控制网络访问。
● 私网连接:云产品提供服务时,通过 PrivateLink 等方式,提供从企业内部网 络到云服务的专用、高带宽、低延迟的网络连接, 数据不在公共互联网上传输, 提高了数据传输的安全性和可靠性。
1.2 动态负载均衡及弹性扩展
阿里云建设了实时容量管理能力,能够预测和调整系统资源,以确保满足当前和未来的业务需求, 在避免资源过剩造成浪费的同时,防止系统因资源耗尽而过载,导致性能下降、响应时间延长甚 至服务中断。此外,容量管理提倡采用弹性架构,使系统能够根据负载自动扩展或收缩资源。这 种设计确保了系统在面对突发负载和恶意攻击时仍能保持稳定,避免因固定资源限制造成的性能 瓶颈。
基于阿里云内部快速全面的容量监控,云平台可以根据负载情况动态对云服务进行扩缩容。借助 阿里云底层的海量资源进行弹性扩展,不仅能够根据业务需求和资源使用情况合理规划和调整资 源分配,还可以有效抵御 CC 攻击或其他资源耗尽攻击。
1.3 数据冗余及同步方案
在架构设计阶段,我们为内部各类系统的数据存储设计了数据冗余和多级备份方案,通过数据复 制和备份,确保用户资料数据的安全性。
- 数据冗余
所有数据的读写最终都会被映射为对阿里云数据存储平台上的文件的读写。阿 里云提供了一个扁平的线性存储空间,在内部会对线性地址进行切片,一个分 片称为一个 Chunk(中文含义为块) 。每一个 Chunk,阿里云都会复制成三 个副本,并将这些副本按照一定的策略存放在存储集群中的不同数据节点上, 保证数据的可靠性。
- 数据同步
阿里云服务即时或定时地将运行时关键数据传输到其他位置进行冷热备份。在 出现数据遭遇删除、丢失或损坏时,我们可以将云服务当前使用的数据直接切 换到备用实例上,减少故障影响时间,同时最小化潜在的数据丢失量。
对于用户侧存储的数据,阿里云通过建设一系列可选的数据冗余能力,支持用户保障数据的完整 性与可恢复性,数据冗余能力因产品品类不同存在差异,以数据库为例:
● 主从复制:将操作数据实时同步到多个 region,例如将利用数据库 binlog, 将数据库数据实时同步至其他数据库实例,在主数据库存在异常时,从数据库 能够迅速接管,确保服务的连续性。
● 分布式数据库:通过将数据分布存储在不同集群的多个节点上,防止由于单一 节点被攻击导致的全局性问题,提高云平台可用率。
● 定期备份:按照设定的时间表自动执行数据备份,确保在数据丢失或损坏时能 够快速恢复。通过在地域间的数据同步,实现数据的分布式存储,降低访问延 迟 ,并为数据容灾提供解决方案。
2 严密的安全和可用性监控
2.1 全方位物理安全监控
在物理安全方面,我们的数据中心配备了先进的安全监控设施,包括全天候的视频监控、入侵检测、 防火墙等。通过多层次的物理安全防护,以确保数据中心的安全性和可靠性。具体措施包括:
● 视频监控与入侵检测:在数据中心内外安装高清摄像头,实施 24/7 的视频 监控,实时监测异常活动。同时,配备入侵检测系统,识别并阻止未经授权 的访问。
● 严格的访问控制:实施严格的访问控制政策,包括生物识别技术、智能卡等, 确保只有授权人员能够进入敏感区域。所有进出记录均被保存,以备审计和追溯。
● 环境监测与灾害预警:配备环境监测系统,实时监控数据中心的温度、湿度、 电压等环境参数。同时,建立灾害预警机制,及时应对自然灾害、火灾等突发 事件,保障数据中心的安全运行。
2.2 全链路攻击行为监控
在阿里云内部,我们在多个位置部署了多种网络防护设备,以防止来自互联网的各类攻击对云平 台可用性带来的问题。
● 在云网络各个出入口,阿里云部署了自研的 Beaver, Beaver 是集流量检测、 安全编排、流量日志等功能为一体的高性能云安全平台,发现及处置云上僵尸 网络、蠕虫攻击、0day 漏洞、Web 攻击、Webshell、反弹 Shell、暴力破解、 内部 DDoS、挖矿、数据泄露、信安等各类安全事件,为阿里云、公有云租 户及专有云客户提供基础的入侵检测和默认防御等安全能力。
● 阿里云通过各类防火墙,限制用户可访问的网络区域,将用户必需的服务暴露 到公网,降低云平台自身供给面,防止各种入侵行为可能导致的阿里云业务受损。
● 云平台各个应用访问入口,都部署了自研的 WAF,在用户请求真正到达服务 端进行处理前,提前解析业务请求,识别恶意攻击行为,提前完成对 Sql 注入、 SSRF、XSS 攻击的阻断,防止由于系统漏洞影响其他系统。
● 阿里云与全球威胁情报平台合作,获取最新的攻击信息和防护措施,不断更新 和优化内部安全策略,提高系统的防护能力。
3 健全的应急响应机制
3.1 有效的攻击阻断机制
在面对攻击时,我们设计了一套高效的阻断机制,能够迅速隔离受影响的部分,防止攻击扩散。 自动化的安全策略调整和实时的系统修复,确保业务中断时间降到最低。具体措施包括:
● 自动化攻击阻断:通过自动化工具和脚本,系统能够在攻击发生时自动执行阻 断操作,如调整防火墙规则、限制流量、隔离影响设备等,迅速阻止攻击的扩散。
● 快速响应团队:建立快速响应团队,负责监控和处理安全事件。团队成员具备 丰富的实战经验和专业技能,能够在短时间内做出准确判断和有效处置。
● 持续改进与优化:在每次攻击后,我们都会进行详细的事件分析和总结,不断 改进和优化我们的防护策略,提高系统的防御能力。
3.2 灵活的迁移策略
阿里云的计算与网络服务深度融合智能运维技术,在故障发生,或攻击行为影响其他用户时,能 主动发现性能劣化、网络拥堵等场景,此时,阿里云服务将主动发起业务无感的迁移策略。阿里 云常用的迁移策略有以下几类:
● 主备切换:通过配置主备服务器,当主服务器出现故障时,系统会自动将业务 切换到备服务器,确保服务不中断。主备切换可以在秒级甚至毫秒级内完成, 极大地减少了故障对用户的影响。
● 多活数据中心:多活数据中心是指两个或多个数据中心同时处理业务,并且相 互备份。当其中一个数据中心出现问题时,其他数据中心可以立即接管所有业 务,确保服务的高可用性。
● 沙箱流量迁移:当检测到恶意流量时,系统会将这些流量迁移至沙箱环境中, 而不影响正常的业务流量。同时,阿里云安全服务将通过监测沙箱中的流量行 为,获取攻击者的攻击模型,为后续的安全防御提供数据支持。
3.3 快速数据恢复机制
我们依托高度自动化的备份与恢复机制,确保在数据遭遇意外丢失或损坏的紧急情况下,能够迅 速恢复业务运作。我们精心设计了多维度的数据恢复策略,覆盖从细粒度的文件级别到全面的应 用级别,全方位保障恢复的高效性与数据的完整性。具体策略如下:
● 无缝主从切换策略:实施高效的 IP 切换机制,当主数据库系统遭遇故障时, 系统自动将访问流量无缝转移至备用数据库,确保系统服务不间断,快速恢复 稳定运行状态。
● 智能自动化备份体系:集成先进的自动化备份工具,定期对核心数据进行全面 扫描与备份,确保在数据丢失或损坏时,能即刻启动恢复流程,最小化对业务 的影响。
● 精准多版本数据回溯:运用多版本数据恢复技术,能够在数据发生错误或被篡 改时,快速恢复到正确版本,保障数据的完整性和准确性。
● 实战化灾难恢复演练:定期组织灾难恢复实战演练,全面检验并优化恢复预案, 不断提升系统的恢复能力与响应速度。