运维

首页 标签 运维
# 运维 #
关注
36214内容
|
5天前
| |
来自: 云原生
端到端的ECS可观测性方案,助力云上业务安全稳定
本文介绍了云原生时代保障业务系统可靠性的方法和挑战,重点探讨了阿里云ECS在提升业务稳定性、性能监控及自动化恢复方面的能力。文章分为以下几个部分:首先,阐述了业务可靠性的三个阶段(事前预防、事中处理、事后跟进);其次,分析了云上业务系统面临的困难与挑战,并提出了通过更实时的监测和自动化工具有效规避风险;接着,详细描述了ECS实例稳定性和性能问题的解决方案;然后,介绍了即将发布的ECS Lens产品,它将全面提升云上业务的洞察能力和异常感知能力;最后,通过具体案例展示了如何利用OS自动重启和公网带宽自适应调节等功能确保业务连续性。总结部分强调了ECS致力于增强性能和稳定性的目标。
云服务诊断测评报告
作为一名开发工程师,我日常负责云资源的运维与管理,尤其注重监控核心云资源状态以规避风险 通过云服务诊断涵盖健康状态和诊断两大核心功能能够有效提升我们的工作效率
Serverless Argo Workflows大规模计算工作流平台荣获信通院“云原生技术创新标杆案例”
2024年12月24日,阿里云Serverless Argo Workflows大规模计算工作流平台荣获由中国信息通信研究院颁发的「云原生技术创新案例」奖。
|
5天前
| |
来自: 云原生
AI + 可观测最佳实践:让业务从“看见”到“洞察”
本文介绍了AI Ops的概念及其在提升系统运维效率、洞察力和可观测性方面的作用。主要内容分为三个部分:一是监控、观测与洞察的区别及挑战,强调了数据整合和语义对齐的重要性;二是AI与计算如何重塑可观测性,通过UModel数字图谱和多模态存储分析架构实现数据联通;三是最佳实践与未来展望,展示了阿里云AI Stack可观测解决方案的应用案例,并总结了可观测性的四个发展阶段,最终愿景是借助AI力量让每个人成为多领域的专家。
|
5天前
|
CentOS 7系统 OpenSSH和OpenSSL版本升级指南
本文详细介绍如何在CentOS 7系统上升级OpenSSH和OpenSSL至最新稳定版本(OpenSSH 9.6p1和OpenSSL 1.1.1w),解决多个已知安全漏洞(如CVE-2023-51767等)。涵盖环境说明、现存漏洞、升级准备、具体步骤及故障排查,确保服务器安全。建议先在测试环境验证,再应用于生产环境。
|
5天前
| |
来自: 云原生
天财商龙:云上卓越架构治理实践
天财商龙成立于1998年,专注于为餐饮企业提供信息化解决方案,涵盖点餐、收银、供应链和会员系统等。自2013年起逐步实现业务上云,与阿里云合作至今已十年。通过采用阿里云的WA体系,公司在账号管理、安全保障、监控体系和成本管控等方面进行了全面优化,提升了业务稳定性与安全性,并实现了显著的成本节约。未来,公司将持续探索智能化和全球化发展,进一步提升餐饮行业的数字化水平。
灵骏智算实例异常预测技术
本文介绍了灵骏智算实例异常预测技术,旨在提前预测GPU等设备的故障,确保大模型训练的稳定性。文章首先探讨了为何需要进行异常预测,指出大规模GPU集群在大模型训练中面临的稳定性挑战。接着阐述了预测的可行性和原理,通过分析复杂系统中的小异常逐步积累导致故障的现象,利用时序指标和关键指标分布模式进行预测。目前该技术可在1-250分钟内提前预测故障,准确率达95%以上,召回率超过20%。最后介绍了系统的集成与应用,强调了端侧部署预测模型的优势,包括降低网络开销、保护用户数据隐私等。
|
5天前
| |
来自: 云原生
Landing Zone一站式上云框架场景和实践
本文将介绍阿里云Landing Zone的方案、应用场景及新功能。Landing Zone是云上安全可控、可扩展的架构,涵盖资源规划、财务管理、身份权限、合规审计、网络规划、安全防护、运维管理和自动化模块八大方面,帮助企业敏捷创新并满足IT治理需求。具体应用包括零售行业的多品牌管理、生命科学的数据交换、自动驾驶的合规监管和金融行业的严格合规要求。新功能则聚焦于财年上线的统一管控产品,如配额管理、Prometheus监控和网络IPAM方案,以及降低跨账号安全门槛。
|
5天前
| |
来自: 云原生
架构师工具箱:Well-Architected云治理提效实践
本次分享基于阿里云Well-Architected Framework的最佳实践案例,涵盖企业从上云到优化的全过程。安畅作为国内领先的云管理服务提供商(Cloud MSP),拥有800多名员工,其中70%为技术工程师,为企业提供架构安全、数据智能等技术服务。内容包括Landing Zone与Well-Architected的关系、企业云治理现状及需求分析,重点探讨了安全合规、成本优化、资源稳定性和效率提升等方面的最佳实践,并通过具体客户案例展示了如何通过自动化工具和定制化解决方案帮助企业提升云上业务价值。
|
5天前
| |
来自: 云原生
刚好够用的授权:如何在云上实施最小权限原则
本章探讨如何在云上实施最小权限原则,确保企业安全与效率的平衡。通过阿里云RAM管理身份和权限,帮助企业识别和解决过度授权、闲置账户及高危权限问题。主要内容包括:最小权限原则的概述与挑战;云上最小权限的最佳实践路径,如初始规划、业务支撑及权限收敛;使用AccessAnalyzer识别过度授权和外部访问风险。通过这些工具和服务,企业可以有效提升安全性,减少潜在威胁。
免费试用