聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
本文讲述作者如何解决客户集群中出现的OOM(Out of Memory)和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征,还深入探讨了排查过程中的关键步骤和技术细节。
ROS CDK提供Asset类,将本地文件转化为云资源,通过ROS CDK部署时,自动上传到指定的OSS Bucket。ROS CDK简化了基础设施即代码的流程,通过TypeScript、JavaScript等编程语言代替JSON或YAML模板,提高了效率和安全性。在实际应用中,通过ROS CDK和OSS,可以将本地博客项目打包并部署到阿里云OSS,实现静态网站的云托管。整个过程包括初始化项目、配置凭证、打包博客内容、通过CDK将内容部署到OSS Bucket,以及配置静态网站托管和自定义域名。
本文围绕阿里云CSI(Container Storage Interface)镜像构建的实际案例,探讨了一系列优化容器镜像的最佳实践。
针对本地存储和 PVC 这两种容器存储使用方式,我们对 ACK 的容器存储监控功能进行了全新升级。此次更新完善了对集群中不同存储类型的监控能力,不仅对之前已有的监控大盘进行了优化,还针对不同的云存储类型,上线了全新的监控大盘,确保用户能够更好地理解和管理容器业务应用的存储资源。
本文介绍阿里云智能媒体服务IMS,围绕视频剪辑及数字人训练中的抠图需求,如何运用 绿幕抠图、实景抠图能力,实现高效、便捷的视频制作及合成体验。