一站式智能运维解决方案,企业系统的隐形守护者

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 数字化时代,创新迭代在加速,体验重要性在提升,IT系统架构在变革,运维数据与事件在爆发。阿里云智能运维解决方案,帮助用户高效定位问题、提升业务体验与洞察、快速创新迭代。

时有爆发的疫情,加速引导着用户观影方式的改变。越来越多的用户习惯将观影模式从线下转移到线下。

疫情作为电影行业的“黑天鹅”,让线下影院陷入沉寂,但是却让网络视频平台焕发新生。多家视频平台公布了2022财年Q4的财报,其用户付费数均呈上涨趋势,亏损同比收窄,有些平台在该财年甚至实现了盈利。

由于疫情管控,大多数用户会优先选择线上观影。由于用户线上观影习惯的养成,因此只要有一部电影爆火,就会为平台带来巨大的用户群与营收增长。

但一部部接连爆火的电影,也加速了南瓜电影对于技术升级的思考。

在2021年3月,南瓜用户注册量暴增,日增用户数超800万。流量入口、API、网关等接连告警,紧接着后端服务器、数据库等容量开始吃紧,紧急全链路扩容。虽然最后业务恢复,但整个运维过程花费4小时。

业务高速发展 VS 系统运维带来的压力
作为一家专注于影视精品化运营的垂直类视频的公司,南瓜电影一开始就将自己的系统放在云上。早期业务量不大,遇到故障时会选择手动对不同的服务器进行重新发布。随着业务发展,时常会出现某部影片爆火的情况,用户流量激增,服务器扩容速度缓慢,出现卡顿、报错等情况。

尤其在排查问题过程中,不好定位服务器错误,本地文件过长,数据查询与错误定位成为影响运维效率的最大障碍。

南瓜电影也曾尝试过自建运维系统,希望能系统化地解决当前所面临的运维难题。但在实际操作过程中,南瓜电影发现他们面临着以下几个难点:

首先是成本与时间投入过长,南瓜电影曾尝试过自建K8s的方案,虽然能很好地解决高密部署的难题,但K8s学习与时间成本过高,简单搭环境做测试问题不大,但正儿八经地上线生产,还是需要组建一支专业团队,想要在短期内实现相对困难。

其次是数据丢失过多,用户使用场景不同,数据接口不同且终端环境网络复杂,日志数据丢失量非常高。采集到的数据量过少,无法提供给机器进行高效的告警训练。即便后期通过技术手段,解决了数据丢失的问题,但庞大的日志数据量也会对南瓜电影的数据存储和计算平台造成强大的冲击,无法有效地利用采集到的数据。

利用阿里云构建智能运维系统
经过慎重的考虑,南瓜电影决定与阿里云进行深度合作,利用阿里云日志服务SLS构建一套智能运维系统。

首先要解决的是数据采集的问题。针对南瓜电影数据采集丢失率高的问题,阿里云日志服务SLS为其提供数据实时采集的能力,实现视频播放质量全程实时监控。帮助南瓜电影能时刻感知用户体验情况,对异常数据进行监管告警,及时发现崩溃率变化,让南瓜电影以最快的速度定位问题点,实现最快的故障排查与故障修复。

其次是数据处理的问题。依托日志服务SLS平台,阿里云为南瓜电影提供了免运维、高性能的日志数据存储和查询服务。可支持PB级数据实时查询与分析,提供10多种查询运算符、10多种机器学习函数、100多个SQL函数。同时日志服务SLS支持通过统计图表的方式对查询和分析结果进行可视化展示,减少南瓜电影在数据整体处理链路上消耗的精力。

第三个是成本的问题。阿里云日志服务SLS提供的智能运维解决方案,提供各类API接口,南瓜电影可开箱即用。其弹性拓展能力,能让南瓜电影根据实际业务需求,调整最优的资源配比。一站式按量付费的模式,无需自建多套系统,相比传统方式具有更高的的性价比。

L1VzZXJzL3diLWxibDQ0MjE1MWFsaWJhYmEtaW5jLmNvbS9MaWJyYXJ5L0FwcGxpY2F0aW9uIFN1cHBvcnQvaURpbmdUYWxrLzQ4OTQyOTg2N192Mi9JbWFnZUZpbGVzLzE2NTUzNTEzOTE4MzlfM0E1QjUwQkItNUU4Ni00RjJDLUJDNkItOEU1NUVBNTE0RkQ1LnBuZw==.png

小结
有调查显示,在传统架构下,很多企业将大约80%的精力花在了自身并不擅长、属于成本范畴的繁杂IT运维事务上。而创造价值的应用本身只投入了20%的精力。

而阿里云日志服务SLS构建的智能运维解决方案,是经过阿里巴巴经济体磨砺的解决方案。利用大数据为企业日常运维服务,通过可观测数据融合、智能告警与响应中枢,结合机器学习的方法进一步解决自动化运维所未解决的问题,让运维更简单、更智能。

image.png

数字化时代,创新迭代在加速,体验重要性在提升,IT系统架构在变革,运维数据与事件在爆发。阿里云智能运维解决方案,帮助用户高效定位问题、提升业务体验与洞察、快速创新迭代。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
18天前
|
机器学习/深度学习 人工智能 资源调度
基于AI的运维资源调度:效率与智能的双重提升
基于AI的运维资源调度:效率与智能的双重提升
112 16
基于AI的运维资源调度:效率与智能的双重提升
|
8天前
|
人工智能 运维 负载均衡
智能运维新时代:AI在云资源管理中的应用与实践
智能运维新时代:AI在云资源管理中的应用与实践
83 23
|
18天前
|
机器学习/深度学习 运维 监控
利用深度学习进行系统健康监控:智能运维的新纪元
利用深度学习进行系统健康监控:智能运维的新纪元
79 30
|
20天前
|
人工智能 运维 Kubernetes
阿里云容器服务AI助手2.0 - 新一代容器智能运维能力
2024年11月,阿里云容器服务团队进一步深度融合现有运维可观测体系,在场景上覆盖了K8s用户的全生命周期,正式推出升级版AI助手2.0,旨在更好地为用户使用和运维K8S保驾护航。
|
14天前
|
消息中间件 机器学习/深度学习 人工智能
AI赋能运维:实现运维任务的智能化自动分配
AI赋能运维:实现运维任务的智能化自动分配
106 24
|
3天前
|
运维 Cloud Native 开发工具
智能运维:云原生大规模集群GitOps实践
智能运维:云原生大规模集群GitOps实践,由阿里云运维专家钟炯恩分享。内容涵盖云原生运维挑战、管理实践、GitOps实践及智能运维体系。通过OAM模型和GitOps优化方案,解决大规模集群的发布效率与稳定性问题,推动智能运维工程演进。适用于云原生环境下的高效运维管理。
|
17天前
|
人工智能 运维 监控
AI辅助的运维流程自动化:实现智能化管理的新篇章
AI辅助的运维流程自动化:实现智能化管理的新篇章
350 22
|
3月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
82 4
|
10天前
|
Kubernetes Java 持续交付
小团队 CI/CD 实践:无需运维,Java Web应用的自动化部署
本文介绍如何使用GitHub Actions和阿里云Kubernetes(ACK)实现Java Web应用的自动化部署。通过CI/CD流程,开发人员无需手动处理复杂的运维任务,从而提高效率并减少错误。文中详细讲解了Docker与Kubernetes的概念,并演示了从创建Kubernetes集群、配置容器镜像服务到设置GitHub仓库Secrets及编写GitHub Actions工作流的具体步骤。最终实现了代码提交后自动构建、推送镜像并部署到Kubernetes集群的功能。整个过程不仅简化了部署流程,还确保了应用在不同环境中的稳定运行。
47 9
|
2月前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####