从运维和SRE角度看监控分析平台建设
运维和SRE团队,承载着重要的职责,其工作内容复杂而广泛,从应用部署、性能和可用性监控、告警、值班,到容量规划、业务支撑等都有涉及,随着云原生、容器化和微服务的快速发展,迭代节奏愈发加快,对于运维和SRE也提出了更多的挑战。
SLS新版告警入门-触发条件设置
告警监控规则根据评估表达式的执行结果来判断是否满足触发告警条件,以及评估动态告警严重度。您查询语句的执行结果将作为输入,集合操作结果的字段作为变量,当评估表达式条件为真且符合连续触发阈值配置时,则触发告警。
SLS新版告警入门-旧版告警升级
近期SLS发布了新版告警,新版本告警在升级原有功能的基础上,扩展了告警监控、告警管理、通知(行动)管理的能力,SLS新版告警还支持在控制台将旧版告警一键升级为新版告警。本文首先会介绍新版与旧版在架构、功能和配置上的区别,然后通过一个实例演示如果将旧版告警一键升级为新版告警。
如何构建一个拖垮整个公司的运维系统
人肉运维,不在 DevOps 中转型,就在自动化中消亡。云化时代的运维,需要的是高铁,而不是“跑的更快的马车”。6月25日,数智创新行上海站·智能运维专场,期待您的参与。
SLS新版告警入门-监控主机CPU异常
随着用户量的增加,后台服务经常需要部署在多台服务器或者集群中来提高性能和增强可用性,在提供服务的过程中,由于程序bug或者业务徒增导致CPU飙高,如果CPU持续飙高,可能会导致机器down机,对服务造成不可用。 本文以此为背景,在主机监控时序数据中,配置SLS告警,来监控主机CPU飙高,并且在CPU飙高时发出告警到钉钉机器人。
SLS Logstore模拟接入OSS访问日志和主机监控
在使用SLS的过程中,在试用一些功能时,还未接入正式的数据,往往不能很好的体验SLS功能,SLS提供了模拟接入的功能,可以对一些常见类型的日志进行模拟接入,接入后就可以看到一些mock的数据,本文介绍两种常见的模拟接入。
SLS新版告警入门-监控OSS访问日志
在业务中经常会有波峰波谷的现象,使用同一个监控阈值往往不能满足告警需求;基于SLS,可以使用日环比方式,配置SLS新版告警,来监控PV日环比是否有陡增或陡降,比如陡增10%或者陡降10%,会发出告警;本文以此为背景,来讲解如何配置告警并发出通知。
SLS新版告警-多数据源协同
阿里云SLS作为一站式的可观测性平台,用户将日志数据,时序数据,Trace数据都存储在SLS;SLS提供统一的查询分析语言,支持完整的SQL 92语法;SLS新版告警完整支持SLS的查询分析语法,基于此,可以配置常见的如关键词告警,同环比告警,网址错误监控,流量急跌或暴涨监控;在新版告警中,可以对多个数据源进行监控,并且支持多数据源的间的协同监控。支持常见的左联,右联,内联,外联,左斥,右斥等集合操作,可以使用在比如白名单,黑名单监控场景。
SLS新版告警-告警属性及其应用
在配置告警的过程中,常常需要了解告警的上下文,告警来源,告警严重度等,这些都可以叫做告警的属性。可以对其进行告警的管理,SLS新版告警包括监控和告警管理部分,其中监控部分主要是用来产生告警,既可以使用自定义告警规则来产生告警,也允许用户使用外部监控系统(如Zabbix, Promethus,Grafana)来产生告警,对于各类的告警,SLS新版告警系统将这些告警的属性进行了统一和规范,基于这个规范就可以借助SLS新版告警的管理系统,来对告警进行统一的降噪处理,告警升级,分派通知等功能。
基于 Scheduled SQL 对 VPC FlowLog 实现细粒度时间窗口分析
针对VPC FlowLog的五元组和捕获窗口信息,在分析时使用不同时间窗口精度,可能得到不一样的流量特征,本文介绍一种方法将原始采集日志的时间窗口做拆分,之后重新聚合为新的日志做分析,达到更细粒度的分析效果。
Scheduled SQL: SLS 大规模日志上的全局分析与调度
本文总结了大规模日志全局分析的需求,讨论SLS上现有的典型分析方案,并延伸到 SLS 原生数据处理方案,介绍 Schedueld SQL 功能与最佳实践。
勒索软件团伙5天狂赚26万美元,NAS备份你准备好了吗?
勒索病毒产业链在不断革新技能和规模化商业运作,持续在世界范围内产生严重危害。过去的勒索病毒,一般都是“广撒网,多敛鱼,择优而从之”。但此次事件表明,黑客的行为变得越发精准。那么,如何避免NAS产品被黑客精准勒索呢?
云原生架构下日志服务数据预处理
某家国际教育机构,提供在线教育服务,其用户主要分布在中美两地,该企业拥抱云计算,在架构设计上也全面采用了云原生服务,本实践将重点聚焦该客户以下几个典型场景: 场景一:跨地域/跨账号数据汇集 场景二:数据内容富化(join维表) 场景三:数据投递/归档、入湖分析 场景四:统一采集,按业务分发分析 场景五:数据监控与智能告警
企业上云如何对SLS日志审计服务进行权限控制
日志审计是信息安全审计功能的核心部分,是企业信息系统安全风险管控的重要组成部分。SLS的日志审计服务针对阿里云的多种云产品(Actiontrail、OSS、SLB、RDS、PolarDB、SAS、WAF等)提供了一站式的日志收集、存储、查询、可视化和告警能力,可用于支撑安全分析、合规审计等常见应用场景。
阿里云日志服务(SLS)初体验
通过日志服务(SLS)官方文档指导进行了第一次的SLS服务体验,最终实现了SLS日志服务在所在项目上通过内嵌的方式进行日志仪表盘可视化的展示。本文通过这次开发中学习和理解的一些重点内容,进行了一次体验分享。
二次元手游的数智进化
阿里云日志服务从内测期便伴随米哈游《原神》团队一同成长,从测试到公测,从正式上线发布到全球累计大量用户,日志服务一如既往的高性能,高稳定得到了米哈游的广泛认可与赞扬。
看阿里云如何用云上技术创新,帮助哈啰单车实现智能数据收治
客户通过把日志数据迁移到SLS,替代原有的kafka、ES、ClickHouse,累积节省成本达到30%,同时满足了稳定性、扩展性需求,以及对日志查询分析的需求。
看畅捷通如何利用阿里云快速定位异常,降低运维成本
阿里云通过日志服务综合解决方案,帮助畅捷通运维开发团队解决了误报频繁、无法快速发现问题站点、无法快速定位异常的问题,实现了运维效率、运维成本、沟通成本等方面的改善。支撑了畅捷通所有云产品的健康稳定运行,在IT运维开发领域树立了一个标杆。
SLS交互分析增强——原始日志事件系统发布
交互式分析一直是SLS主打的查询分析使用场景,事件系统则是实现交互式分析的手段,SLS可视化于19年就实现了基于图表的事件系统,用来完成从图表到外部系统的交互式分析。今年4月,SLS于进一步完善了整个交互式分析的能力,上线原始日志事件系统,进而更加完整地实现交互式分析的闭环
在云上打造全球范围的游戏UCG平台
沙盒网络致力于打造一个全球范围内的游戏UGC平台,帮助普通玩家将创意转变为游戏。当前沙盒网络以blockman go为代表的游戏已在线发行,并在全球获得了超过5000万用户的欢迎。
助力可观察性统一平台:SLS Trace服务发布
SLS在2015年发布了日志(Logs)方案、2020年发布了监控(Metrics),在今年2021年发布了分布式链路追踪(Traces)方案,已经正式具备了可观察性数据的统一存储、分析、可视化能力。后续除了在每个细分数据场景做深外,还会提供更加完善的数据关联方案以及AIOps的异常检测和根因分析能力。
可观测告警运维系统调研——SLS告警与多款方案对比
本文介绍对比多款告警监控运维平台方案,覆盖阿里云SLS、Azure、AWS、自建系统(ELK、Prometheus、TICK)等方案。
10个特性:这才是你需要的Trace方案
分布式链路追踪(Distributed Tracing,简称Trace)又名全链路数据追踪,为业务系统提供了整个服务调用链路的调用关系、延迟、结果等信息。本文主要介绍Trace方案的一些高级特性,让大家可以更好的使用Trace来解决业务可观察性的问题。
数据湖,已成为海量数据存储与分析的重要承载方式(附白皮书下载)
在云计算和大数据时代,基于数据开展生产、运营、决策成为常态,根据Gartner报道,2019年数据基建方面的采购费用飙升到660亿美元,占据基础架构类软件费用的24%。数据的存储及应用体系是企业生态运转的中枢神经,数据湖已经成为海量数据存储与分析的重要承载方式。
“云湖共生 • 数智未来”数据湖应用实践白皮书重磅发布
《数据湖应用实践白皮书》涵盖了数据湖的定义与架构、数据湖核心组件与方案介绍、数据湖构建方案、应用实践等内容,希望为用户提供新的洞察。
Python强类型编程最佳实践——PyCon2020分享
本文介绍我在PyCon2020年底时分享的议题内容,结尾有录播的视频和PPT下载链接。 Python对于强类型检查还是符合其核心精神(灵活性与实用性),已经非常完善,且大踏步的往前延伸,另一方面,也又一次的让Python的深入掌握的门槛进一步增加(进入了强类型编程、泛型编程领域,甚至动态扩展的场景)。本文介绍Python强类型的历史背景以及22个最佳实践和使用工具与策略,帮助快速掌握Python强类型检查的核心与策略。
OpenTelemetry Log规范解读
本文主要介绍OpenTelemetry Log规范,这一规范来自于Google、Microsoft、AWS、Splunk、DataDog、ES、Fluntd等众多优秀的公司和项目成员,其中有很多点是我们在平时开发、运维需要关注的知识和经验,值得大家一观。
突破数据存储瓶颈,Aibee实现场景化AI的有效落地
为了突破数据存储瓶颈,Aibee采用了阿里云混合云存储解决方案,解决计算机视觉、语音识别、自然语言理解、大数据分析等技术场景下的数据存储与管理问题。
LightStep调研
公司由前Google工程师Ben Sigelman于2015年成立(创始人曾经是Dapper的开发者,专注于分布式链路追踪),LightStep的使命是削减软件的规模和复杂性,帮助公司能够持续保持对其系统的控制。第一个产品LightStep [x]PM能够在任何时间点提供整个软件系统准确、详细的快照,基于快照能够快速识别问题、瓶颈并解决。
房地产数字化进入下半场,中南置地何以稳立潮头?
中南置地在上海、南通两地的数据中心和云端都有大量的业务系统在运行,有大量的数据库数据和VMware虚拟机需要备份,因此需要一套灵活、高效、安全的灾备系统。在经过对需求与方案的调研与沟通后,中南置地最终选择了阿里云的解决方案。
阿里云文件存储NAS摘获“iTECH2020”年度明星产品奖
《中国信息化》杂志执行社长熊伟正式公布了“iTECH 2020”年度事件、年度成长企业、年度明星产品等奖项归属,阿里云文件存储NAS因为在技术与应用场景上的创新,成功摘获了“iTECH2020”年度明星产品奖。
云存储
阿里云存储基于飞天盘古2.0分布式存储系统,产品多种多样,充分满足用户数据存储和迁移上云需求。