开发者学堂课程【开源 Elasticsearch 技术训练营:【训练营第一课】走进阿里云 Elasticsearch】学习笔记与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/898/detail/14313
【训练营第一课】走进阿里云 Elasticsearch
内容简介:
一.关于Elasticsearch
二.走进Elasticsearch全观测能力
三.云上全观测最佳实践一
一、关于Elasticsearch
1.什么是 elasticsearch
(1)Elaticsearch,简称 es,es 是一个开源的高扩展的分布式全文检索引擎。
(2)Elaticsearch 可以近乎实时的存储、检索数据。
(3)Elaticsearch 的扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。
(4)Elaticsearch 使用 Java 开发并使用 Lucene 作为其核心来实现所有索引和搜索的功能。
(5)Elaticsearch 的目的是通过简单的 RESTful API 来隐藏Lucene 的复杂性,从而让全文搜索变得简单
elasticseatch 开源生态矩阵
elasticseatch 开源生态矩阵集合了多种,就是包括像文件,然后指标相关的这样一些数据Asian,然后他能够去,嗯,像这样的agent 下拉到很多的机器上面,
包括就是大家的一些雕刻服务器,或者一些就是这样一些服务器上面,然后去向他的下游去发送他的数据,那其实在这样一套生态取证中,就是除了 btec 的下游就基本上是我们的 boss,但是bibatala大家应该也会也都不怕陌生。
它是作为收集和过滤传输数据的一个工具,他能够去支持用户去做一些数据类型的转化,然后去针对各种各样的一些日志数据,或者是系统日志,审计日志,然后去做这样一些格式上的预处理和过滤,那其实除此之外,我们的数据经过了一些采集和处理之后,最后的这样的一个操作系统中去做存储之后,其实我们可以通过bibatala 这样一套可视化的工具,进行业务上的一些可视化的报表。
分析大盘的这样一套大钱,其实从彼此到access到这样一套就是开源的生态矩阵,能够去帮用户去解决各种各样的问题,就我们刚刚看到的一些场景下的一些问题。
Beats 是轻菜级数据采集工具,集合了多种单-用途数据
采集器,它们从成百上午或成干上万台机器和系统向
Logstash 成 Elasticsearch 发送数据。
Logstash 是收集,过滤,传输数据的工具。支持系统日志,审计日志。应用程序日志等类型,支持在传的时进行数操处理和过读。
Elasticearch 是构建于 Apache Lucene 搜索引擎库之上的分布式金文提索和分析引象,提供搜集,分析,存继数据三方面能力。
Kibana是灵活的可视化工具,支持多租户登示。可以方便的预建满足重务需求的可视化报表和分析大盘。
阿里云Elasticsearch提供全托管Elastic Stack服务,100%
兼容开源,免费提供X-Pack商业插件,即开即用,搜是付费。
深入功船与内核性的优化,提供更拿富的分析检索能力。以及
更安全,离可用服务。
特性及优势
便成本
.免费提供每个节点价值6000美元的X Pack商业插件
.智能运维,高级监控告面容灾部署等,超低运很成本
.针对性场是调优,提高资源利用效率,多种产品价格架略,功能与性和强助
.日志增强版内核,100%成本降位, 100%性能提升
.文本。视频,合须,图像,提供最全面的信息检素能力
.全国对齐等保2.0要求,企业级数据安全能力
.开放的二次开发能力,支持各种业务场最的封装
二、走进 Elasticsearch 全观测能力
在各个业务场景下,对比自建集群均带来了全方位的能力提升与性能优化、整体成本、群体管控、能力差异、安全性、高可用。
主要对比,是从整体成本上,包括到管控上面,到包括核心的一些检索能力的差异,上面都有自己的一些优势和性能的提升,其实这里面看到,其实除了一套全营上的全体全部托管之外,其实我们会有包括一些超低的运维成本,然后去降降的,在一个就是大数据量存储的一些存储上面的成本,然后其实在管控之外,
其实我们刚刚说到我们的整个4S服务是能够一键的拉起,然后并且一件的去去竞答集训的搭建的同时就是针对我们,其实包括大家在实际的业务场景,其实会有一些资源上的一些弹性伸缩的需求,然后在云上其实是非常匹配这样的一些场景的。
集群的运维和监控上面,有非常全面的一些能力,一些核心的一些集群读写性能,包括一些搜索能力的上面,,除了一些向量检索分析器之外,在集群的稳定性,上面也会也会给大家提供包括一些 QS 的见,刘XX线,然后防止你当你的一些大流量的数据打打过来的时候,把你整体服务去做,这样也能去保证我们这样的一个以上服务的稳定性,然后还会在内核上面去做一些优化。
在安全性和高可用方面,其实大道这儿零上一定是我们会去做。
更多就是大家在自建的时候没有那么多精力去做的一些安全特性上的一些能力上的一些补充,包括我们帮大家去做一些 APP 的传输加密,然后还有一些内网环境的一些一些就是管控,那在就是整体的服务可靠性,因为很多用户他们都会说你这个提供这样的一套S服务,你对我们的可靠性是指需要多少?
我们即使整体在数据上面只有99.9%这样的一个数据可靠性,然后我们整体服务也是能够提供3%,就是三个九九十九点九,这样的一个服务可靠性就是我们的上面能够去尽可能的保证用户。
你在使用我们这样一套服务,下面就是能够去支持好的业务,然后不会受到各种各样不稳定因素的影响。
三、云上全观测最佳实践一
(1).定义:
将日志、指标、APM 等数据在一个平台进行统一分析,而这样的能力正是 ELK,也就是 Elasticsearch 全观测解决方案所能提供的,它能帮助用户在ELK平台上建立统一的可视化视图。
另外,通过全链路问题的追踪,还能设置统一的监控报警规则,甚至能利用机器学习的能力对未来情况进行预
(2). ELK 实现全观测监控运维分析
运维系统的成熟度体现在所收集数据的丰富度,数据处理的结构化能力,以及数据分析层的复杂程度上。
而 Elastic Stack 可以充分利用分数在系统各量的数据,更好的发挥数理价值
对全观测这样的一个概念的定义,其实更多的是我们除了日志数据之外,还会有一些指标数据,就是 magic。
还会有些 APM 一些数据,我们都需要在这样的一些数据,在同一个平台上去进行统一的分析,就是这样的一个同一个平台统一分析能力
包括它的这样的全观测,就是全观测的解决方案能够提供的,他能够去帮助用户去在这样一个1K的这样一个平台上去建立统一的一些可视化的视图啊,然后包括可视化的一些,就是包括我们可以去对其一些时间和过滤条件,因为我们通过这样一些全链路的一些问题的追踪。
可以去设置一些统一的监控报警的一些规则,然后甚至我们还可以利用以莱斯他的一些机器学习的能力去做一些未对未来的一些情况的预判。
去实时的分析我这样的一套业务系统在什么情况下出现的问题,那其实全观测这个概念,
工程师和架构师,帮我们在技术上做更多的帮助,那其实从我们整体的业务场景上去看,其实对于每一个企业来说,其实它的整体的系统中都是存在各种各样的业务数据的,包括它会存在很多 web 的日志。
然后 APP 上的日志,还有自己底层的一些数据库,还有冷却的日志,除此之外,然后他们还会有各种各样的一些指标数据,然后其实更多的是我们还会有一些用户行为的一些业务上监控,还有一些分布式的追踪的需求,,可能平时大家会觉得运维这一套系业务场景,其实是一个旁路系统,现在有很多与就是包括很多场景下,很多行业,现在用户其实这些数据对他们来说是非常关键的。
所以随着大家对整个运维系统搭建的越来越成熟,其实我们收集的数据的丰富度越来越高的,其实仅仅比如说一套日志的分析,日志的分析能力已经不能够满足我们对整个业务去全链路观测的一个需求了,其实我们需要去能够去收集到更多的一些数据,然后再去进行后续的一些数据的处理和结构化,然后最后再去把这样一套数据,
通过一些数据分析和可视化的一些能力,然后去提问大家,那其实在上层的这样一些数据可视化监控告警,其实最最传统的也是基于一些规则和一些,就是规则这样的去进行一些节目。
在后续去做的一些数据的分析,其实也不仅仅是一些简单的规则类的一些分析和告警,那其实更多的是我们可以基于一些关联的一些分析,还有一些机器学习的能力,去更好的去利用这些分散在系统各个处的一些数据,然后去发挥这样的一套数据的价值,那其实这也是我们所说的,就是我们在场的观测这样一个监控运维系统中所需要具备的能力。
而这样,其实很多,包括一些我们现在很多很火的一些直播行业,包括游戏行业,其实他们是更需要这些数据去做一些用户行为,包括对他们整体链路上的一些优化,从而才能够给他们的核心业务带来更多的提升,包括去给他们未来的优化,包括游戏的一些实际的一些应用,去做更多的一些方向上的一些判断,所以这样一套运维系统其实能发挥业务价值,取决于我们怎么去运用这里面的数据。
怎么去更好的去分析和获取这里面的数据的真实背后所代表的含义,所以,这也是我们所具备的这样一套全观测的能力,区别于一些通的包括日志日志,简单的日志处理,一些简单的数据大数据分析这样的一些能力,所以这是一套我们能够在同一平台平台上实现的全观测的解决方。
(3).ELK 运维监控架构方案
一个运维监控的全面路上的一些能力,那其实我们刚也说,就是包括我们有一些路由器,网关上的数据,然后我们可以去通过它可以做一些收集,然后收集到这样的一些细腻的网络请求,包括各种各样 DNS 的日志,那其实处在业务服务器上。
我们可能会有很多的硬件的指标,然后数据库的指标,然后我们通过一些Mac的这样的一些能力,然后去做收集,那其实的日志相关的,然后我们还会有 Barbie,然后去做相关的一些采集,而且除此之外,这个图上可能还有一部分就是我们在 ATM上GPS 提供APM 相关的 agent 的滋润,
我们去可以收取一些实时的用户的行为的链路的追踪,通过这样的一些数据,各种标数据来源的采集,把它下发到下游的一些,就是开发这样的一些组件之后,最终通过los去做一些格式的转换,包括一些认识,就是结构处理。
然后在最后把他吓发,就是把数据传最后,他就基于我们上层的一些,,,那其实在阿里云上,除了支持就是我们本身这一套里面开源的这个的吧,那的图片之外,其实我们还有支持了即将上线的一些sail的能力,必须做一些做一些打通和模板的介绍,让大家更好的去把数据可视化的就是这样一些展示出来,然后去做后续的一些业务上再写那些,除此之外,我们还能够去做一些非常完完备的一套告警配置和告警对接,因为我们其实做一些数据实施
(4).日志分析与运维监控技术难点
法律为监控的,这样其实是非常复杂的,那其实这样的一条监控架构下面呢,其实大家的有一些问题也是共通的,,因为数据我们需要采取的数据类型很多,那其实数据的数据量也会很多,其实在整个数据业务处理过程中,其实这样各种各样的日志数据,指标数据其实是整个系统中最多的一些数据,那其实我们因为这些数据,我们就是他需要去写入到我们这样一条系统中,那其实对于这样的一套,我们DS集群那其实很容易,因为这些高高并发的写入,包括一些一些流量的波动,然后去导致我们这个群的英文性受到影响。
另外一部分就是我们为这份数据量,数据量很大,就是因为像这种,我们通常就涉及到PB,甚至客户他会PB级的数据进进来,那其实在这样的一些场景下面,其实对数据的存储成本来说也是非常重要的,就是需要考虑的一点,因为比如说甚至有些场景,其实他可能只是存储一些数据,是为了做一些审计,那其实我们怎么去降低整个系统怎么更好的去优化,
我们在这个系统中去做,进行冷热,或者是做一些数据存储的一些,就是这样的一些需求,那其实我们需要去考虑这些存储,有些内容更好的一些冷热的方案,然后包括怎么去降低,在在一些同样的数据量的情况下,存储成本那其实第三个,就是说其实本身ex因为一些内核上面的一些限制,其他针对日常的一些事情。
对查询性能是比较差的,然后他遇到一些复杂的聚合,然后认识这样的一些查询性等性能会不会受到一些比较大的影响,那其实这样的一些问题,下面其实他在时序分析这样一个新的产品下面,其实是有自己的一些弱势,那我们怎么通过一些嗯基础上的改造,然后去帮更好的去面对或者解决这些产品上的问题,这也是我们在就是这样的一个系统下载所需要去考虑这些问题,那其实最最后面还有一点就是说,其实本身是因为它的流量是非常大的,可能比如说一些服务,游戏,或者其实有时候当你的用户特别多的时候,比如晚上这样一些时间,那你的数据量就会特别的大。
但是其实如果到了白天一些并不是业务峰值的时候,那你的数据就会面临一些固执的这样一个情况,那其实我们这样一个集群如何去比较好呢?就是弹性的去面对这样的一些业务上的流量波动,然后我一方面是这样的,在一些并没有那么高流量产品下面的我的一个闲置资源的成本。
另一方面,我也能够去快速的去去升级扩容到我这样一个高峰值所需要的一个集群的一个配置,那其实这也是我们所面临的问题,那其实针对这样的一些问题,我们按原来就是在在这样的场景下面,其实在去年的时候已经推出了一款都叫做日志增强版的这样一个的版本。
(5).阿里云Elasticsearch日志增强版
[业务德点]监控数型实时行做求高
.监控指标来源多,实时性保障困难
阿里云lasticsearch解决方案
.丰富异构数据源采集能力,霍盖主流DB和日志系统
.支持模版化的日志解析处理能力
[业务国点]政别权期轮度要求高
.为保障终达用户的使用体验,平台方需要赋能客户数据监
阿里 ZElasticsearch 解决方室
■提供精确到字段级别的数据权限分割能力
控和分析能力,需要提供读数据权限
.基于RBAC模型支持用户灵活自定义权限体系
■无法满足每个客户一个集群的需求,需要对一个大池子中
.支持与企业自有权限体系对搜打通关的数据进行细粒度的数据权限分割
[业务选点]流盟波动大自建集利投入E本路
, 阿里Elastcsearch解决方室
■教育行业寒 署假业务流量激增,学明内流量平稳,机困资.
峰值沈量集群压力大,集群容灾和稳定
.提供集群平溜的伸信功能源闲置浪费
■集群热交更,对服务0影响
性差
专门针对店内和去做了一些计算存储分离相关的改造,然后为了就是从而能够去,一方面就是提升我们在嗯整体一个结构性的。
这样的一个提升,然后另一方面,然后我们通过这样一套,就是以前映射同一块物理盘,去实现在自动伸缩的时候,不需要去迁移至里面的数据,能够去实现快速的一个描写的产品和纵容。
另一方面因为本身我们去实现了这样一个,所以分配了一些多读,然后数据只需要保存一份,那其实我们在整体的存储成本上也能够节省,就是节省整整一倍,然后我们能够去保证,然而我们去依赖这样的一个底层存储,然后能去保证数据的一个可靠性,那其实在这样一个日志成本下面,我们更多的是希望能够在日志分析场景和他的一些场景下面去让用户去更好的去优化,它整体的一个日常都彼此相关的一些使用。
(6)什么时候应用
这日志真长板,下面我们更多的是希望能够在日志分析场景和其他的一些商品下面去让用户去更好的去优化,它整体的一个日常都彼此相关的一些使用,那其实什么样的产品能够用呢?
其实我们就刚刚说到这是在一些海量日志的情况下面,当我们这是要达到一个PPT这样一个数据量,那我们可以去使用这样一个日增强版。
另一方面它也非常适合,就是当整体的一个写入量高峰发的时候非常高,整体的一个接入能达到10万到五秒,另外在一些场景下面,其实大家都会有一些数据容灾的需求,然后都会设置大于营养数据副本,但是在这在我日志想买下来,其实我们是能够自动帮大家去进行一些副本上的存储,然后我们可以去保证用户的一些数据不被泄露
但是它其实在整体成本上去不会有更多的一些等价,那其实这样一套是真想买,也是我们20S测试在内核上面去做的一些相关的优化,,更多的就是这样的一些海量日志,高并发场景的一些情况,这样一套二零来自然是包括开源的能力,还有上特有的一些特性种下,能够给用户提供什么样的一些场景化解决方案,哪些用户在要去使用,全观测的一些场景需求下载。