综述
日志服务(SLS)是阿里云上的云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时的平台化分析服务。作为一款与用户日常工作息息相关的产品,SLS对于用户体验的反馈尤为重视,在每年年初SLS均会投放用户体验调研问卷,用于收集用户反馈。虽然无法与每一位反馈的用户进行详细的交流及评估的反馈,但是这些反馈SLS团队收到后均会进行细致的评估,并结合实际的产品规划纳入后续的迭代中。
本文主要作为对2021年SLS产品用户体验改进工作的总结,如您对于产品有任何的建议,可以通过文末的用户体验调研问卷向我们反馈。
用户体验部分将从查询分析性能、功能易用性、控制台前端体验、场景化应用拓展、成本与费用五个模块进行展开。
一:查询分析性能
1.1 SQL独享版功能发布支持更高性能的计算力
从往期的用户调研反馈可以看出,查询分析性能是用户使用SLS普遍关心的问题。SLS在早期提供了免费的SQL能力,支持十亿级数据的秒级结果返回,该功能也得到了广大用户的认可。但是对于该能力,我们也收到了用户的两个反馈:
(1)SQL并发仅支持15个无法满足部分场景需求,如多报表数据大屏的实时刷新场景
(2)当数据规模继续扩大时,由于资源的限制SLS无法在一次的查询中完整扫描所有日志,会先返回部分不精确的结果,然后需要通过多次查询或者扩容Shard来得到精确结果。
为了改善该问题,SLS在2021年推出了SQL独享版功能,详细请参考SQL独享版。SQL独享版功能相比免费版本SQL具备更高性能,更大并发(单个Project分析操作支持100个并发),更大规模(支持千亿级数据分析)的特点,适用于TB级长周期数据的复杂分析场景。该功能对于消耗的CPU资源收取少量费用(0.35元/核*小时),且支持Query级别启停能力,用户可以结合实际的业务需求自由选择使用。
二:功能易用性
2.1 Logtail采集配置支持导入功能
Logtail是SLS用户高频使用的采集Agent,部分需要同时支持多个业务的用户反馈Logtail采集配置无法复制,需要对多个业务逐一进行配置。为改善该问题,在数据接入流程的Logtail配置页面,目前已经支持了Logtail配置的导入功能,用户可以导入现有的Logtail配置并在该配置基础上进行调整。
2.2 可视化SQL功能发布优化查询分析体验
数据写入SLS后,通过查询分析功能可以进一步挖掘数据的价值,但是如何基于SLS查询语法和SQL统计分析语法实现对应的业务需求成为了很多用户在实践中遇到的问题。为了帮助用户简单、快速地构建查询分析语句,降低用户的学习成本,SLS推出了交互式查询分析(Data Explorer)功能,让用户无需关注语法细节也可完成查询分析,详细请参考查询辅助输入。
用户在查询分析页面的输入框中,点击右侧图标,即可唤起Data Explorer面板。随后在配置面板中,交互式地配置查询统计条件,即可实时生成对应的查询分析语句。
同时为了最大程度的保证用户使用的灵活性,DataExplorer面板上的查询分析条件与用户手动输入的查询分析语句是实时双向同步的。用户既可以通过DataExplorer面板生成查询分析语句,也可以在查询框中修改生成的语句。DataExplorer会实时解析用户手动输入的语句并同步到面板上。
2.3 数据加工支持搜索特定日志进行快速预览
SLS数据加工服务可用于数据的规整、富化、流转、脱敏和过滤等预处理操作。为了验证加工任务的准确性,用户往往需要通过加工预览来验证加工结果,部分用户反馈在使用快速预览功能时有时预期的数据在logstore中是少量存在的,因此抽样出的数据不包含预期的数据,为了优化该问题,SLS支持了搜索特定日志进行快速预览的能力。
用户仅需通过查询将目标日志筛选出来后,复制到数据加工的测试数据栏,再单击快速预览,即可基于用户需求的日志查看加工结果。
2.4 新版告警用户体验优化
SLS在2021年对于功能功能进行了全新升级,新版告警支持全局的数据源监控、智能降噪、灵活的通知渠道等能力,详细请参考告警(新版)。该功能发布后收到了广泛用户的认可,同时也收到了许多用户的反馈建议。以下列举部分用户普遍关心的问题。2
2.4.1 告警监控模板支持复制功能
告警监控规则配置是使用告警功能的高频场景,与配置logtail类似,对于多业务场景的用户,不同的业务间如果架构相似,监控规则可以一定程度上复用。为了改善多业务场景用户的体验,SLS对于监控规则提供了复制的能力,在告警规则列表页,可以选择目标规则复制到新的Project/Logstore进行复用。
2.4.2 移动端免登录查看告警详情
IM 工具例如钉钉、企业微信等逐渐成为主流接收告警通知的渠道,而基于IM工具接收到告警后可以看到告警的详情,但是如果我们想要看更详细的一些内容,或者做一些基础的操作,就比较麻烦。为了优化移动端处理告警的体验,SLS提供免登录功能,用户收到告警通知后,无需登录控制台即可查看告警详情以及进行告警规则、告警事务的管理操作。详细请参考免登录查看告警详情。
以钉钉渠道为例,当收到告警通知后,在消息的最下面会有一个“查看详情”的按钮,点击后即可在手机上免登陆直接查看告警内容。详情页面可以进行如下操作:
- 查看告警的详情
- 对告警事务进行工作流处理:确认告警、忽略告警、设置处理人、添加注释等
- 对告警规则进行一些设置:关闭告警规则,或者临时关闭该告警规则
三:控制台前端体验
3.1 控制台流畅度优化
用户基于SLS控制台可完成数据采集、查询分析、可视化等一系列操作,由于中间可能涉及到大量的资源加载或图片渲染,部分用户反馈存在页面加载不流畅问题。针对该反馈SLS对于控制台前端架构进行了升级,重点优化了加载延迟和流畅度问题。根据数据显示首页加载时间从4.8s减少到了1.5s。
3.2 可视化报表体验优化
针对仪表盘部分,SLS进行了全新升级,重点优化了编辑期间性能低容易卡死、排版对齐不方便,存在拖动抖动的情况、布局不整齐等用户反馈。
新增了全新的暗黑模式仪表盘,调整了底色和主色,使得页面对比度增高。
调整仪表盘新增了辅助线提示,帮助用户更容易进行排版布局。
3.3 控制台布局优化
SLS提供了丰富的功能平台功能,并且依然处于快速迭代的阶段。在此阶段中,收到了许多用户反馈功能入口较深的问题,基于该反馈SLS今年对于首页布局及功能栏布局进行了微调。对于首页收敛了用量资源的首屏占比,将更多的空间留给各模块功能。对于功能栏,将功能菜单进行了合并,便于用户根据需求找到对应的功能。
控制台布局优化目前仍在迭代中,2022年将会有一个大版本发布,敬请大家到时候进行体验并提供反馈。
四:场景化应用拓展
SLS除提供平台型的原子能力外,在2021年也在持续摸索提供即开即用的场景化应用能力,以帮助用户能够快速落地场景化需求。本部分将对于SLS的场景化应用拓展功能进行介绍。
4.1 CloudLens云产品可观测应用
CloudLens云产品可观测应用是SLS推出的面向主流阿里云产品提供运维管理场景化能力的应用, 可提供云产品的用量、性能、访问分析等的数据分析、可视化、监控预警、异常巡检、建议引导,从成本、性能、安全、数据保护、稳定性、访问分析六个纬度,提供对云产品的运维管理能力。
适用于云产品的深度使用用户,目前已上线EBS、ALB、RDS、PolarDB、Redis、K8s等产品Lens应用,更多产品陆续迭代上线中。
4.2 Trace服务
OpenTelemetry目前已经成为可观测性的标准协议,但OpenTelemetry只提供数据的格式定义、产生、收集、发送,但并不提供分析、可视化、告警等功能。日志服务Trace APP基于OpenTelemetry协议实现,支持采集OpenTelemetry以及其他平台(例如Jaeger、Zipkin、SkyWalking等)的Trace数据,并提供Trace数据存储、分析(支持Trace/Log/Metirc融合分析)、可视化(支持拓扑图展示)、告警等功能。详细参考Trace服务。
Trace服务适用于云原生、分布式、微服务等涉及多个服务交互的系统场景监控运维需求。
4.3 移动运维监控
SLS移动运维监控用于实时监控移动应用、前端页面、小程序的运行,并且支持智能分析,帮助用户低成本、高效率地发现各类移动端应用的潜在隐患。移动运维监控提供数据接入、移动监控、前端监控、小程序监控等功能。详细参考移动运维监控。
4.4 全栈监控应用
SLS全栈监控应用是日志服务提供的一站式IT系统监控方案,监控的目标包括主机监控、Kubernetes监控、数据库监控、中间件监控等。全栈监控内置丰富的可视化报表,包括资源总览、水位监控、热点分析、详细指标等,支持对接AIOps指标巡检,利用机器学习技术自动发现异常指标,实现对于各类系统的实时监控。详细参考全栈监控。
五:成本与费用
5.1 智能冷存储层发布,优化长周期数据保存成本
对于超过30天以上的数据,由于数据量规模较大用户有降低存储成本的诉求,同时由于该部分数据可作为如审计及运营报表的数据源,依然需要进行查询分析。早前针对该场景,用户需要将数据归档到OSS后,在需要使用是重新导入SLS进行分析。
为了优化该场景体验,SLS发布了智能冷存储层功能,对于超过30天的热数据,可以通过设置TTL将热数据转换为冷数据,降低存储成本的同时兼顾了用户的查询分析需求。详细请参考智能冷热分层存储。
5.2 数据加工架构升级,免除不同服务模块间数据流转费用
SLS正在逐步对于数据加工模块进行了架构升级,充分发挥SLS一站式数据平台的优势,数据加工功能从Logstore读取及写入数据将不再需要在不同服务模块间数据流转。
本次架构升级预计在3月底全网发布,全网升级后SLS团队将通过官网等渠道向用户公告,届时使用数据加工服务的用户可以重启已运行的加工任务,重启后的加工任务将运行到新的架构中。运行在新架构的任务将享受到架构优化带来的红利,由于避免了不同服务模块间数据流转,会直接减少数据加工产生的数据读写流量(压缩后)及请求数费用。
5.3 Project/Logstore级别用量明细透出,让用量更清晰
用量明细一直是用户普遍提到的诉求,在2021年SLS除成本管家应用外,在控制台首页也集成了阿里云控制台的账单明细数据页面,为用户提供了详细的用量明细数据。后续SLS将对于用量明细的能力进行进一步优化,计划在首页直接提供原生的用量明细功能,并支持过滤排序等能力,让用户的SLS使用更加清晰可控。该发布预计在今年4月份之前,敬请大家体验并反馈。
写在最后
2022年的用户体验调研问卷已经开始收集,如您有任何的建议,欢迎您通过用户体验调研问卷向我们反馈,链接:
用户体验优化是一件需要持续迭代坚持去做的事情,SLS团队也将不忘初心,为用户提供更多有价值的能力。
对SLS相关内容感兴趣的,也可以通过如下方式了解更多,谢谢关注:
- SLS首页:https://www.aliyun.com/product/sls
- 知乎:https://zhuanlan.zhihu.com/aliyunlog
- 微信公众号:日志服务 or LogAnalytics
- 哔哩哔哩:https://space.bilibili.com/630680534