为你的前端页面量身打造一套实时监控指标

简介: 为你的前端页面量身打造一套实时监控指标

背景

今年年初,我进入一个基于React开发的新项目,负责整个前端的开发工作。为了保证整体的质量和用户体验,我们需要在项目上线时对应用进行稳定性和性能监控,确保线上发现异常时能够被第一时间发现和解决。

工欲善其事,必先利其器,这时候我们需要一个好轮子。对于前端页面的监控,通常包括页面的访问性能、页面JS错误、资源加载错误,以及后端API的请求情况。

UC研发效能团队有一个叫做【岳鹰】的WEB高可用监控产品,支持H5、小程序、Flutter监控,监控指标比较齐全,而且支持线上海量访问的实时监控,于是决定试用一把。

下面我就讲讲我怎么在新项目里面设定业务的性能/体验指标,并且通过监控工具来分析、优化最终达成目标。

Step01,一行代码搞定前端监控

体验【岳鹰】的Demo项目,大概了解岳鹰提供的监控和分析功能,我比较关心的功能都具备:

  • 页面性能监控,而且支持性能趋势 + 性能数据样本分布,对于分析长尾的慢访问比较有帮助
  • JS错误监控,并且支持source map还原,查看线上混淆的错误代码很方便
  • API错误监控,很多时候接口错误也会导致前端报错,支持API错误码、响应内容很重要

并且,接入也很简单,一行代码就可以完成。

下面是岳鹰的前端监控功能截图,有兴趣可以看看。


Step02,发现线上性能问题

接入【岳鹰】之后,可以随时查看项目的线上访问性能,JS错误之类也会实时报警,真的是心中有数啊;心里只有一个字,【稳】。

但是项目上线一周之后,开始收到客服反馈的问题,有不少用户反馈页面打开页面比较慢、裂图(由于我这个项目是海外的活动运营业务,页面内容包含一些运营和动画图片,看不了图片是很致命的体验问题)。

收到问题反馈之后,第一时间就想要看看线上的实际情况,看能否找到问题根因。而从岳鹰平台展示的实际页面性能,页面的加载速度其实并不差,页面加载耗时均值在1S左右(做过海外应用的同学应该知道这个性能不差了)。

研究了【岳鹰】页面性能指标的采集算法,发现页面性能的统计是 loadEventStart - fetchStart ,对于我使用React的这个项目,页面主流程基本都是在 load 之前之后,因此并不能很好的反映真实性能情况。

自己动手丰衣足食,这时候就需要自己来做页面加载流程的耗时统计了。那岳鹰支持用户自己上报埋点吗?一看还真支持。

Step03,自定义监控解决问题

【自定义监控】按照自定义监控协议上报即可实现一个新的监控指标,可用于业务错误、业务关键节点等监控场景。

这是自定义监控的官方介绍,刚好满足我的监控需求。简单看下岳鹰自定义监控能力,支持以下几大类。

  • "次数"型监控

如:xx包下载失败次数、xxsdk初始化次数、xx按钮点击次数、xx签到异常次数...

  • "平均值"型的监控

如:xx文件加载耗时、xx业务页面初始化耗时、xx小程序启动耗时、xx组件包大小...

  • "率"型的监控

如:包下载成功失败率、缓存命中率、页面唤起客户端成率...

  • 分组归类

如:监控多个包时,按包统计数据、小程序启动耗时、按小程序id统计数据...

  • 自定义区间分布

如:启动耗时在1-2s、2-5s的分布...

  • 业务自定义字段

上报一些用于辅助业务分析的字段,如:requestId、fileName...

支持上报,还要平台支持统计分析才行。和其他监控功能(如:JS异常、页面性能)一样,自定义监控也提供了趋势分析、维度分析、高级查询、报警等功能(内心一阵窃喜)。

监控项设计

这里结合我们的页面流程讲一下,对于用户访问页面有哪些关键的事件。

页面加载的第一步,会有一个过渡的 loading svg 动画,核心是首屏的3个模块,完成渲染即一个完整周期;也就是说,只有保证首屏3个模块成功加载,才能让用户体验到完整、流畅的页面。

页面流程示意如下。

基于这个页面流程,我设计了数据加载成功率、加载耗时这2个指标。利用岳鹰的自定义监控,我可以创建一个叫做「体感加载时长」的监控项,通过JS探针把这2个指标数据上报到平台去。

在确定数据采集时机之后,使用如下代码上报一条自定义数据。嗯,又是一行代码搞定,妥妥的。

  category: 100,
  msg: '体感加载时长',
  w_succ: 1,// 初始化数据成功,不成功是为0
  wl_avg1: 94 // end - start (ms)
})

监控效果

每次版本迭代后,都可以在平台观察实时数据与汇总情况,实时了解用户对当前页面的直观等待感受及作为页面优化依据。对比上线第一版的页面性能数据,我通过自定义监控项把用户的真实访问耗时统计出来了,发现用户体感耗时3S+(我滴神。。)。

基于线上真实数据,才得以进一步优化把用户体感耗时降到1S左右。具体做的事情包括把一些不属于主流程的module放到首屏之后加载、大图片优化、JS裁剪等等(具体内容这里不展开了,有兴趣以后再发文介绍)。

  • 体感耗时趋势
  • 数据成功率趋势

除了上述监控指标,我们还利用自定义打点来记录script with module、vw css unit、intersectionObserver等特性的支持度(app是使用系统webview),以及一些其他的业务打点。

例如,在监控一段时间后发现 IntersectionObserver 实际支持程度达到 96%,根据这个线上结论,终于可以放心的把 100k 的 polyfill 重整为降级的替代方案。
类似的case还有很多,这里就不赘述了。总之,监控whatever you want!

总结:怎么为你的业务量身打造线上监控

在这个项目摸索的过程中,沉淀了一些经验,跟大家分享下我设计自定义监控的心得,大致有以下几种场景,以及结合岳鹰的使用技巧。

场景1:纯次数监控

如:监控某个(些)sdk初始化错误次数
如图5所示,创建监控项时,只需要填写监控项名称、得到监控项代码就可以了进行如下所示的打点监控了

wpk.report({
  category: 103, //平台创建时,生成的code
  msg: 'sdk1'
})
 如果同时想监控多个sdk初始化项目,那么也无需创建多个监控项,直接把sdk的名称作为msg的值进行上报即可满足你的需求

场景2:次数 + 耗时监控

如:某个重要的页面访问次数和从路由从创建到绘制完成耗时情况监控。
如图5所示,相比场景1,需要 打开计算均值的开关 ,并给它取个别名叫页面绘制耗时,打点代码则如下所示。

wpk.report({
  category: 103, //平台创建时,生成的code
  msg: '领取红包页',
  wl_avg1: 43// 页面绘制耗时;如vue中mounted的时间减去beforeCreate的时间得到耗时
})
使用wl_avg1上报页面绘制耗时

场景3:次数 + 耗时 + 成功率监控

如:领取红包的次数、领取成功率、领取红包耗时的监控。

如图5所示,比起场景2,创建监控项时,需要 打开计算(成功)率的开关,并为其起个别名比如就叫做领取成功率,打点代码如下所示。

// 领取红包成功
wpk.report({
  category: 103, //平台创建时,生成的code
  msg: '领取5元红包',
  wl_avg1: 43,// 领取红包接口耗时
  w_succ: 1
})
// 领取红包失败
wpk.report({
  category: 103, //平台创建时,生成的code
  msg: '领取5元红包',
  wl_avg1: 43,// 领取红包接口耗时
  w_succ: 0
})

如果还有 ”10元红包“、”15元红包“等多种分类,msg的值直接填写红包分类即可;如果想监控的是失败率,把监控项中 ”领取成功率“改为”领取失败率“,上报日志时领取成功w_succ的值设为0,而领取失败w_succ的值设为1即可

场景4:次数 + 耗时 + 成功率 + 自定义字段

还是以领取红包为例,当领取失败时,不一定是接口错误,可能是业务上的错误,比如:已经领取过、没有资格、已被送到小黑屋等。

如图5所示,相对于场景3,需要在c1~c5中(按需)填上相应的别名,打点代码如下所示。

// 领取红包成功
wpk.report({
  category: 103, //平台创建时,生成的code
  msg: '领取5元红包',
  wl_avg1: 43,// 领取红包接口耗时
  w_succ: 1,
  c1: 'success'
})
// 领取红包失败
wpk.report({
  category: 103, //平台创建时,生成的code
  msg: '领取5元红包',
  wl_avg1: 43,// 领取红包接口耗时
  w_succ: 0,
  c1: '您已经领取过'
})

在自定义字段中上报了你的业务信息后,需要时,既可以作为高级查询的查询条件,又可以按照自定义字段的值进行聚合(groupBy)

总结

经过一轮项目实践,总结通常应用会有两方面的监控诉求(技术),一方面是通用的技术指标,例如性能、JS异常等;另一方面是结合业务场景的监控项(在我的这个项目里面,有图片加载耗时、活动环节的监控等)。
在有了清晰的监控需求,明确监控指标之后,基本都可以通过岳鹰快速实现,真正做到事半功倍,对线上业务的运行情况了然于胸。

访问岳鹰全景监控平台

相关文章
|
2月前
|
JavaScript 前端开发 程序员
前端原生Js批量修改页面元素属性的2个方法
原生 Js 的 getElementsByClassName 和 querySelectorAll 都能获取批量的页面元素,但是它们之间有些细微的差别,稍不注意,就很容易弄错!
|
2月前
|
前端开发 数据安全/隐私保护
.自定义认证前端页面
.自定义认证前端页面
14 1
.自定义认证前端页面
|
2月前
|
前端开发 JavaScript 搜索推荐
前端懒加载:提升页面性能的关键技术
前端懒加载是一种优化网页加载速度的技术,通过延迟加载非首屏内容,减少初始加载时间,提高用户访问体验和页面性能。
|
2月前
|
前端开发 安全 JavaScript
在阿里云快速启动Appsmith搭建前端页面
本文介绍了Appsmith的基本信息,并通过阿里云计算巢完成了Appsmith的快速部署,使用者不需要自己下载代码,不需要自己安装复杂的依赖,不需要了解底层技术,只需要在控制台图形界面点击几下鼠标就可以快速部署并启动Appsmith,非技术同学也能轻松搞定。
|
3月前
|
前端开发 JavaScript
回顾前端页面发送ajax请求方式
回顾前端页面发送ajax请求方式
44 18
|
4月前
|
前端开发 JavaScript API
前端JS读取文件内容并展示到页面上
前端JavaScript使用FileReader API读取文件内容,支持文本类型文件。在文件读取成功后,可以通过onload事件处理函数获取文件内容,然后展示到页面上。
129 2
前端JS读取文件内容并展示到页面上
|
3月前
|
前端开发 数据安全/隐私保护
angular前端基本页面验证
angular前端基本页面验证
36 1
|
3月前
|
前端开发
搭建个人博客--1、前端页面
搭建个人博客--1、前端页面
29 1
|
5月前
|
开发框架 前端开发 Java
【前端学java】SpringBootWeb极速入门-实现一个简单的web页面01
【8月更文挑战第12天】SpringBootWeb极速入门-实现一个简单的web页面01
89 3
|
4月前
|
前端开发 JavaScript
前端基础(一)_前端页面构成
本文介绍了前端页面的基本构成,包括HTML(负责页面的结构和语义)、CSS(负责页面的样式和表现)和JavaScript(负责页面的行为和动态效果)。文章通过示例代码展示了如何使用这三种技术来创建一个简单的网页,并解释了HTML文档的结构和语法。
49 0