网站流量日志分析--统计分析--分组 topN--业务需求|学习笔记

简介: 快速学习网站流量日志分析--统计分析--分组 topN--业务需求

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第四阶段)网站流量日志分析--统计分析--分组 topN--业务需求】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/696/detail/12230


网站流量日志分析--统计分析--分组 topN--业务需求


1、统计分析当中分组 top 问题所谓的 top 问题指的是把需要分析的数据按照某种规律进行排序,只取前面几个,比如 top3,top5最多的前五个。举例,在企业中,统计在今年双11购物金额最多的前三名是哪三个这就是一个非常详细的top n 问题。top n 在面向分析也就是olap中是一类非常常见的问题,还会引申出一个知识点分组函数,也称之为窗口函数

2、需求描述统计每小时各来访 host 的产生的 pvs 数最多的前N个

(1)数据表dw_pvs_ refererhost_everyhour

(2)分组字段看需求中比较敏感的字眼每和各时间维度(hour),各来访的hosturl主机当中一部分从百度来从谷歌来来访维度(host)。

(3)度量值count(*)基于两个维度分组之后进行 pvs 的统计没有过滤静态资源还要找出最多的前 n 个在统计完成后 outby

取出的 top 级,比如 top3,以前三个为例,需求看起来很明确,最核心是没有确认是哪个数据表没有时间 session 会话相关的,跟点击流模型的数据应该排除,剩下宽表但是在做需求,在做业务的时候不要忘记思考指标是否熟悉,每小时来访host,统计平均数。指标在之前的序列中计算过,打开数仓表计算的指标以中间结果的形式保存在数仓中,dw_pvs_ refererhost_everyhour 临时表中保存的数据正是之前统计的 pvs,没有 top n 的问题,进行数据查看有 ref_host 从哪里来,monthdayhour 几月哪天几个小时排序第一个是111第二个13,6,3,0点中的 host因此当对数仓中的业务指标前后产生关联不需要宽表重新计算。的数据表直接是用之前的这个表。

image.png

3、找出最多前 n 不是整体的最多前 n 个而是每个小时内最多的前n个看 hour 字段111是来自 blog. fens.me,0点钟取三个一点钟取三个两点钟取三个这类问题就是在 hive 当中或者面向分析当中非常常见的分组问题,的是每个分组里最多的前几个。而不是全局的最多前几个,如果让计算全局最多的前几个,直接把 ref host cnts 字段做排序,排序之后直接取出现最多前几个,但是取top级时有分组的概念存在

4、找出每个小时内最多的前几个,比如一个框代表是一个小时,零点钟一点钟两点钟。假如创建 pvs_refererhost_everyhour 表

根据 hour 默认会有分组的动作存在在每个小时内是不一样的简单伪造一些数据

image.png

每个组内的前三个分组 top n 问题在数据不同的分组内找出组内的共性

image.png

注意再进行全局排序取前几个是行不通的

 

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
9月前
|
人工智能 运维 监控
一招高效解析 Access Log,轻松应对泼天流量
一招高效解析 Access Log,轻松应对泼天流量
174 0
一招高效解析 Access Log,轻松应对泼天流量
|
PyTorch 算法框架/工具
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
本文介绍了PyTorch中的F.softmax()和F.log_softmax()函数的语法、参数和使用示例,解释了它们在进行归一化处理时的作用和区别。
1352 1
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
|
jenkins 持续交付
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
|
监控 网络协议 CDN
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
|
存储 Java 关系型数据库
基于JSP的九宫格日志网站
基于JSP的九宫格日志网站
|
JSON 中间件 数据格式
Gin框架学习笔记(六)——gin中的日志使用
Gin框架学习笔记(六)——gin中的日志使用
1066 0
|
7月前
|
监控 容灾 算法
阿里云 SLS 多云日志接入最佳实践:链路、成本与高可用性优化
本文探讨了如何高效、经济且可靠地将海外应用与基础设施日志统一采集至阿里云日志服务(SLS),解决全球化业务扩展中的关键挑战。重点介绍了高性能日志采集Agent(iLogtail/LoongCollector)在海外场景的应用,推荐使用LoongCollector以获得更优的稳定性和网络容错能力。同时分析了多种网络接入方案,包括公网直连、全球加速优化、阿里云内网及专线/CEN/VPN接入等,并提供了成本优化策略和多目标发送配置指导,帮助企业构建稳定、低成本、高可用的全球日志系统。
834 54
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
373 9