网站流量日志分析--统计分析--复合指标分析--平均访问频度|学习笔记

简介: 快速学习网站流量日志分析--统计分析--复合指标分析--平均访问频度

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第四阶段)网站流量日志分析--统计分析--复合指标分析--平均访问频度】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/696/detail/12216


网站流量日志分析--统计分析--复合指标分析--平均访问频度


内容介绍

一、平均访问频度

二、梳理

 

一、平均访问频度

平均每个独立访客天一天内访问网站的次数(产生的 session 个数),产生的会话多频度就高产生的会话少频度就低如果计算平均访问频度就需要把总的访问次数计算出来除以今天来的人就可以得到指标

 

二、梳理

1、平均访问频度: 天之内访问访问人均产生的会话次数( session 次数)

=总的会话次数/独立的访客人数

针对这两个指标就是之前计算的基础指标总的会话数计算出来是 vv独立访客数是今天之中不重复的用户数是 uv两个指标相除最终得到平均访问频度

=vv/uv

2、数据表:; dw_ webflow_ basic_ info (基础指标信息表)

基础指标直接用来计算

回到数仓发现记录了 basic_info 基础信息表正好与计算出来的 uv pv vv 各种指标直接相除即可

image.png

第一种方式直接用基础指标信息表因为当中它既有 uv pv 和 vv所有的基础指标都可以使用不需要再计算

3、分组字段分区表,时间( day ) day 比较特殊还是表的分区字段通过 where 分区过滤即可。

4、度量值vv/uv 两个指标相除

Select

vv/uv

from dw_webflow_ basic_ info t where t . datestr="20181101" ;起别名 t

5、执行指标计算出来是0.055,指标不管怎么计算在业务含义下不可能小于1,来一次才能计算一次会话所以不准确sql 没有问题sql只是把基础信息表中的两个指标进行相除应该是 vv/uv 出现错误uv 是独立访客以宽表计算的从宽表中根据去重的 ip 数vv 是点击率模型 visit 模型进行计算回到代码预处理阶段当生成 pageviews 模型当读取数据输出时做出一个判断if (v.isVaild

()) {,用一个标记v表示数据是否合法只有合法的数据为 true 的数据才能进行处理在预处理中原数据没有过滤静态资源点击流模型是过滤完静态资源再进行处理在计算 uv 和 vv 时uv 使用的是宽表没有过滤静态资源而 vv 是点击流模型是过滤过静态资源

---上述指标不符合客观规律这种错误在企业中很难发现

---原因:在计算基础指标的时候 uv 使用的宽表的数据没有进行静态资源的过滤。

---vv 使用的点击流模型数据在数据预处理阶段进行了静态资源的过滤。

---一个采用过滤的一个不采用过滤的计算的指标出现了谬论。

如果统一采用未过滤静态资源都是用未过滤的要想过滤都用过滤的不要一个过滤一个没有过滤

---统一以静态资源过滤之后的模型进行计算因为需要会话指标

原来的宽表不考虑因为没有 session 的概念不好统计 uvvv这里有点击率模型 pageviews 和 visit区别在于 visit 根据pageviews做了一个聚集pageviews 里面有重复的visit没有重复所以使用 visit 进行计算 ods_ click_ stream_ visit。查看表数据如果想要获得复合指标平均访问频度需要 vv 今 天总的会话次数里面有字段 session针对 session 做 count 统计就是今天的 vv里面没有重复的 session根据 pageviews 聚集的uv是独立访客的人ip 表示人IP 可能会产生重复的比如张三产生了会话下午又产生了会话晚上也产生会话张三今天提供多个会话统计独立访客人时要对 ip 进行去重

6、使用点击流模型 visit 表进行计算进行过滤vv 就是 session 的次数这个指标的得出来就是今天总的会话数两个相除得到的就是统一的过滤静态资源之后的指标

select

count(t.session)/count(distinct t.remote_ addr)

from ods_ c1ick_ stream_ visit t where t.datestr="20181101";

7、sql 执行得到的是1.075,今天来到网站的用户平均每个人都会产生1.075个会话大于一个可能产生两个产生三个指标从数据本身看是符合客观规律的没有小于1。

image.png

8、理清业务的同时考虑哪个数据表能够计算出来如果 sql 没有出错最后计算的结果可能也会出错而这个错误是逻辑上的错误一定要认真梳理

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
8月前
|
存储 运维 监控
SelectDB 实现日志高效存储与实时分析,完成任务可领取积分、餐具套装/水杯/帆布包!
SelectDB 实现日志高效存储与实时分析,完成任务可领取积分、餐具套装/水杯/帆布包!
|
3月前
|
监控 安全 搜索推荐
使用EventLog Analyzer进行日志取证分析
EventLog Analyzer助力企业通过集中采集、归档与分析系统日志及syslog,快速构建“数字犯罪现场”,精准追溯安全事件根源。其强大搜索功能可秒级定位入侵时间、人员与路径,生成合规与取证报表,确保日志安全防篡改,大幅提升调查效率,为执法提供有力证据支持。
167 0
|
8月前
|
SQL 监控 数据挖掘
SLS 重磅升级:超大规模数据实现完全精确分析
SLS 全新推出的「SQL 完全精确」模式,通过“限”与“换”的策略切换,在快速分析与精确计算之间实现平衡,满足用户对于超大数据规模分析结果精确的刚性需求。标志着其在超大规模日志数据分析领域再次迈出了重要的一步。
584 117
|
5月前
|
监控 安全 NoSQL
【DevOps】Logstash详解:高效日志管理与分析工具
Logstash是ELK Stack核心组件之一,具备强大的日志收集、处理与转发能力。它支持多种数据来源,提供灵活的过滤、转换机制,并可通过插件扩展功能,广泛应用于系统日志分析、性能优化及安全合规等领域,是现代日志管理的关键工具。
833 0
|
7月前
|
自然语言处理 监控 安全
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
阿里云可观测官方发布了Observable MCP Server,提供了一系列访问阿里云可观测各产品的工具能力,包含阿里云日志服务SLS、阿里云应用实时监控服务ARMS等,支持用户通过自然语言形式查询
957 0
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
|
6月前
|
人工智能 运维 监控
Aipy实战:分析apache2日志中的网站攻击痕迹
Apache2日志系统灵活且信息全面,但安全分析、实时分析和合规性审计存在较高技术门槛。为降低难度,可借助AI工具如aipy高效分析日志,快速发现攻击痕迹并提供反制措施。通过结合AI与学习技术知识,新手运维人员能更轻松掌握复杂日志分析任务,提升工作效率与技能水平。
|
运维 监控 Cloud Native
一行代码都不改,Golang 应用链路指标日志全知道
本文将通过阿里云开源的 Golang Agent,帮助用户实现“一行代码都不改”就能获取到应用产生的各种观测数据,同时提升运维团队和研发团队的幸福感。
655 131
|
9月前
|
存储 消息中间件 缓存
MiniMax GenAI 可观测性分析 :基于阿里云 SelectDB 构建 PB 级别日志系统
基于阿里云SelectDB,MiniMax构建了覆盖国内及海外业务的日志可观测中台,总体数据规模超过数PB,日均新增日志写入量达数百TB。系统在P95分位查询场景下的响应时间小于3秒,峰值时刻实现了超过10GB/s的读写吞吐。通过存算分离、高压缩比算法和单副本热缓存等技术手段,MiniMax在优化性能的同时显著降低了建设成本,计算资源用量降低40%,热数据存储用量降低50%,为未来业务的高速发展和技术演进奠定了坚实基础。
393 1
MiniMax GenAI 可观测性分析 :基于阿里云 SelectDB 构建 PB 级别日志系统
|
9月前
|
SQL 存储 自然语言处理
让跨 project 联查更轻松,SLS StoreView 查询和分析实践
让跨 project 联查更轻松,SLS StoreView 查询和分析实践
195 1