丰富日志信息,日志服务和OSS外表进行关联分析

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 1. 日志信息不够丰富,怎么破 在日志分析场景中,我们经常遇到这样的问题,日志中的信息不完善。例如,日志中包含了用户的点击行为,但是却缺少用户的属性,例如注册信息、资金、道具等信息。 而产品PD、运营同学分析日志的时候,往往需要这种联合分析用户的属性和行为,例如分析用户地域对付费习惯的影响。

1. 日志信息不够丰富,怎么破

在日志分析场景中,我们经常遇到这样的问题,日志中的信息不完善。例如,日志中包含了用户的点击行为,但是却缺少用户的属性,例如注册信息、资金、道具等信息。

而产品PD、运营同学分析日志的时候,往往需要这种联合分析用户的属性和行为,例如分析用户地域对付费习惯的影响。

image.png

想要推动开发同学在日志里边添加一些必要字段?这几乎是不可能的,一方面,跨团队沟通困难,让开发修改程序可能要拖很久;另一方面,有些属性是动态,需要经常改变,例如用户的账户状况。

2. 引入外表,补充日志信息

那么,为了解决信息短缺的问题,我们有什么办法呢?利用SQL中外表概念,和Join语法,把日志抽象成一张表。属性抽象成一张表,两张叫利用外键Join分析。那么属性信息放在哪里呢?

那么属性放在哪里呢?根据信息修改的频率,我们可以选择把数据放在MySQL或者OSS:

image.png

对于更新不频繁的数据。我们可以周期性的写一份数据到OSS对象存储上。那么,只需要支付OSS存储的钱即可,不需要支付MySQL保留的计算实例的钱,可以节省下很大一部分开支。

3. 日志服务(SLS)分析平台,提供日志️OSS(MySQL)的交叉分析能力

日志服务提供的这种跨数据源(OSS)的分析能力,可以帮助用户解决以下问题:

  1. 节省费用:

    • 异构数据,根据数据的特性选择合适的存储系统,最大限度的节省成本。。 对于更新少的数据,选择存放在OSS上,只需要支付少量的存储费用。如果存放在MySQL上,还要支付计算实例的费用。
    • OSS是阿里云的存储系统,可以走内网读取数据,免去了流量费用。
  2. 节省精力

    • 不需要搬迁数据到同一个存储系统中。大家都知道,不同的存储系统,格式和API都不同,要把数据搬迁到同一个系统中,涉及到复杂的数据转换;数据一旦有更新,还要经常维护。在我们轻量级的运行时联合分析平台中,避免数据搬迁,节省了用户精力,解放用户生产力,可以把有限的开发人力投入到主营业务中。
  3. 所见即所得

    • 当用户需要分析数据时,使用一条SQL,在秒级别即可获得结果。
    • 把常用的视图,定义成报表。需要的时候,打开即可看到结果。

使用这种交叉分析,需要通过这几步操作:

  1. 上传CSV格式文件到OSS。
  2. 使用API,在日志服务(SLS)定义虚拟表,定义csv文件格式,映射到OSS文件。
  3. 在日志服务(SLS)控制台,使用SQL引用oss文件。

4. 使用样例

接下来,我们将以实际样例来演示OSS外部存储的使用。

4.1 上传csv文件到OSS

我们定义一份属性文件,在文件中,包含了5列,分别是用户id,用户昵称,性别,省份,年龄

userid,nick,gender,province,age
1,阳光男孩,male,上海,18
2,么么茶,female,浙江,19
3,刀锋1937,male,广东,18

把这份文件,保存成文本user.csv,使用osscmd上传到OSS上(也可以在OSS控制台上传):

osscmd   put  ~/user.csv   oss://testossconnector/user.csv

4.2 在日志服务(SLS)定义外部存储

SLS可以通过SQL定义虚拟外部表,映射到OSS文件。在SQL中,需要指定三部分信息:

  1. 表的schema:包含哪些列,每一列的属性是什么。
  2. OSS访问信息: oss的域名,oss的access id 和access key。
  3. OSS文件信息:文件在哪个bucket下,文件的object路径是什么。

使用这条SQL,定义一个外部存储名为user_meta:

* | create table user_meta  ( userid bigint, nick varchar, gender varchar, province varchar, gender varchar,age bigint) with ( endpoint='oss-cn-hangzhou-internal.aliyuncs.com',accessid='LTA288dDkllsjdsalcxaeewiak',accesskey ='EjsowAkDiq22Ak$kjdskkalclaK',bucket='testossconnector',objects=ARRAY['user.csv'],type='oss')

在SQL中,分别指定了表的属性:

  1. userid为 bigint类型。
  2. nick为varchar类型。
  3. gender为varchar类型。
  4. province为varchar类型。
  5. age为bigint类型。

在SQL的with语法中,分别指定endpoint, accessid, accesskey, bucket, objects。 其中,objects是一个array,在array中,可以是多个OSS文件。

image.png

执行结果result为true,表示执行成功。

为了验证数据是否正确,我们执行SQL : select * from user_meta 查看结果:

image.png

可以看到,在日志服务中,已经成功的定义了外部存储,接下来,我们就可以在SQL中引用该外部存储的信息了。

4.3 日志和OSS文件联合分析

在原始日志中,包含了用户的id信息,那么我们可以通过关联日志中的id和oss文件中的userid,补全日志的信息。

image.png

4.3.1 在SQL中关联日志和OSS,输入SQL :

* | select * from chiji_accesslog l join user_meta1 u on l.userid = u.userid

可以看到,结果中,已经包含了OSS文件的内容。

image.png

4.3.2 接下来,我们可以统计,用户性别的访问情况:

* | select  u.gender, count(1)  from chiji_accesslog l join user_meta1 u on l.userid = u.userid group by u.gender

Jul-17-2018 11-35-49.gif

4.3.3 也可以统计年龄的访问情况:

* | select  u.age, count(1)  from chiji_accesslog l join user_meta1 u on l.userid = u.userid group by u.age

image.png

4.3.4 统计不同年龄段在时间维度上的访问趋势:

* | select  date_trunc('minute',__time__) as minute, count(1) ,u.age from chiji_accesslog l join user_meta1 u on l.userid = u.userid group by u.age,minute

image.png

5 更多日志分析方法

CDN日志分析

Kubernetes下日志采集、存储与处理技术实践

SLB访问日志分析:基于客户端来源和HTTP状态码的实践

阿里云操作审计 - 日志安全分析

阿里云DDoS高防 - 访问与攻击日志实时分析


相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
28天前
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
|
5天前
|
SQL 关系型数据库 MySQL
MySQL事务日志-Undo Log工作原理分析
事务的持久性是交由Redo Log来保证,原子性则是交由Undo Log来保证。如果事务中的SQL执行到一半出现错误,需要把前面已经执行过的SQL撤销以达到原子性的目的,这个过程也叫做"回滚",所以Undo Log也叫回滚日志。
MySQL事务日志-Undo Log工作原理分析
|
13天前
|
存储 运维 监控
Linux--深入理与解linux文件系统与日志文件分析
深入理解 Linux 文件系统和日志文件分析,对于系统管理员和运维工程师来说至关重要。文件系统管理涉及到文件的组织、存储和检索,而日志文件则记录了系统和应用的运行状态,是排查故障和维护系统的重要依据。通过掌握文件系统和日志文件的管理和分析技能,可以有效提升系统的稳定性和安全性。
33 7
|
15天前
|
监控 安全 Linux
启用Linux防火墙日志记录和分析功能
为iptables启用日志记录对于监控进出流量至关重要
|
1月前
|
监控 应用服务中间件 定位技术
要统计Nginx的客户端IP,可以通过分析Nginx的访问日志文件来实现
要统计Nginx的客户端IP,可以通过分析Nginx的访问日志文件来实现
108 3
|
1月前
|
存储 监控 安全
什么是事件日志管理系统?事件日志管理系统有哪些用处?
事件日志管理系统是IT安全的重要工具,用于集中收集、分析和解释来自组织IT基础设施各组件的事件日志,如防火墙、路由器、交换机等,帮助提升网络安全、实现主动威胁检测和促进合规性。系统支持多种日志类型,包括Windows事件日志、Syslog日志和应用程序日志,通过实时监测、告警及可视化分析,为企业提供强大的安全保障。然而,实施过程中也面临数据量大、日志管理和分析复杂等挑战。EventLog Analyzer作为一款高效工具,不仅提供实时监测与告警、可视化分析和报告功能,还支持多种合规性报告,帮助企业克服挑战,提升网络安全水平。
|
2月前
|
存储 SQL 监控
|
2月前
|
运维 监控 安全
|
2月前
|
存储 监控 安全
什么是日志管理,如何进行日志管理?
日志管理是对IT系统生成的日志数据进行收集、存储、分析和处理的实践,对维护系统健康、确保安全及获取运营智能至关重要。本文介绍了日志管理的基本概念、常见挑战、工具的主要功能及选择解决方案的方法,强调了定义管理目标、日志收集与分析、警报和报告、持续改进等关键步骤,以及如何应对数据量大、安全问题、警报疲劳等挑战,最终实现日志数据的有效管理和利用。
170 0
|
6月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

相关产品

下一篇
开通oss服务