9.数据保护伞使用介绍|学习笔记

简介: 快速学习9.数据保护伞使用介绍

开发者学堂课程【DataWorks一站式大数据开发治理平台精品课程:9.数据保护伞使用介绍】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1246


9.数据保护伞使用介绍

内容介绍:

一、数据保护伞的入口

二、数据保护伞的功能

三、数据发现

四、数据分级管理

五、数据识别规则

六、规则案例

七、自生成数据识别模型

八、用户管理    

九、数据访问

十、数据风险

十一、水印功能

一、数据保护伞的入口

直接根据域名进入:https://dsg.data.aliyun.com/index.htm#/leadingPage

数据保护伞是 dataworks 个子模块,dataworks 的全部产品里面的数据治理找到数据保护伞的入口。

二、数据保护伞的功能

数据保护伞从数据发现、数据保护、监控审计、溯源四个方面,事前、事中、事后全流程对企业核心数据进行保护;

第一: 数据保护伞可以自动分辨出那些是敏感数据,以及敏感数据分别分部在哪里?

第二数据保护伞的脱敏功能在保证数据开发、数据分析同学去使用数据同时,能做到数据的可用不可见

第三数据保护伞可以记录谁在什么时间、什么方式试用了什么数据,并且可以帮助企业识别出那些是有风险的数据操作

第四在企业发生数据泄露后,数据保护伞的数据水印功能可以帮助企业排查谁在那次操作中泄露的

三、数据发现

事前分级分类功能:

企业可以根据自己的数据安全管理规范,来灵活的配置自己分级策略和对应的敏感数据识别规则,后面数据保护伞会根据匹配值的规则自动扫描最终的结果在数据发现页面展示。在数据发现界面看到一-些数据统计信息和对应的明细信息。


四、数据分级管理

最多可以设置8个级别,-般设置公开、内部、敏感、机密等级别,通过拖拽实现等级的改变,通过编辑按钮可以将一些敏感数据识别规则挂号到这个分级下,从而可以实现敏感数据的分级管理。此页面只有自己创建的可以删除,可操作它的按钮改变它的级别,往上下拖动。


五、数据识别规则

可以从规则界面进入数据识别规则,规则主要包括4个功能。

1、数据识别规则主要包括模板添加和自定义添加,每一个模板添加到后面都有自己的算法支持。

2、数据数据规则支持内容扫描和字段扫描,可以定义正则,使用固定特征的数据比如: id ,用正则配置id的六位数字的命中规则\d{6}

像IDID的6位数字,可以根据到d大括号的6来进行用正的表达式表示测算扫描规则。

3、字段扫描规则,格式一般是项目名点表名点列名。如果是开发项目,后面要带上dav,在这段扫描规则中支持正则表达通配符。

4、对一些枚举值:比如说疾病类型、领导人它是一些词库,是一些有限的枚举值的集合在数据样本管理上传后在配置规则里选择内容扫描,下拉框能展现添加的。

image.png


六、规则案例

先创建规则,后面开发同学有创建的表,是可以实时识别出来的: create table lzztest08286 as select ’jiaxi(@ alibaba-inc.com‘

创建一个表,通过字段扫描识别数据,根据数据脱敏规则来对数据进行脱敏。

1、配置脱敏规则

(1)HASH

2假名:可以保证数据的特征不变。

(3)遮蔽:以*遮蔽

支持安全域,这个安全域的意思是,同一个安全域内,相同的值会被脱敏成同一个值;不同的安全域内,相同的值会被脱敏成不同的值,比如1880000000在安全域1都会被脱敏成1881111111,但在安全域2都会被脱敏成1882222222

目前hash和假名支持水印和安全域。

(4)到数据开发界面将全局脱敏按钮打开,注意: 定要手动开启生效按钮。在dataworks的设置界面找到相应的按钮,以下是操作后能达到的一个效果。

image.png

2.先处理一个表, 数据保护伞,新建规则,在模板规则里面选择个人信息添加自定义,选择分级为八级,字段扫描。输入lzz_test _dev.lzztest111222.*。这样就做了一个数据的识别。

image.png

3.现在做数据脱敏,对数据识别规则,选择刚刚的脱敏规则,脱敏方式遮盖,前一后一,保存。

image.png

4.打开相应的按钮,来创建表。现在表创建成功了,查看效果有没有达到,先确认的全局有没有打开,现在是打开的。

image.png

5.查询看看效果。已经达到设置的一个效果。

image.png

2、手动修改数据

如果觉得数据不是非常准也可以手动的修改。可以批量剔除,批量恢复,也可以修改规则名,规则。


七、自生成数据识别模型

1、新建模型

(1)选中的样本列数据需超过10行,并且不能存在中文字符,否则无法开始训练。选择的样本字段中存在中文字符,或数据长度小于4或者大于40。要注意的是选择样本,可以输入项目名,后面选择的表名相应的列。

(2)训练完成后-单击编辑按钮-弹出评估页面,如果下一步添加成功,它就会出现一个状态,就是训练中的状态剩余的多少时间。训练中的建模无法除,可以先终止再删除以上线使用的模型无法删除,可以删除规则再删除模型

2评估页面

(1)在自动生成数据模型的界面,可以编辑,编辑之后可以会弹出相应的评估页面,评估页面是默认展示实例的结果的,它会给一个相应的准确率,如果觉得可以,可以直接确定创建,如果觉得没有达到要的效果,可以重新训练。

(2)默认给出10个列的识别结果,您可以自行判断调整识别结果。如果准确率可以接受,可点击确定创建,模型即创建完毕;如果误报较多,可调整十个列的识别结果后,单击重新训练,进入第二次训练流程。(3)一般情况下,需要2-3次训练过程,方可获得比较理想的模型效果。

(4)创建成功,可以前往数据识别规则创建规则,也可以直接进入的规则界面,直接创建,在创建,数据识别规则选择刚刚创建的模型名称,点击确认。


八、用户管理

可以在规则下面新建用户组,在建立用户组选择数据原型,文本要是账号的形式,已经把demo2账号加入到数据添加组成员里,在数据脱敏这可以设计一个白名单,设置白名单达到效果就是上面设置的脱敏规则已经设置好了,如果把它添加白名单里面,它达不到一个脱敏的效果的。查询的结果就是设置的脱敏的规则,如果设到黑名单里面就会出现一个所有的内容都是展现出来对的,不会出现一个脱敏的效果。

九、数据访问

1、数据保护伞对数据资产数后的保护:

这里支持敏感数据全量访问记录并且可以指定些数据的识别规则,并且可以自动识别出哪些数据是存在风险操作。

2、在前面配置规则后在第二天敏感信息的访问记录会在这里展现, 我们一般可以看到2种类型的记录:

(1)种:一些sq|的操作select..

(2)第二种:通过 tunnel 下载数据

数据访问一般在界面可以手动去标记,把它标记为风险数据,就是在详情里面可以查询操作,哪些数据是存在风险的,一般是两种类型的sql的查询和一种是tunnel下载数据的操作。


十、数据风险

数据风险界面,在数据风险界面可以批量操作这些数据有没有风险,把它标记为风险或者是标记无风险,在标记风险,可以设置相应的关键字。下面的界面就是怎么创建风险规则,创建风险规则可以配置规则指明哪个规则类型,哪个等级,也可以默认选择全部的类型。

image.png


十一、水印功能

1、查询出来后---点击下载

2、回到数据数据源界面创建溯源任务---将刚刚下载的数据导入进去

目前只有hash和假名没有水印的入口,可以在规新建规则打开相应的路口,相应的按钮,在数据溯源里面上传的数据,上传数据开始开始回流,开始溯源,溯源成功就会出现相应的检查的详情,能看到操作者是谁,在什么时间做了什么样的命令,可以帮助企业更快速的查找输出数据,可能泄露的数据。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
存储 弹性计算 监控
深度解读:公有云与私有云有哪些区别?
如今云计算逐渐兴起,越来越多传统企业及用户对云计算基础产品【云服务器、云主机】有需求,准备把数据往云上迁移,其中云主机私有云、公有云和混合云,不知道如何选择云主机类型,下面小编为大家科普什么是公有云、什么是私有云,希望对你有帮助。
5035 0
深度解读:公有云与私有云有哪些区别?
|
8月前
|
机器学习/深度学习 人工智能 编解码
EasyControl Ghibli:在线体验一键生成宫崎骏动画风,开源AI模型让你的照片秒变吉卜力
EasyControl Ghibli是基于扩散模型的AI工具,通过条件注入技术将普通照片转化为吉卜力动画风格,仅需100张训练样本即可精准还原标志性光影与色调特征。
1186 11
EasyControl Ghibli:在线体验一键生成宫崎骏动画风,开源AI模型让你的照片秒变吉卜力
|
分布式计算 DataWorks 数据处理
"DataWorks高级技巧揭秘:手把手教你如何在PyODPS节点中将模型一键写入OSS,实现数据处理的完美闭环!"
【10月更文挑战第23天】DataWorks是企业级的云数据开发管理平台,支持强大的数据处理和分析功能。通过PyODPS节点,用户可以编写Python代码执行ODPS任务。本文介绍了如何在DataWorks中训练模型并将其保存到OSS的详细步骤和示例代码,包括初始化ODPS和OSS服务、读取数据、训练模型、保存模型到OSS等关键步骤。
699 3
|
9月前
|
人工智能 智能设计 物联网
阿里云设计中心携手金鸡电影节青年创作人,用AI技术加速电影工业升级
阿里云设计中心携手金鸡电影节青年创作人,用AI技术加速电影工业升级
|
人工智能 前端开发 Java
基于开源框架Spring AI Alibaba快速构建Java应用
本文旨在帮助开发者快速掌握并应用 Spring AI Alibaba,提升基于 Java 的大模型应用开发效率和安全性。
2411 54
基于开源框架Spring AI Alibaba快速构建Java应用
|
12月前
|
存储 SQL 大数据
从数据存储到分析:构建高效开源数据湖仓解决方案
今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。
|
SQL 安全 数据库
南大通用GBase 8s 查看用户权限查询指南
本文详细介绍了南大通用GBase 8s数据库中用户权限的查看与管理方法,涵盖数据库级别和表级别权限的定义、查看及赋权操作,以及相关系统表的使用,旨在帮助数据库管理员有效维护数据访问安全。
|
监控 NoSQL 数据可视化
Redis数据可视化如何实现?
Redis 是一种高性能键值存储数据库,广泛应用于缓存、消息队列等场景。随着 Redis 的普及,高效管理 Redis 数据变得至关重要。Redis 可视化工具应运而生,帮助用户直观地查看和管理数据,提升工作效率。本文推荐了几款优秀工具,如 Redis Desktop Manager、Redis Commander、RedisInsight 等,详细介绍了它们的功能、特点及适用场景,帮助您选择最适合需求的工具。此外,还推荐了板栗看板等协作工具,以增强团队协作效率。
371 0
|
安全 Java 程序员
阿里开发手册 嵩山版-编程规约 (四)OOP规约-Java程序员必看知识点!!!
《阿里开发手册 嵩山版》的OOP规约部分强调了面向对象编程的最佳实践,包括正确使用静态方法、覆写方法的注解、可变参数的使用、接口的稳定性、equals和compareTo方法的使用、BigDecimal的正确比较、包装类与基本数据类型选择、POJO类的属性和方法设计等,以提升代码的质量和维护性。
|
DataX
datax数据推送,汉字乱码
datax数据推送,汉字乱码.
816 1