开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

如何实现dataworks脱敏配置的流程?

如何实现dataworks脱敏配置的流程?

展开
收起
真的很搞笑 2023-07-01 15:59:53 127 0
6 条回答
写回答
取消 提交回答
  • 在阿里云 DataWorks 中实现数据脱敏配置的流程如下:
    前提条件:配置数据脱敏节点前,需要先配置好相应的输入节点。
    操作步骤:

    1. 登录 DataWorks 控制台。
    2. 在左侧导航栏,单击工作空间列表。
    3. 选择工作空间所在地域后,单击相应工作空间后的快速进入>数据开发。或者展开业务流程,右键单击目标业务流程,选择新建节点>数据集成>实时同步。
    4. 在新建节点对话框中,选择同步方式为单表(topic)到单表(topic)etl,输入名称,并选择路径(节点名称必须符合一定规范)。
    5. 在实时同步节点的编辑页面,鼠标单击转换>数据脱敏并拖拽至编辑面板,连线已配置好的输入节点。
    6. 单击数据脱敏节点,在数据脱敏对话框中,配置各项参数:
      • 新建脱敏规则:单击新建脱敏规则,在弹出来的新建脱敏规则对话框中进行设置。
      • 敏感数据类型:默认为选择已有,可在右侧下拉框选择已创建的敏感数据类型(包括内置和所有用户创建的敏感数据类型),也可切换新增类型,并在右侧输入框输入敏感数据类型名称(限制1~30字,包括中文、英文、数字)。需注意,系统会判断输入的文字与已有敏感数据类型名称是否相同(包括内置和该租户下所有用户配置的敏感数据类型),若相同则提示敏感字段类型重复。内置敏感数据类型包括手机号、身份证号、银行卡号、邮箱_内置、ip、车牌号、邮政编码、座机号、mac 地址、地址、姓名、公司名、民族、星座、性别、国籍等。
      • 脱敏规则名称:该文本框会自动代入填写的敏感数据类型,也可进行修改(限制1~30字,包括中文、英文、数字),当与该租户下所有用户创建的脱敏规则出现重名时,会提示规则名称重复。
      • 脱敏方式:DataWorks 支持的脱敏方式包括假名、哈希和掩盖三种方式。
        • 假名:会将一个值替换成一个具有相同特征的脱敏信息,脱敏后数据和脱敏前数据的格式保持一致。当选择的敏感数据类型为内置敏感数据类型(手机号、身份证号、银行卡号、邮箱_内置、ip、车牌号、邮政编码、座机号、mac 地址、地址、姓名、公司名)时,需要配置安全域(可选范围0~9),不同安全域的脱敏策略规则不一致,原始数据相同时,相同安全域脱敏后的数据也相同。当选择的敏感数据类型为非内置时,需要配置替换字符集(可输入大写字母、小写字母、和数字,多个字符请用英文逗号隔开),遇到字符集中的字符,即会被替换为其他相同类型的字符,若需要脱敏的数据不符合字符集范围则不脱敏。
        • 哈希:可将原始数据加密成固定长度的数据,同样需要选择安全域(可选范围0~9),不同安全域的脱敏策略规则不一致。
        • 掩盖:是对部分信息进行掩盖,将对应位置上的字符用“*”替换,达到脱敏的效果。推荐方式提供了如只展示前1位和最后1位(默认选中)、只展示前3位和最后2位、只展示前3位和最后4位等选项;自定义设置则更加灵活,可以在前中后三段设置是否脱敏,以及需要脱敏(或者不脱敏)的字符长度,最多可添加10个分段,至少要有1个分段是剩余位数。
    7. 验证脱敏配置结果:可在样本数据文本框中输入脱敏前样本数据(限制0~100字符),单击脱敏验证,在脱敏效果中会返回脱敏后的数据。
    8. 单击确定,可在脱敏规则下拉框中选择该脱敏规则,同时新建的脱敏规则会同步到数据保护伞脱敏规则页面。
    9. 单击添加条件可新增一行配置数据字段的脱敏规则,在字段列下拉框中选择数据脱敏节点的上个节点的输出字段,在脱敏规则列下拉框中为字段选择在数据保护伞>数据脱敏配置列表中所有已生效的脱敏规则。
    10. 在操作列单击编辑,如果是当前用户创建的脱敏规则,在实时同步任务未提交前,可单击编辑在弹出的编辑脱敏规则窗口修改脱敏规则,并支持输入样本数据进行脱敏验证;如果是非当前用户创建的脱敏规则,单击编辑可以查看脱敏规则配置详情,并支持输入样本数据进行脱敏验证。在操作列单击删除可以删除一行字段。
      此外,输出字段将展示要同步的原始表中对应字段和类型。具体操作时,某些细节可能因 DataWorks 版本和实际情况而有所不同。如果在配置过程中遇到问题,可以参考阿里云的官方文档或联系技术支持人员获取更准确的帮助。
    2024-08-24 08:03:29
    赞同 展开评论 打赏
  • 在阿里云DataWorks中实现数据脱敏配置的流程如下:

    1. 登录DataWorks

      • 使用您的阿里云账号登录DataWorks控制台。
    2. 进入数据开发

      • 在左侧导航栏中,找到并点击“数据开发”或类似选项,进入数据开发工作台。
    3. 选择数据脱敏

      • 在数据开发页面,找到并点击“数据脱敏”功能入口,进入数据脱敏管理页面。
    4. 配置数据源和表

      • 在数据脱敏管理页面,选择您需要进行脱敏操作的数据源。
      • 从数据源中选取要脱敏的表。
    5. 添加脱敏规则

      • 点击“添加规则”按钮,开始配置脱敏规则。
      • 选择需要脱敏的字段。
      • 选择合适的脱敏方式,DataWorks提供了假名、哈希和掩盖等多种脱敏方法。
      • 对于每个字段,可以配置特定的脱敏规则,如保留数据格式、保持原始数据间的关联性等。
    6. 保存和应用规则

      • 保存您的脱敏规则设置。
      • 应用这些规则到选定的数据源或表上。
    7. 验证和测试

      • 可以预览脱敏效果,确认脱敏后的数据符合预期。
      • 如果需要,可以调整规则并再次保存和应用。
    8. 启用和监控

      • 启用脱敏规则,确保在数据同步或查询时应用这些规则。
      • 监控数据脱敏任务的执行情况,确保数据处理正常。
    9. 持续管理

      • 脱敏规则可以随时编辑和更新,以适应业务需求的变化。
      • 如果需要删除已配置的规则,可以在管理界面中找到相应的操作进行删除。
    2024-05-15 09:05:49
    赞同 展开评论 打赏
  • 配置脱敏规则
    登录DataWorks控制台:

    登录阿里云账号,访问DataWorks管理控制台。
    选择工作空间:

    在控制台中选择对应的工作空间(项目空间)。
    进入数据安全中心:

    导航至相关的安全与合规模块,找到“数据安全中心”入口。
    配置脱敏规则:

    进入“数据隐私保护”或“风险治理”相关菜单,找到“数据脱敏”功能。
    在“脱敏规则”页面,您可以新建脱敏规则。
    新建脱敏模板:

    在“脱敏模板”页签下点击“新建模板”。
    根据需求选择相应的脱敏算法,如哈希脱敏、遮盖脱敏、替换脱敏等。
    配置模板参数,比如指定脱敏字段、脱敏规则(如保留几位数字、字符替换规则等)、是否启用等。
    配置脱敏细节:

    对每个待脱敏的字段,设定具体的脱敏策略,包括但不限于:
    明确脱敏的表和字段。
    设置脱敏后的显示格式。
    若需要,还可以设置条件脱敏,比如仅对部分满足条件的数据进行脱敏。
    保存并测试:

    完成脱敏模板配置后,保存并测试验证脱敏效果,确认数据在经过脱敏处理后符合预期的安全标准。
    关联业务流程:

    将脱敏模板应用到相应的数据导出、查询或者其他涉及敏感数据流转的业务流程中,确保在整个数据生命周期中,敏感数据得到妥善处理。

    2024-04-11 17:15:27
    赞同 1 展开评论 打赏
  • 北京阿里云ACE会长

    登录 DataWorks 控制台,进入相应的工作空间和项目。

    在项目首页中,选择"数据开发",进入数据开发页面。

    在数据开发页面中,选择要进行脱敏配置的表,进入表详情页面。

    在表详情页面中,选择"脱敏配置"标签页,可以看到表的脱敏配置信息。

    在脱敏配置页面中,可以选择需要脱敏的字段,并设置相应的脱敏规则。可以选择的脱敏规则包括:

    姓名脱敏:将姓名的部分字符替换为“*”号。

    身份证号脱敏:将身份证号的部分字符替换为“*”号。

    手机号脱敏:将手机号的部分字符替换为“*”号。

    地址脱敏:将地址的部分字符替换为“*”号。

    自定义脱敏:根据需要自定义脱敏规则。

    设置完脱敏规则后,可以点击"预览"按钮,预览脱敏后的数据。

    如果预览数据无误,可以点击"提交"按钮,保存脱敏配置。

    2023-07-12 18:23:29
    赞同 展开评论 打赏
  • 要实现DataWorks脱敏配置,可以按照以下流程进行操作:

    1. 创建数据源:首先,在DataWorks中创建数据源,将要处理的数据源连接到DataWorks平台。

    2. 创建表:在DataWorks中创建目标表,用于存储脱敏后的数据。

    3. 创建数据开发节点:在DataWorks中创建数据开发节点,用于编写数据处理代码。

    4. 编写脱敏代码:在数据开发节点中编写脱敏代码。根据具体需求,选择相应的脱敏算法和规则,对敏感数据进行脱敏处理,并将结果写入目标表。

    5. 配置调度参数:为数据开发节点配置调度参数,确定数据处理的时间和频率。

    6. 运行节点:将数据开发节点提交并运行,开始执行数据脱敏的过程。

    7. 监控和调试:监控数据处理任务的运行状态,并根据需要进行调试和优化。

    8. 验证结果:在目标表中查看脱敏后的数据,并验证是否符合脱敏要求和规则。

    9. 定期维护:定期检查和维护数据脱敏配置,确保数据持续脱敏的效果和正确性。

    以上流程仅为一般参考,实际操作可能会因不同的系统和需求而有所变化。在具体操作过程中,您可能需要参考DataWorks的文档或向相关技术支持人员咨询以获得更详细的指导。

    2023-07-01 18:32:41
    赞同 展开评论 打赏
  • 下面以全局配置(_default_scene_code)为例,介绍数据脱敏配置的流程,Hologres展示脱敏、DataWorks展示脱敏和DataWorks数据分析脱敏、MaxCompute底层脱敏场景的操作步骤参考全局配置场景。在数据脱敏管理页面,选择脱敏场景为全局配置(_default_scene_code)。(可选)选择脱敏对象并授权。说明 仅Hologres展示脱敏和MaxCompute底层脱敏需要配置。单击选择脱敏project或选择脱敏database,根据界面提示选择脱敏的project或database并选择同意授权。新建数据脱敏规则。在数据脱敏配置页面,单击右上方的新建规则。在新建规则对话框中,选择需要设置的脱敏规则和脱敏方式。脱敏规则可选择已有的数据识别规则,数据识别规则详情可参见数据识别规则。 DataWorks支持的脱敏方式包括假名、HASH和掩盖三种方式。不同脱敏规则支持的脱敏方式也不同,请根据界面展示实际结果进行配置。假名假名脱敏会将一个值替换成一个具有相同特征的脱敏信息。使用假名脱敏时,需要选择是否开启数据水印,并选择安全域。数据水印:数据水印可提供数据溯源能力,发生数据泄漏后,可以帮您定位到可能的泄漏源。安全域:可选范围0~9,不同安全域的脱敏策略规则不一致,即相同的待脱敏数据在不同的安全域脱敏出来的结果信息不一致。例如,原始数据为a123,安全域设置为0时,脱敏成b124,安全域设置为1时,脱敏成c234。原始数据相同时,如果安全域相同则脱敏后的数据也是相同的。HASHHASH脱敏需要是否开启数据水印,并选择安全域。数据水印:数据水印可提供数据溯源能力,发生数据泄漏后,可以帮您定位到可能的泄漏源。安全域:可选范围0~9,不同安全域的脱敏策略规则不一致,即相同的待脱敏数据在不同的安全域脱敏出来的结果信息不一致。例如,原始数据为a123,安全域设置为0时,脱敏成b124,安全域设置为1时,脱敏成c234。原始数据相同时,如果安全域相同则脱敏后的数据也是相同的。掩盖掩盖脱敏是使用*对部分信息进行掩盖,达到脱敏的效果,是一种比较常用的脱敏方式。参数 描述 推荐方式 为身份证、银行卡等常用的数据类型提供掩盖脱敏策略。 自定义 自定义设置提供了更加灵活的设置方式,可以在前中后三段设置是否脱敏,以及需要脱敏(或者不脱敏)的字符长度。单击保存 https://help.aliyun.com/document_detail/103077.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-07-01 16:04:59
    赞同 展开评论 打赏
滑动查看更多

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多