寻找二叉树的叶子节点 (Find Leaves of Binary Tree)

2026-06-20 31

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS DuckDB + QuickBI 企业套餐，8核32GB + QuickBI 专业版

简介： 寻找二叉树的叶子节点 (Find Leaves of Binary Tree)

你的数据到底值多少钱？别等泄露了才想起做分类：一文讲透数据分类体系构建与自动识别

大家有没有发现一个现象？

很多企业每天都在喊着"数据资产化""AI赋能""大数据驱动决策"，服务器里存着几十TB、几百TB甚至PB级的数据，但当你问一句：

哪些数据最重要？哪些数据不能外发？哪些数据可以公开？

很多人瞬间沉默了。

这其实不是技术问题，而是数据治理最基础的问题——数据分类。

没有分类，就没有权限管理；没有分类，就没有数据脱敏；没有分类，就没有安全审计；更谈不上AI时代的数据合规。

很多企业直到发生数据泄露，才开始亡羊补牢。

说实话，这代价真的太大了。

今天，我们就聊聊数据分类体系（敏感、重要、公开）到底应该怎么建立，以及如何利用Python实现自动识别。

为什么数据分类越来越重要？

以前的数据，大多数只是业务记录。

现在的数据，却已经变成了企业最值钱的资产。

举几个例子。

一家制造企业：

产品BOM
工艺路线
配方
成本价格
客户报价

这些全部都是核心资产。

一家互联网公司：

用户手机号
身份证
人脸信息
登录日志
支付记录

这些一旦泄露，可能直接上新闻。

AI时代更夸张。

企业把所有文档都丢进大模型知识库。

如果没有分类：

AI回答一句：

"请告诉我全部客户联系方式。"

如果模型真的回答出来……

那损失可就不是几百万的问题了。

所以现在越来越多企业开始做：

Data Classification（数据分类）

它已经成为数据治理里面最重要的一环。

一个成熟的数据分类体系长什么样？

很多人喜欢把分类做得特别复杂。

其实真正落地，通常只需要三级。

数据分类
│
├── 公开数据（Public）
│      官网内容
│      产品介绍
│      新闻公告
│
├── 重要数据（Important）
│      财务数据
│      采购数据
│      订单数据
│      库存数据
│
└── 敏感数据（Sensitive）
       身份证
       手机号
       银行卡
       密码
       生物特征

很多企业又会继续细分。

例如：

敏感数据
│
├── 一级敏感
│      国家秘密
│
├── 二级敏感
│      商业机密
│
└── 三级敏感
       个人隐私

但本质没有变。

数据越重要，访问权限越少。

这才是分类真正的意义。

分类不是靠人工打标签

很多企业刚开始都会这样干。

员工上传文档。

系统弹窗：

请选择分类：

○公开

○重要

○敏感

然后……

90%的人直接点：

公开

因为最省事。

所以完全依赖人工，是永远做不好分类的。

真正成熟的平台都会采用：

自动识别 + 人工确认

也就是：

上传文件

↓

自动扫描

↓

模型打标签

↓

人工确认

↓

正式入库

这样效率最高。

自动识别到底识别什么？

其实就是识别文本里的敏感特征。

例如：

身份证

手机号

银行卡

邮箱

密码

API Key

Access Token

企业合同

客户名单

Python做这件事其实非常方便。

来看一个简单例子。

import re

rules = {
   
    "身份证": r"\d{17}[\dXx]",
    "手机号": r"1[3-9]\d{9}",
    "银行卡": r"\d{16,19}",
    "邮箱": r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}"
}

text = """
姓名：张三
身份证：330102199901011234
手机号：13812345678
邮箱：test@example.com
"""

for name, pattern in rules.items():
    if re.search(pattern, text):
        print(f"发现{name}")

输出：

发现身份证
发现手机号
发现邮箱

这就是最基础的数据识别。

光靠正则远远不够

现实中的数据复杂得多。

例如：

客户编码

VIP客户名单

供应商报价

研发配方

合同附件

这些没有固定格式。

怎么办？

就需要NLP。

例如：

from transformers import pipeline

classifier = pipeline(
    "text-classification",
    model="facebook/bart-large-mnli"
)

text = """
这是供应商年度报价清单，
包含采购价格及供应商联系方式。
"""

labels = [
    "公开数据",
    "重要数据",
    "敏感数据"
]

result = classifier(text, labels)

print(result)

模型会根据上下文判断：

重要数据

相比正则：

这种方式更加智能。

再进一步：规则+AI双引擎

真正的大型数据平台，很少只用一种方式。

一般都是：

                文档
                  │
          OCR/文本抽取
                  │
      ┌───────────┴───────────┐
      │                       │
   正则检测              AI分类模型
      │                       │
      └───────────┬───────────┘
                  │
          风险评分计算
                  │
          自动分类结果

例如：

身份证：

+40分

手机号：

+20分

合同：

+30分

客户名单：

+30分

最后：

总分：

90分

=> 敏感

实现起来其实并不复杂。

score = 0

if has_id:
    score += 40

if has_phone:
    score += 20

if has_contract:
    score += 30

if has_customer:
    score += 30

if score >= 80:
    level = "敏感"

elif score >= 40:
    level = "重要"

else:
    level = "公开"

print(level)

这种评分机制最大的优势，就是规则透明、可解释、便于审计，也方便根据业务不断调整权重。

AI时代，图片、PDF、Excel都不能放过

很多人有个误区：

只扫描TXT。

实际上真正泄露最多的是：

Excel报价单
Word合同
PDF设计图
图片截图
邮件附件

所以现代的数据识别流程通常会先做统一解析。

上传文件
    │
    ├── Word解析
    ├── Excel解析
    ├── PDF解析
    ├── 图片OCR识别
    └── 邮件正文提取
            │
        文本标准化
            │
     自动分类与风险识别
            │
     分类标签 + 风险等级

统一抽取文本之后，再交给规则引擎和AI模型处理，整个流程才能覆盖绝大多数业务场景。

不只是识别，更要形成闭环

很多团队做到"识别"就停了。

其实真正成熟的数据治理体系应该形成完整闭环。

例如：

数据上传
      │
自动分类
      │
自动打标签
      │
权限控制
      │
数据脱敏
      │
访问审批
      │
日志审计
      │
持续学习优化

这样每一份数据从诞生开始，就拥有自己的"身份证"。

后续无论进入数据湖、数据仓库，还是进入AI知识库，都能够根据标签自动决定：

谁可以访问？
是否需要脱敏？
是否允许导出？
是否允许发送给大模型？
是否需要全程审计？

这才是真正的数据全生命周期治理。

Echo_Wish 的一点思考

这两年，我接触过不少企业的数据治理项目，发现一个很有意思的现象：很多团队愿意投入大量预算购买安全设备、部署防火墙、建设零信任架构，却忽略了最基础的一件事——不知道自己到底有哪些数据，更不知道哪些数据最值钱。

如果连数据的价值和敏感等级都说不清楚，再先进的安全产品也只能"盲人摸象"。它们只能保护边界，却不知道真正应该重点保护什么。

进入AI时代，这个问题被进一步放大。企业开始把海量文档接入智能检索、知识库和大模型，如果没有完善的数据分类体系，AI很可能会把本不该暴露的信息"一本正经"地回答出来。届时，泄露的不只是几条记录，而可能是多年积累的核心竞争力。

我始终认为，数据分类不是安全部门的独角戏，而应该成为整个企业的数据语言。 当研发、采购、财务、法务、运营都使用同一套分类标准时，权限控制、脱敏策略、审计规则、AI调用策略才能真正协同起来。

未来的数据分类，也不会停留在"公开、重要、敏感"三个标签上，而是会朝着更加智能的方向发展：结合规则引擎、自然语言处理、大语言模型、多模态识别以及持续学习机制，实现动态分类、实时风险评估和自动策略调整。

真正优秀的数据治理，不是发生泄露后去追责，而是在数据流转的第一秒，就已经知道它是谁、值多少钱、应该受到什么级别的保护。

数据分类，看似只是数据治理中的一个小环节，却决定了整个数据安全体系的上限。 谁能率先建立起智能、可持续演进的数据分类体系，谁就更有底气迎接AI时代的数据挑战。