SLS 脱敏函数实践:构建 LLM 应用数据输出的安全防线

简介: AI 处理海量用户咨询,日志怎么保安全?我们用 SLS 脱敏函数实现“写入即打码”,运维能查、运营能看、安全能审!

作者:孙玉梅


注:本文数据都为模拟生成。


引言


过去两年,电商客服、工单、物流等环节的自动化正急速推进。一个智能助手可以同时处理上百条退款请求、物流查询、账单追踪;它不知疲倦地与用户对话,也在后台不停调用接口、记录日志、汇总报表。在这些自动化交互中,隐藏着大量敏感数据:


  • 用户咨询里可能出现手机号、订单号、收货地址;
  • 后端业务日志中常常包含银行卡号、接口 IP、账户 ID;
  • 工单流转过程中甚至会附带内部 Token、用户名。


这些信息若在系统内未经处理地流转、存储或导出,不仅违反数据最小化原则,更可能在调试、共享或导出日志时意外泄露。然而,现实场景中我们又无法简单地“少打日志”或“去掉字段”。日志是运维排障的工具,是运营分析的基础,也是安全审计的依据。

1764053076848_f3426cd8a69d4d44917f8da47c78b3cc.png

本文将以一个电商 Copilot Demo 为例,展示如何借助阿里云日志服务(SLS)的脱敏函数,在不改变业务逻辑的前提下,确保系统中的敏感数据隐私安全。


方案全景:智能化与数据安全的融合


整体设计

1764053107007_b4aef3eb0dbb42c1a07efb52d1858e79.png

系统的上层编排由 Dify 平台完成,Dify 负责协调用户输入、意图识别、调用后端服务以及生成回复,是整个 Copilot 系统的中枢。

1764053129195_227e99132db344b5b6514fb81754c463.png

但在实践中发现一个关键问题,Dify 自身的数据链路观测并不细粒度,主要体现在


  • 平台主要提供节点级执行日志;
  • 但对下游 API 调用、异常堆栈、耗时分布的观测有限;
  • 出现故障时,Dify 内置日志往往不足以支撑排障与审计。


因此,选择在 Dify 服务部署侧通过 LoongCollector 采集服务日志,通过 LoongCollector 将日志统一推送到 SLS LogStore。


  • 数据流:采集来源统一,同时采集 Dify 编排日志、后端服务日志、系统标准输出,并以固定的日志格式输出,完整的数据流转时序图如下:

1764053144296_827dec6048ad4bdeb4461c6c537dfbf2.png

  • 写入脱敏通过写入处理器配置 SPL 脱敏(mask)函数,确保敏感字段在入库时已被打码。
  • 使用层:不管是运维、运营或者安全同学,都可以基于脱敏的 Logstore 数据做可以做相关业务分析。


日志链路

数据采集

LoongCollector[1]作为一款轻量级日志采集工具,支持采集主机文本日志、Kubernetes 集群容器日志、HTTP 数据等不同的数据源,当前 Copilot Demo 日志以 JSON 格式打印在主机日志目录中,此处接入单行文本日志即可:

1764053470370_c996c9ed2e0646e0bd7fe629b512f59a.png

配置日志所在的文件路径:

1764053489423_0d58d96ef9a0490a831431da23b93248.png

写入脱敏

SLS 提供的 mask(脱敏)函数,支持内置和关键字匹配两种模式,能高效、精准地识别并脱敏日志中的敏感信息:


  • 内置匹配(buildin):mask 函数开箱即用,内置了对常见 6 种敏感信息(如手机号、身份证、邮箱、IP 地址、座机电话、银行卡号)的识别能力。
  • 关键字匹配(keyword)智能识别任意文本中符合 "key":"value"、'key':'value' 或 key=value 等常见 KV 对格式的敏感信息。


针对文中电商 copilot 日志,在对应的 project 中新建数据处理器(配置下图 SPL 配置),即可智能识别并对 IP 地址、邮箱等敏感内容进行脱敏。其中手机号、身份证号、信用卡号、姓名以及地址信息,定制化地保留前后缀。详细配置介绍可参见《无需复杂正则:SLS 新脱敏函数让隐私保护更简单高效

1764053511277_9607c4f434dd433ba60b2aa6a341b771.png

  • 配置写入处理器使任务生效:选择待应用的 logstore,在写入处理器 tab 中应用上面新建的处理任务。

1764053525307_c5790f53aa67486cbd9d73203e9db10b.png

脱敏前后日志对比


1764053535846_7f744ac6684e458297db233f0a5a08b7.png


对比脱敏前的数据可以看到:


  • 按需保留,安全与可用性兼顾针对不同敏感字段,可定制化保留前后缀字符。手机号保留前三后四位,既保护了用户隐私,又方便运维人员进行问题排查和用户身份核验,在保障安全的同时兼顾了数据可用性。
  • 配置极简,无需正则关键字匹配模式下,即使数据嵌套多层 JSON 结构,也只需配置最内层的 Key 即可精准匹配 Value 进行脱敏,同时无需编写复杂的正则表达式来兼容各种 key:value 对格式,大大降低了配置难度。
  • 中文精准脱敏姓名与地址精确按照配置的规则进行打码,避免因编码问题导致脱敏失效。


此外,mask 函数相较于使用正则表达式进行脱敏,在性能上具有显著优势,可有效降低日志处理延迟,提升整体性能。尤其是在复杂或者数据量巨大的场景下,性能优势更为明显。


使用层日志分析

数据脱敏让同一份日志呈现出三种“视角”:


  • 运维看到调用链与性能瓶颈,却看不到隐私;
  • 运营看到趋势、效率与体验,却看不到个体;
  • 安全看到策略执行与留痕证据,却无需担心遗漏。


在这套体系中,数据不再是一座孤岛,而是一套有边界的智能资产,数据合规、分析、排障三者可以并行。

运维工程师:定位

对于运维团队来说,以往排障往往依赖包含用户手机号、地址、账户号的明文日志,这在合规上存在高风险。现在,脱敏后的日志让这一过程从源头安全化,在问题定位场景中通过 trace_id 检索即可复原整个调用链:


  • 从 Copilot 的意图识别开始;
  • 到订单服务 → 退款服务 → 第三方支付网关;
  • 再到返回结果与耗时。


需要核对用户身份时,日志里只保留了脱敏后的银行卡号、手机号等信息,足以和业务侧“同一用户”比对,而不会暴露原值。即便是跨团队协查,也能直接在脱敏日志上定位问题,避免泄露风险。

1764053580208_ae0b33cdc77e431c9c42202c81657205.png

运营团队:分析

报表的价值在于发现整体趋势,而非窥探个人信息。在脱敏运营报表中,用户信息已匿名化处理,仅保留关键业务指标,助力团队从数据中挖掘洞察。

1764053627071_9ffcabb9e61b41f2af4839f0e866192b.png

从这份报表中,运营团队可以快速了解:


  • 整体概况:UV、PV 等关键指标,Copilot 交互次数,以及咨询总量,快速掌握运营概况。
  • 咨询分类:退款、商品、物流咨询占比,清晰了解用户关注点。
  • 问题分类:掌握用户提问的侧重点,如功能、价格、规格等。
  • 重复咨询率:衡量服务质量,快速定位需要优化的环节。
  • 用户行为:咨询后购买转化漏斗,以及热门咨询关键词,助力优化产品和营销策略。
  • 重点用户:Top 10 咨询用户,虽然用户信息脱敏,但可通过 VIP 等级和咨询次数,制定差异化服务策略。


此外,报表中所有用户信息都经过脱敏处理,电话号码、姓名等个人信息均被掩码,确保无法反推到具体用户,充分保障用户隐私。

安全与合规团队:审计

对安全与合规团队而言,日志的最大风险在于“存量明文”。本文中的脱敏方案将脱敏前置:数据在写入前已被处理,这从根本上消除了敏感数据脱敏覆盖不全与导出明文数据的可能。此外,SLS 还提供完善的合规支撑能力:


  • 数据存储:支持自定义日志存储时间,对网络审计相关日志设置>180 天的存储天数,满足安全审计要求。

1764053670753_c22aa48e84de4a56a6e0d309db2a254e.png

  • 数据操作审计:日志使用过程中会存在用户级操作行为,这些不管是管控层面的控制台操作、OpenAPI 调用,或者数据面的业务日志使用,任何人查看、分析、导出日志,都只在授权范围内看到应当看到的内容。同时 CloudLens for SLS[2]还提供 Project、Logstore 的资产使用监控


小结


当 LoongCollector 的日志采集与 LogStore 的数据脱敏连成闭环,日志在落库同时完成安全转化。运维能定位,运营能分析,安全能审计。这不是一次性的加固,而是一条可复用的路径:写入侧脱敏 + 默认脱敏落库 + 角色化访问。以此为基线,企业能放心扩展 Copilot 的业务覆盖,让“效率红利”与“合规确定性”并行存在。


相关链接:

[1] LoongCollector
https://help.aliyun.com/zh/sls/what-is-sls-loongcollector

[2] CloudLens for SLS
https://help.aliyun.com/zh/sls/cloudlens-for-sls/

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
18天前
|
人工智能 缓存 供应链
森马如何用阿里云 AI 网关,轻松实现“AI+业务”高效落地
森马快速实现 AI 转型,通过阿里云 AI 网关(即 Higress 企业版)及注册配置中心 Nacos3.0 实现了多模型多 MCP server 统一接入统一管理统一配置,将存量服务一键转换为 MCP server,使 AI 与生产业务相结合,综合提效 30%。
161 12
|
12天前
|
Oracle 安全 关系型数据库
Oracle Linux 9.7 发布 - Oracle 提供支持 RHEL 兼容发行版
Oracle Linux 9.7 发布 - Oracle 提供支持 RHEL 兼容发行版
188 114
Oracle Linux 9.7 发布 - Oracle 提供支持 RHEL 兼容发行版
|
4天前
|
人工智能 安全 调度
一文详解容器面向大模型与AI Agent的技术变革
在生成式人工智能迅猛发展的浪潮下,企业应用正加速从模型研究走向业务落地。无论是大规模的数据处理、超大参数模型的训练与推理,还是部署能够自动完成任务的AI Agent,这些场景都需要稳定、高效且可弹性伸缩的资源调度与管理能力。 容器凭借环境一致性、跨平台部署和高效调度等优势,天然契合AI场景对多样化算力、快速迭代和规模化分发的要求,成为AI时代事实上的原生基石。然而,要满足在生产规模下的需求,产品及技术形态需随之演进。 基于这一背景,本文将围绕大规模数据处理、模型训练、模型推理与AI Agent四个关键阶段,探讨AI场景对容器的核心需求,以及容器如何在各环节实现技术演进与升级。
101 2
一文详解容器面向大模型与AI Agent的技术变革
|
1月前
|
缓存 Linux 开发者
Windows 下手动下载安装配置 uv
UV 是专为 Windows 打造的轻量命令行包管理器,仅需 uv.exe 和 uvx.exe 两个文件,无需 WSL 或管理员权限。支持一键安装、卸载、多版本切换 Python 等工具,内置依赖解析与缓存管理,搭配国内镜像更高效。绿色无残留,开发者友好,真正实现 Linux 般丝滑体验。
949 2
|
16天前
|
人工智能 开发框架 缓存
2025 SECon × AgentX 大会:AI 原生应用架构专场精彩回顾 & PPT 下载
近日,2025 SECon × AgentX大会——AI 原生应用架构专场圆满落幕,本次专场阿里云联合信通院共同出品,现场吸引了 80+ 名技术从业者深度参与。活动聚焦 AI 时代软件架构的核心命题,深度分享了 AI 原生应用架构趋势与实践、AgentScope 开发框架、AI 开放平台、大模型可观测 & AIOps 等热门技术议题,探讨从基础设施到应用层的协同演进策略与工程实践。
145 18
|
18天前
|
运维 监控 网络协议
云拨测:当“正常变更”摧毁全球网络时,谁来守护你的业务可用性?
一次权限变更,引发全球边缘网络瘫痪4小时,数百万网站返回 5XX,连状态页也宕机。故障源于“正常的变更”,暴露了企业对服务商的盲目信任。当内部监控失效,唯有云拨测能从真实用户视角,独立验证“服务是否可用”。
120 14
|
2月前
|
缓存 Windows
彻底卸载软件且不留痕!卸载+清理+启动项优化,彻底清理残留信息
一款小巧高效的卸载工具,仅3.85M,主打彻底清理软件残留文件、注册表、服务等。支持强制卸载、应用商店程序移除、浏览器扩展管理、注册表清理、垃圾文件扫描及空文件夹清理,并提供文件粉碎、快捷方式修复等功能,界面简洁且可换肤,是系统清理的得力助手。
252 6
|
16天前
|
机器学习/深度学习 人工智能 缓存
让AI评测AI:构建智能客服的自动化运营Agent体系
大模型推动客服智能化演进,从规则引擎到RAG,再到AI原生智能体。通过构建“评估-诊断-优化”闭环的运营Agent,实现对话效果自动化评测与持续优化,显著提升服务质量和效率。
450 18
让AI评测AI:构建智能客服的自动化运营Agent体系
|
8天前
|
Web App开发 JSON JavaScript
测试框架跃迁:从 Selenium 到 Playwright 的实战指南
本文详细介绍了从Selenium迁移到Playwright的实战指南。通过对比二者核心差异,提供环境搭建、API迁移对照及高级特性转换方案。迁移后测试速度可提升40%,代码维护成本降低30%,显著改善稳定性问题。文章包含常见问题解决和性能优化技巧,为团队平滑升级测试框架提供了系统化路径。