第2讲 隐私计算开源如何助力数据要素流通

简介: 数据流通涉及关键主体:数据提供方关注商业秘密、个人隐私、数据控制与安全;数据消费方关注授权链与合规性;数据平台方提供主体审核、授权链审查、合规评审及商业秘密保护,初期依赖主体可信,需逐步转向技术可信。关键技术包括隐私计算实现数据可用不可见,数据空间+区块链确保数据可控可计量,以及数据匿名化实现可算不可识。

1、数据要素流通中的关键主体,以及各自的忧虑
关键主体至少有3个:数据提供方、数据消费方、数据平台方。
1.1 数据提供方
最担心的是如下几点:
• 商业秘密和个人隐私保护;
• 数据使用权力的控制;
• 数据安全和合规;
如果数据被数据消费方拷贝走,让数据价值迅速降低;如果用在非合规场景,则要付连带责任;
1.2 数据消费方
最担心的是如下几点:
• 数据提供方的数据是否有足够的授权链;
• 数据使用是否合规;
1.3 数据平台方
数据平台方,是为了解决数据提供方和数据消费方的疑虑出现的。
主要提供的核心价值:
• 主体审核
• 数据源授权链路审核
• 场景合规评审
• 数据使用过程中的商业秘密保护;
• 在数据交易中不失去对数据的控制;
在第一阶段,数据平台方主要靠【主体可信】,往往是国有企业身份。但这是不够的,要逐渐从【主体可信】向【主体可信+技术可信】发展。
2、技术可信的关键技术
2.1 数据可用不可见
主要是通过数据转为密态计算来实现,隐私计算是解决这一问题的关键技术。
2.2 数据可控可计量
可以通过数据空间技术+区块链技术实现。数据空间技术可以参考IDSA的相关资料。区块链技术主要用于数据使用记录的存证。
2.3 数据可算不可识
主要通过数据匿名化实现,比如手机号通过加盐+sha256等方式转为非明文。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
机器学习/深度学习 算法 安全
隐私计算训练营第三讲-详解隐私计算的架构和技术要点
SecretFlow 是一个隐私保护的统一框架,用于数据分析和机器学习,支持MPC、HE、TEE等隐私计算技术。它提供设备抽象、计算图表示和基于图的ML/DL能力,适应数据水平、垂直和混合分割场景。产品层包括SecretPad(快速体验核心能力)和SecretNote(开发工具)。算法层涉及PSI、PIR、数据分析和联邦学习(水平、垂直、混合)。此外,SecretFlow还有YACL密码库和Kusica任务调度框架,Kusica提供轻量化部署、跨域通信和统一API接口。
647 0
|
存储 Java 测试技术
JAVA-MAVEN初学者教程(配置、pom.xml、依赖管理等)
JAVA-MAVEN初学者教程(配置、pom.xml、依赖管理等)
3032 0
|
应用服务中间件 Apache
Apache Zookeeper 下载和安装
Apache ZooKeeper 是一个开发和维护开源服务器的项目,它支持高度可靠的分布式协调。 下载地址 北京理工大学 开源软件镜像服务 https://mirror.bit.edu.cn/web/ 清华大学开源软件镜像站 | Tsinghua Open Source Mirror https://mirrors.tuna.tsinghua.edu.cn/ 北京外国语大学开源软件镜像站 | BFSU Open Source Mirror https://mirrors.bfsu.edu.cn/ zookeeper-3.4.14 下载地址 https://mirrors.bfsu.edu.cn
1807 0
Apache Zookeeper 下载和安装
|
9月前
|
编解码 人工智能 并行计算
基于 Megatron 的多模态大模型训练加速技术解析
Pai-Megatron-Patch 是一款由阿里云人工智能平台PAI 研发的围绕英伟达 Megatron 的大模型训练配套工具,旨在帮助开发者快速上手大模型,打通大模型相关的高效分布式训练、有监督指令微调、下游任务评估等大模型开发链路。本文以 Qwen2-VL 为例,从易用性和训练性能优化两个方面介绍基于 Megatron 构建的 Pai-Megatron-Patch 多模态大模型训练的关键技术
|
9月前
|
人工智能 自然语言处理 算法
DeepSeek大模型在客服系统中的应用场景解析
在数字化浪潮下,客户服务领域正经历深刻变革,AI技术成为提升服务效能与体验的关键。DeepSeek大模型凭借自然语言处理、语音交互及多模态技术,显著优化客服流程,提升用户满意度。它通过智能问答、多轮对话引导、多模态语音客服和情绪监测等功能,革新服务模式,实现高效应答与精准分析,推动人机协作,为企业和客户创造更大价值。
802 5
|
10月前
|
机器学习/深度学习 搜索推荐 异构计算
LLM模型添加自定义Token代码示例:为Llama 3.2模型添加思考与回答标记
本文将介绍如何为大型语言模型(LLM)添加自定义token并进行训练,使模型能够有效地利用这些新增token。以Llama 3.2模型为基础,实现了类似DeepSeek R1中think和answer标记功能的扩展方法,通过监督微调使模型学习使用这些标记进行推理过程与答案输出的区分
694 0
LLM模型添加自定义Token代码示例:为Llama 3.2模型添加思考与回答标记
|
12月前
|
SpringCloudAlibaba Dubbo Java
【SpringCloud Alibaba系列】Dubbo基础入门篇
Dubbo是一款高性能、轻量级的开源Java RPC框架,提供面向接口代理的高性能RPC调用、智能负载均衡、服务自动注册和发现、运行期流量调度、可视化服务治理和运维等功能。
【SpringCloud Alibaba系列】Dubbo基础入门篇
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
640 7
【AI系统】数据并行
|
12月前
|
监控 API 开发者
Sentinel:微服务的全能守护
Sentinel 是阿里巴巴开源的一款轻量级流量控制和熔断降级框架。它通过设置流量控制、熔断降级和系统保护规则,确保微服务在高并发场景下稳定运行。Sentinel 提供丰富的功能、实时监控和灵活的集成方式,适用于各种分布式系统。
1587 0
|
机器学习/深度学习 分布式计算 安全
深度学习之安全多方计算
基于深度学习的安全多方计算(Secure Multi-Party Computation,简称MPC)是一种密码学技术,旨在让多个参与方在不暴露各自数据的前提下,协作完成一个计算任务。
560 0