在2024年的CCS会议上,来自瑞士苏黎世联邦理工学院(ETH Zurich)的研究人员提出了一个令人深思的问题:我们是否真正理解了机器学习算法的隐私泄露风险?他们的研究结果显示,目前对机器学习隐私保护措施的评估可能存在严重误导。
随着机器学习的广泛应用,隐私泄露问题日益受到关注。为了保护用户隐私,研究人员提出了各种隐私保护措施,包括差分隐私(Differential Privacy)和各种经验性防御措施。然而,这些措施的有效性如何评估,却是一个复杂的问题。
为了评估机器学习隐私保护措施的有效性,研究人员主要关注了两种类型的攻击:成员推理攻击和数据提取攻击。成员推理攻击旨在通过观察模型的行为来推断某个数据点是否在训练集中,而数据提取攻击则试图从模型中提取出训练数据的具体内容。
在这项研究中,研究人员重点评估了五种经验性隐私保护措施,包括HAMP、RelaxLoss、SELENA、DFKD和SSL。他们使用了一个基于LiRA(Likelihood Ratio Attack)的强大攻击来评估这些措施的有效性。LiRA是一种基于假设检验的强大攻击,能够根据模型对目标样本的得分分布来判断该样本是否在训练集中。
研究人员的实验结果显示,目前对机器学习隐私保护措施的评估可能存在严重误导。他们发现,现有的评估方法往往忽视了最脆弱的数据点,使用了较弱的攻击,并且没有与实际的差分隐私基线进行比较。
具体来说,研究人员发现:
忽视最脆弱的数据点:现有的评估方法往往将攻击的成功率平均化,而没有关注最脆弱的数据点。然而,隐私保护的目标是确保所有数据点都受到保护,而不仅仅是平均情况。
使用较弱的攻击:许多经验性隐私保护措施的评估使用了较弱的攻击,这些攻击没有充分利用攻击者的能力。研究人员发现,通过使用更强的攻击,他们能够揭示出更多的隐私泄露。
没有与实际的差分隐私基线进行比较:经验性隐私保护措施通常与较弱的差分隐私基线进行比较,这些基线的效用较低。然而,研究人员发现,通过使用更强的差分隐私基线,他们能够获得更好的隐私-效用权衡。
在对五种经验性隐私保护措施的评估中,研究人员发现,这些措施在他们的更强攻击下都表现不佳。具体来说,他们发现:
HAMP:HAMP通过在测试时随机化模型的置信度来保护隐私。然而,研究人员发现,一个简单的标签攻击能够有效地绕过这种保护。
RelaxLoss:RelaxLoss通过限制训练损失来减少过拟合,从而保护隐私。然而,研究人员发现,这种措施并没有显著减少隐私泄露。
SELENA:SELENA通过知识蒸馏来保护隐私,只使用未在目标样本上训练过的教师模型的预测。然而,研究人员发现,这种措施并没有提供足够的保护。
DFKD:DFKD通过使用合成数据来训练学生模型,从而保护隐私。然而,研究人员发现,这种措施并没有显著减少隐私泄露。
SSL:SSL通过在无监督学习阶段训练特征提取器来保护隐私。然而,研究人员发现,通过攻击特征提取器,他们能够揭示出更多的隐私泄露。
研究人员还评估了一个强大的差分隐私基线,该基线使用了一些最新的技术来提高效用,同时保持隐私保证。他们发现,这个基线在他们的更强攻击下表现良好,提供了更好的隐私-效用权衡。
arXiv地址:https://arxiv.org/pdf/2404.17399