AI红队:构建安全AI只是梦想

简介: AI红队:构建安全AI只是梦想

来源:企业网D1net


负责微软100多个GenAI产品红队测试的团队得出结论,构建安全可靠的AI系统的工作永远不会完成。


本周发表的一篇论文中,包括微软Azure首席技术官Mark Russinovich在内的作者们描述了团队的一些工作,并提出了八项建议,旨在“使红队测试工作与现实世界的风险相一致”。


论文的主要作者、微软AI红队(AIRT)研究员Blake Bullwinkel和他的25位合著者在论文中写道:“随着GenAI系统在越来越多领域的应用,AI红队测试已成为评估这些技术安全性和可靠性的核心实践。”


他们表示,从根本上讲,“AI红队测试力求通过模拟对端到端系统的真实世界攻击,超越模型级别的安全基准,然而,关于如何开展红队测试操作,仍存在许多未解之问,并且对当前AI红队测试工作的有效性也存在相当程度的怀疑。”


论文指出,微软AI红队于2018年成立时,主要专注于识别传统安全漏洞和针对经典机器学习模型的规避攻击。“自那时以来,”论文称,“微软AI红队的范围和规模都显著扩大,以应对两大主要趋势。”


第一,AI变得更加复杂,第二,微软近期对AI的投资催生了更多需要红队测试的产品。“这种数量上的增加和红队测试范围的扩大,使得完全手动测试变得不切实际,迫使我们借助自动化来扩大运营规模。”作者们写道。


“为了实现这一目标,我们开发了PyRIT,这是一个开源的Python框架,我们的操作人员在红队测试操作中大量使用它。通过增强人类的判断力和创造力,PyRIT使AIRT能够更快地识别出有影响力的漏洞,并覆盖更多的风险领域。”


基于他们的经验,Bullwinkel和作者团队分享了八条他们学到的教训,并在论文中通过详细的解释和案例研究进行了阐述。这些教训包括:


了解系统的功能和应用场景:AI红队测试操作的第一步是确定要针对哪些漏洞,他们说。他们建议:“从潜在的下游影响出发,而不是从攻击策略出发,这样更有可能使操作产生与现实世界风险相关的有用发现。在确定这些影响后,红队可以逆向工作,概述攻击者可能采取的各种路径来实现这些影响。”


无需计算梯度即可破坏AI系统:为了证明这一点,论文引用了一项关于对抗性机器学习研究与实践之间差距的研究。研究发现,“尽管大多数对抗性机器学习研究都集中在开发和防御复杂的攻击上,但现实世界中的攻击者往往使用更简单的技术来实现他们的目标。”作者们说,基于梯度的攻击虽然强大,“但它们往往不切实际或没有必要。我们建议优先考虑简单技术,并策划系统级别的攻击,因为这些更可能被真实的对手尝试。”


AI红队测试不是安全基准测试:作者说,这两者截然不同,但“都很有用,甚至可以相辅相成。特别是,基准测试使得在公共数据集上比较多个模型的性能变得容易。AI红队测试需要更多的人力,但可以发现新的危害类别,并探查情境化的风险。”AI系统中新功能带来的新危害可能无法完全理解,因此团队必须定义它们,并构建工具来测量它们。


自动化有助于覆盖更多的风险领域:作者们表示,“AI风险领域的复杂性导致开发了各种工具,这些工具可以更快地识别漏洞,自动运行复杂的攻击,并在更大的规模上进行测试。”AI红队测试中的自动化发挥着关键作用,这促成了开源框架PyRIT的开发。


AI红队测试中的人为因素至关重要:自动化可能很重要,但作者们强调,虽然“像PyRIT这样的自动化工具可以通过生成提示、策划攻击和评分响应来支持红队测试操作”,但需要人类来提供文化和专业知识,以及情感智力。他们指出,“这些工具很有用,但不应以取代人类为目的来使用它们。”


负责任AI(RAI)的危害无处不在,但难以衡量:这里的底线是:RAI的危害比安全漏洞更加模糊,这都与“AI系统和传统软件之间的根本差异”有关。作者们指出,大多数AI安全研究都关注故意破坏防护栏的对抗性用户,而事实上,他们坚持认为,意外生成有害内容的良性用户同样或更加重要。


大型语言模型(LLM)放大了现有的安全风险,并引入了新的风险:这里的建议是什么?GenAI模型集成到各种应用中,引入了新的攻击向量,并改变了安全风险格局。作者们写道,“因此,我们鼓励AI红队同时考虑现有的(通常是系统级别的)和新的(通常是模型级别的)风险。”


确保AI系统安全的工作永远不会完成:他们认为,仅通过技术进步来保证或“解决”AI安全是不现实的,并且忽视了经济学、修复周期和监管可以发挥的作用。鉴于此,论文指出,“在没有安全和可靠保障的情况下,我们需要开发尽可能难以破坏的AI系统的方法。一种方法是使用修复周期,即进行多轮红队测试和缓解,直到系统对广泛的攻击具有鲁棒性。”


报告的作者们得出结论,AI红队测试是一种新兴且快速发展的实践,用于识别AI系统带来的安全和可靠风险,但他们也提出了一系列问题。


“我们该如何探查LLM中诸如说服、欺骗和复制等危险能力?”他们问道。“此外,我们应该在视频生成模型中探查哪些新的风险,以及比当前最先进水平更先进的模型中可能会出现哪些能力?”


其次,他们问道,红队如何调整其做法以适应不同的语言和文化背景。第三,他们想知道红队测试做法应该如何标准化,以便团队更容易交流其发现。


他们还表示,“随着全球各地的公司、研究机构和政府都在努力解决如何进行AI风险评估的问题,我们根据我们在微软对100多个GenAI产品进行红队测试的经验,提供了实用建议。我们鼓励其他人在这些经验的基础上更进一步,并解决我们强调的未解问题。”


版权声明:本文为企业网D1net编译,转载需在文章开头注明出处为:企业网D1net,如果不注明出处,企业网D1net将保留追究其法律责任的权利。


(来源:企业网D1net)

相关文章
|
2月前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
2765 166
|
2月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
1774 120
|
2月前
|
人工智能 Java Nacos
基于 Spring AI Alibaba + Nacos 的分布式 Multi-Agent 构建指南
本文将针对 Spring AI Alibaba + Nacos 的分布式多智能体构建方案展开介绍,同时结合 Demo 说明快速开发方法与实际效果。
2187 64
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
583 41
|
2月前
|
人工智能 测试技术 API
构建AI智能体:二、DeepSeek的Ollama部署FastAPI封装调用
本文介绍如何通过Ollama本地部署DeepSeek大模型,结合FastAPI实现API接口调用。涵盖Ollama安装、路径迁移、模型下载运行及REST API封装全过程,助力快速构建可扩展的AI应用服务。
757 6
|
2月前
|
消息中间件 人工智能 安全
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,涵盖AgentScope-Java、AI MQ、Higress、Nacos及可观测体系,全面开源核心技术,助力企业构建分布式多Agent架构,推动AI原生应用规模化落地。
297 0
构建企业级 AI 应用:为什么我们需要 AI 中间件?
|
2月前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
293 3
|
2月前
|
SQL 人工智能 机器人
AI Agent新范式:FastGPT+MCP协议实现工具增强型智能体构建
FastGPT 与 MCP 协议结合,打造工具增强型智能体新范式。MCP 如同 AI 领域的“USB-C 接口”,实现数据与工具的标准化接入。FastGPT 可调用 MCP 工具集,动态执行复杂任务,亦可作为 MCP 服务器共享能力。二者融合推动 AI 应用向协作式、高复用、易集成的下一代智能体演进。
385 0
|
2月前
|
存储 人工智能 安全
《Confidential MaaS 技术指南》发布,从 0 到 1 构建可验证 AI 推理环境
Confidential MaaS 将从前沿探索逐步成为 AI 服务的安全标准配置。
|
2月前
|
人工智能 API 开发工具
构建AI智能体:一、初识AI大模型与API调用
本文介绍大模型基础知识及API调用方法,涵盖阿里云百炼平台密钥申请、DashScope SDK使用、Python调用示例(如文本情感分析、图像文字识别),助力开发者快速上手大模型应用开发。
1297 16
构建AI智能体:一、初识AI大模型与API调用