AAAI/CVPR论文详解 | 万字长文了解可解释AI工具及技术的最新进展(2)

简介: AAAI/CVPR论文详解 | 万字长文了解可解释AI工具及技术的最新进展

本文最新发表在 CVPR 2022 中,主要研究目的是通过弱监督和人机互动在原型离散的潜在空间上学习视觉概念。本文提出了交互式概念交换网络(interactive Concept Swapping Networks,iCSNs),这是一个通过弱监督和隐性原型表征来学习以概念为基础的表征的新框架[5]。这种以语义为基础的、离散的潜在空间有利于人类理解和人机互动。

由于概念学习的复杂性,同时受到心理学和认知科学领域中关于概念原型的研究结果的启发,作者研究了原型表征在学习人类可理解和可修订的概念表征方面对神经概念学习者的优势。为此,本文提出了 iCSN,它通过弱监督方式来学习隐含地将语义概念与原型表征结合起来。这种结合是通过离散的距离估计和配对数据样本之间的共享概念表征的交换来实现的。iCSN 允许查询和修订其学习的概念(如图 8),并整合关于未见过的概念的知识(如图 9)。

图 8. 一个经过训练的模型(左)询问人类用户(右),如果它从数据中提取的概念与用户的知识相吻合。随后,该模型可以接受来自用户的修改意见

图 9. 用于学习新概念的人机互动。用户查询一个对象,并在必要时引导机器的原型建议

iCSN 的完整框架见图 10。

图 10.  交互式概念交换网络。iCSN 基于一个确定性的自动编码器结构,提供一个最初的 entangled latent encoding(1)read-out 编码器;(2)从潜在空间中提取相关信息,并将其提取的概念编码与一组原型插槽进行比较;(3)通过一个加权的、基于 softmax 的点积;(4)生成一个离散代码,表明每个概念编码的最相似的原型插槽。iCSNs 是通过简单的重建损失、通过匹配配对的弱监督和交互方法来训练的;(5)共享概念的潜在概念表征,强制将语义信息与特定的原型表征结合起来

基于原型的概念架构。给定输入 x_i,为了简单起见,下述表述中会从符号中删除样本索引 i,并用 x 表示整个图像。在本文框架中,x 也可以是图像子区域的潜在表征。通过预处理步骤,例如通过分割算法或合成生成场景模型,可以隐式或显式地从图像中提取该子区域。此外,假设每个 x 包含几个属性,例如颜色、形状和大小。将这些属性的实现称为基本概念,例如 “蓝色” 或“三角形”。将 “颜色” 称为一个范畴概念,或者在认知和心理科学领域中经常被称为上位概念(superordinate concept)。由此,每个图像 x 都有 ground-truth 基本概念 c,J 表示上位概念的总数。作者做了一个必要的假设,即每个上位概念 x 只能包含一个基本概念实现。为了简单起见,进一步假设每个上位概念包含相同数量的基本概念 K,这些概念在实践中可能会有所不同。

假设编码器 - 解码器结构,定义一个输入编码器 h(·),它接收图像 x 并将其编码为潜在表征 h(x)=z。iCSN 没有像许多基于自动编码器的方法那样直接从 z 重建,而是首先将几个 read-out 编码器 Mj(·)应用于潜在表征 z,从而生成 Mj(z)=φ_j。将编码φ_j 称为概念编码。每个 read-out 编码器的目标是从纠缠的潜在空间 z 中提取与上位概念(例如颜色)相对应的相关信息。我们将在下面讨论如何强制提取特定于概念的信息。iCSN 的一个核心组件是一组代码本,每个代码本包含多个原型插槽(prototype slots)。将这个集合定义为Θ:=[p_1,…,p_j]。其中,p_j 表示代码本,每个代码本包含一组有序的可训练、随机初始化的原型插槽。

为了将每个概念编码φ_j 分配给 p_j 的一个原型插槽,将相似度分数 S_dot(·,·)定义为其两个输入的点积上的 softmax。通过这种方式,得到概念编码φ_j 和特定原型插槽(p_j)^k 之间的相似度:


得到的相似度向量 s_j 包含类别 j 的每个原型插槽的相似度得分,对应的概念编码为φ_j。为了进一步离散化和将概念绑定到各个原型插槽,引入第二个函数 Sτ(·),将加权 softmax 函数应用于相似度分数:


本文实验中,逐步降低τ以逐渐加强信息的绑定。在τ的极端情况下,∏j 类似于一个独热向量(在 j>1 的情况下,多标签独热向量),以表征概念编码φ_j 最类似于第 j 个类别的哪个原型插槽。最后,将每个类别的加权相似性分数连接到一个向量中,以接收最终的原型距离码 y,并将其传递给解码器 g(·),以重建图像。

概念交换和弱监督。在训练之前,即初始化之后,还没有语义知识绑定到原型插槽。然而,在收敛的 iCSN 中发现的语义知识是通过弱监督的训练过程和简单的交互技巧间接学习的。本文采用匹配配对方法,这是一种实用的弱监督训练过程,以克服无监督解纠缠的问题。在这种方法中,观察到一对图像 (x,x’),它们共享数据中潜在变化因素的已知子集的值,例如颜色,而共享因素的总数可以在 1 到 J− 1 之间变化。通过这种方式,模型可以使用配对的附加信息来约束和指导其潜在表征的学习。以前关于弱监督训练(特别是 VAEs)的工作恢复方法主要是在共享因子 ID 处应用 x 和 x’的编码器分布的乘积或平均值,而 iCSN 则是在成对表征之间使用一个简单的交换技巧。具体来说,当 v 是图像对(x,x’) 之间的共享因子 ID 时,相应的相似度分数 (∏_v, ∏’_v) 在最终对应的原型代码之间交换:


这种交换过程具有直观的语义,它迫使 iCSN 从第一幅图像中提取信息,用于表征第二幅图像的类别 v 的属性

训练目标。iCSN 最终通过在大小为 N 的批次中每对图像的单像素重建损失进行训练:


该损失项与之前关于原型学习的几项工作形成对比,之前的这些工作会通过额外的一致性损失来加强语义绑定。iCSN 则通过将语义绑定隐式地包含到网络体系结构中,减少了引入额外超参数以及对多个目标进行更复杂的优化过程的需要。

与 iCSNs 交互。iCSNs 的目标,尤其是与 VAEs 相比,不一定是学习底层数据分布的生成潜在变量模型,也可以是学习人类可以理解和交互的原型概念表征。因此,自编码器结构是达到目的的一种手段,而不是必要条件。然而,iCSN 不是在收敛后丢弃解码器,而是可以呈现输入样本对每个概念最接近的原型重建。因此,通过在测试时查询这些原型重建,人类用户可以确认预测的概念是否有意义,并可能检测到不想要的模型行为。通过定义测试时重构误差的阈值,iCSN 可以给出其在识别新样本中概念的确定性的启发式指示。

由于存在离散且语义受限的潜在代码 y,人类用户可以通过将 y 视为多标签独热编码与 iCSNs 交互。例如,逻辑陈述∀img. ⇒ ¬hasconcept(img, p 11 ) or ∀img. isin(img, imgset) ⇒ hasconcept(img, p 12 ),用户可以制定逻辑约束,分别读作“从未检测到原型 p 11 所代表的概念”“对于这组图像中的每一幅图像,你都应该检测到原型 p 12 所代表的概念。”。用户可以以交互方式管理一组表现不正确的图像。

相关文章
|
5天前
|
人工智能 自然语言处理 语音技术
FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具
FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具,通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。
65 10
FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具
|
13天前
|
人工智能 达摩院 计算机视觉
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术,支持高效妆容迁移与动态对齐,适用于图像处理、虚拟试妆等多个领域。
49 9
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
|
10天前
|
机器学习/深度学习 人工智能 文字识别
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
61 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
|
18天前
|
人工智能
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
《Scaling Laws for Precision》论文提出“精度感知”的扩展理论,将精度纳入模型发展的核心考量,弥补了传统AI模型发展理论忽视精度的不足。研究发现低精度训练会降低模型的有效参数计数,影响性能,并预测了低精度训练和后训练量化带来的损失。作者通过大量实验验证了理论的可靠性和有效性,为计算资源有限情况下如何平衡模型规模和精度提供了新思路。然而,该研究也引发了关于精度与性能权衡复杂性的争议。
65 27
|
9天前
|
存储 人工智能 安全
AI时代的网络安全:传统技术的落寞与新机遇
在AI时代,网络安全正经历深刻变革。传统技术如多因素身份认证、防火墙和基于密码的系统逐渐失效,难以应对新型攻击。然而,AI带来了新机遇:智能化威胁检测、优化安全流程、生物特征加密及漏洞管理等。AI赋能的安全解决方案大幅提升防护能力,但也面临数据隐私和技能短缺等挑战。企业需制定清晰AI政策,强化人机协作,推动行业持续发展。
40 16
|
15天前
|
人工智能 Java 程序员
通义灵码AI编码助手和AI程序员背后的技术
通义灵码AI编码助手和AI程序员背后的技术,由通义实验室科学家黎槟华分享。内容涵盖三部分:1. 编码助手技术,包括构建优秀AI编码助手及代码生成补全;2. 相关的AI程序员技术,探讨AI程序员的优势、发展情况、评估方法及核心难点;3. 代码智能方向的展望,分析AI在软件开发中的角色转变,从辅助编程到成为开发主力,未来将由AI执行细节任务,开发者负责决策和审核,大幅提升开发效率。
105 12
|
17天前
|
人工智能 搜索推荐
AI视频技术的发展是否会影响原创内容的价值
AI视频技术的发展显著降低了视频制作的门槛与成本,自动完成剪辑、特效添加等繁琐工作,大大缩短创作时间。它提供个性化创意建议,帮助创作者突破传统思维,拓展创意边界。此外,AI技术使更多非专业人士也能参与视频创作,注入新活力与多样性,丰富了原创内容。总体而言,AI视频技术不仅提升了创作效率,还促进了视频内容的创新与多样化。
|
10天前
|
机器学习/深度学习 存储 人工智能
AI实践:智能工单系统的技术逻辑与应用
智能工单系统是企业服务管理的核心工具,通过多渠道接入、自然语言处理等技术,实现工单自动生成、分类和分配。它优化了客户服务流程,提高了效率与透明度,减少了运营成本,提升了客户满意度。系统还依托知识库和机器学习,持续改进处理策略,助力企业在竞争中脱颖而出。
36 5
|
14天前
|
机器学习/深度学习 人工智能 编译器
BladeDISC++:Dynamic Shape AI 编译器下的显存优化技术
本文介绍了阿里云 PAI 团队近期发布的 BladeDISC++项目,探讨在动态场景下如何优化深度学习训练任务的显存峰值,主要内容包括以下三个部分:Dynamic Shape 场景下显存优化的背景与挑战;BladeDISC++的创新解决方案;Llama2 模型的实验数据分析
|
14天前
|
存储 人工智能 边缘计算
AI时代下, 边缘云上的技术演进与场景创新
本文介绍了AI时代下边缘云的技术演进与场景创新。主要内容分为三部分:一是边缘云算力形态的多元化演进,强调阿里云边缘节点服务(ENS)在全球600多个节点的部署,提供低时延、本地化和小型化的价值;二是边缘AI推理的创新发展与实践,涵盖低时延、资源广分布、本地化及弹性需求等优势;三是云游戏在边缘承载的技术演进,探讨云游戏对边缘计算的依赖及其技术方案,如多开技术、云存储和网络架构优化,以提升用户体验并降低成本。文章展示了边缘云在未来智能化、实时化解决方案中的重要性。