CVPR 2022 Oral | 大连理工提出小样本识别DeepBDC,6项基准性能最好(2)

简介: CVPR 2022 Oral | 大连理工提出小样本识别DeepBDC,6项基准性能最好

3.2 和 SOTA 方法的比较

该研究首先评估了 DeepBDC 在 miniImageNet 上的 1-shot/5-shot 性能。从表 2 可以看出,STL DeepBDC 均取得了最好的性能,Meta DeepBDC 也表现优异,取得了超越或者和当前最好工作可比的性能。其中,在 5-shot 任务中,Meta DeepBDC 和 STL DeepBDC 分别比之前最好的 BML 高出 0.83% 和 1.82%。

在细粒度识别任务 CUB 上,为了公平可比,该研究首先根据设置重新实现了基线模型 ProtoNet 和 Good-Embed。表 2 表明该研究实现的 ProtoNet 和 Good-Embed 与原文中的准确率相比很具有竞争力,同时和当前最好的工作相比,该研究也是大幅度领先的。在 1-shot 上,Meta DeepBDC 和 STL DeepBDC 分别比 FRN 高 1% 和 1.46%; 在 5-shot 上,这两种实现也分别领先 FRN 0.84% 和 1.04%。

在跨域任务上,该研究以 miniImageNet 为源域,以三个细粒度数据集 CUB,Cars,Aircraft 为目标域进行跨域评估。他们将 miniImageNet 的全集作为训练集,分别在目标域数据集上进行测试。结果如表 3 所示,在 miniImageNet→CUB 上,基于协方差的 CovNet 是非常有竞争力的,仅略低于当前最好的 FRN。和 FRN 相比,Meta DeepBDC 和 STL DeepBDC 分别比高性能 FRN 高出 0.8% 和 3.1%;在 miniImageNet→Aircraft 上,该研究的两种实现也比其他方法有着显著的提高,性能提升大于 3.2%;在 miniImageNet→Cars 上,该研究的方法同样也是处于领先,其中比最好的 ADM 在 1-shot 和 5-shot 上分别提高了 0.7% 和 4.2%。这些结果都充分证明了本文方法具有很好的域迁移能力。

表 2:在通用分类任务和细粒度识别任务上的性能比较。黑色表示最好的性能,红色表示次好性能。


表 3:在领域迁移任务上的性能比较。黑色表示最好的性能,红色表示次好性能。

3.3 消融实验

首先该研究评估了降维层对 DeepBDC 和同类方法的性能影响。由上文可知,降维层输出特征通道数为 d, 研究分别评估了 d 取不同值时的 5-shot 性能。如图 3 可以看出随着维度的升高,ADM 和 CovNet 分别在 d=196,和 d=256 时达到最高,之后性能会下降,和一阶的 ProtoNet 接近。Meta DeepBDC 也是类似的情况,但只有当维度超过 640 时,才会出现性能降低。另外我们也可以看出该研究两种实现在各个维度上都能显著的高于同类方法,进一步的展示了利用布朗距离协方差的优异性能。

图 3:降维层通道数量 d 对性能的影响。

紧接着该研究分别针对 Meta DeepBDC 和 STL DeepBDC 进行评估。Meta DeepBDC 中的一处关键实现是计算两个表达之间的距离,该研究在相同的实验设置下评估了其他两种常用的度量方式,即欧式距离和余弦距离,结果如表 4 所示。

从中我们可以看到各个距离函数的计算代价基本是可比的,其中在 1-shot 任务中,使用内积可以获得最好的性能;在 5-shot 中使用欧式距离可以获得最好的性能。针对 STL DeepBDC,该研究评估了使用不同分类器对性能的影响,其中可以看出使用 SVM 具有最小的时间代价,但是性能不理想;使用逻辑回归器可以获得最好的性能,同时计算效率并没有受太大影响,尤其是和 Softmax 分类器相比时,具有明显的优势。根据这两个实验结论,该研究在所有实验中使用这样的设置。

表 4 :Meta DeepBDC 的距离函数评估。

表 5:STL DeepBDC 的分类器评估。

此外,该研究还对各个方法的运行时间进行了比较。在相同的计算设备上,测量 DeepBDC 和同类方法在 meta-training 和 meta-testing 时每个任务的运行时间(ms/episode)。结果如表 6 所示,可以看出在同类方法中考虑联合分布的 DeepEMD 性能最好,但是其训练和测试代价极大,远超过其他所有方法。DeepBDC 的训练和测试代价略高于 CovNet 和 ProtoNet,但是性能有着显著的优势。因此这部分实验证明了 DeepBDC 是性能优异且高效的方法,能够适用于实际的应用中。

表 6:STL DeepBDC 的分类器评估。

同时该研究也探究了 DeepBDC 在容量更大的模型上的表现。目前的小样本学习方法通常使用 ResNet-12 或者 ResNet-18 作为基础骨干模型,因此该研究使用更深层的 ResNet-34 进行了实验。他们在 miniImageNet 和 CUB 上分别和同类方法进行了比较,结果如表 7 和表 8 所示。我们可以看出当使用更大容量模型时,该研究的两种实现均有持续的性能提升。

表 7 :DeepBDC 基于 ResNet-34 在 miniImageNet 上的性能。

表 8 :DeepBDC 基于 ResNet-34 在 CUB 上的性能。

最后,该研究在一些线性和非线性相关的样本上展示了布朗距离相关系数(BDCorr)和经典协方差相关系数(Corr)上的建模相关性的能力。如图 9 所示,BDCorr 在线性相关的样本上和 Corr 具有相似的能力,且由于其非负性,BDCorr 无法反映方向性;二者都不能反映斜率的大小。但从图 10 中我们可以看出,对于所有的非线性相关样本,Corr 都等于 0,无法度量非线性相关性;而 BDCorr 可以刻画这种复杂非线性情况下的相关性。这一点充分证明了 BDC 在度量分布之间的相关性时,比经典协方差的能力更强。

表 9 :在线性相关的样本上的比较。

表 10 :在非线性相关的样本上的比较。

第四章 结论

在本文中,该研究提出了 DeepBDC 用于小样本分类任务,DeepBDC 通过度量样本对之间的联合分布从而获得更准确的相似度,极大的提升了小样本分类的性能。据了解,这是首次将布朗距离协方差这一潜力巨大、但又严重低估的统计学方法引入到深度学习中,并将其实现为一个高效的即插即用的模块,可以灵活的嵌入到任意深度卷积网络中。该研究提供的两种实现方案,即无论是基于度量学习的 Meta DeepBDC 还是基于简单迁移学习的 STL DeepBDC 都证明了这种易用性。

大量的实验表明,该研究的方法都在多个通用、细粒度、跨域小样本学习任务上获得了非常具有竞争力的性能,取得了当前最好的结果。该研究提出的 DeepBDC 是一种基本的度量距离 / 相似性和建模相关性的深度学习技术,在计算机视觉和机器学习中具有广泛的应用前景。

相关文章
conda常用操作和配置镜像源
conda常用操作和配置镜像源
31617 0
|
测试技术 持续交付 开发工具
《Git 简易速速上手小册》第6章:Git 在持续集成/持续部署(CI/CD)中的应用(2024 最新版)
《Git 简易速速上手小册》第6章:Git 在持续集成/持续部署(CI/CD)中的应用(2024 最新版)
350 2
|
搜索推荐 API 数据安全/隐私保护
使用Selenium进行网页登录和会话管理
使用Selenium进行网页登录和会话管理
|
Ubuntu Linux
Linux Ubuntu 20.04 LTS 解决无法输入中文 输入法问题
Linux Ubuntu 20.04 LTS 解决无法输入中文 输入法问题
5140 0
|
27天前
|
SQL 自然语言处理 关系型数据库
构建AI智能体:二十九、Text2SQL:告别繁琐SQL!用大模型自助生成数据报表
Text2SQL技术通过自然语言处理将用户查询转换为SQL语句,解决企业数据查询效率低下的痛点。该技术包含语义理解、模式对齐、SQL生成和优化等核心处理过程,核心组件包括自然语言理解模块、Schema管理模块和SQL生成模块。文章介绍了闭源和开源模型的选择策略,并提供了基于Function Calling的Text2SQL实现示例,展示如何安全高效地将自然语言转换为数据库查询。
598 4
|
算法 搜索推荐
解读双编码器和交叉编码器:信息检索中的向量表示与语义匹配
在信息检索领域(即从海量数据中查找相关信息),双编码器和交叉编码器是两种至关重要的工具。它们各自拥有独特的工作机制、优势和局限性。本文将深入探讨这两种核心技术。
576 3
解读双编码器和交叉编码器:信息检索中的向量表示与语义匹配
|
存储
原码,补码的除法
原码,补码的除法
526 1
|
算法
STM32CubeMX PID差速循迹小车
STM32CubeMX PID差速循迹小车
644 1
STM32CubeMX PID差速循迹小车
|
算法 开发者
【Qt SDL相关问题】Qt 引入SDL导致main函数冲突的解决方案
【Qt SDL相关问题】Qt 引入SDL导致main函数冲突的解决方案
308 2
|
Java Maven Kotlin
在 build.gradle.kts 添加 阿里云仓库
在 build.gradle.kts 添加 阿里云仓库
2739 0