【论文速递】CVPR2022 - 基于可重复使用的教师分类器的知识蒸馏

简介: 【论文速递】CVPR2022 - 基于可重复使用的教师分类器的知识蒸馏

【论文速递】CVPR2022 - 基于可重复使用的教师分类器的知识蒸馏

【论文原文】:Knowledge Distillation with the Reused Teacher Classifier

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9878899

博主关键词: 知识蒸馏,图像分类,重复使用

推荐相关论文:

-无

摘要:

知识蒸馏旨在将一个强大而繁琐的教师模型压缩成一个轻量级的学生模型,而不会牺牲太多的表现。为此,在过去几年中人们提出了各种方法,通常使用精心设计的知识表示,这反过来又增加了模型开发和解释的难度。相比之下,我们凭经验表明,简单的知识蒸馏技术足以显著缩小师生绩效差距。我们直接从预训练教师模型中重用判别分类器进行学生推理,并通过与单一l2损失的特征对齐来训练学生编码器。通过这种方式,学生模型能够实现与教师模型完全相同的性能,前提是他们提取的特征完全对齐。开发了一个额外的投影仪来帮助学生编码器与教师分类器匹配,这使得我们的技术适用于各种教师和学生架构。广泛的实验表明,由于增加了投影仪,我们的技术以适度的压缩比成本实现了最先进的结果。

关键词 :知识蒸馏,图像分类,重复使用。

简介:

给定一个具有大量参数的强大的教师模型,知识蒸馏(KD)的目标是帮助另一个参数化较少的学生模型获得与较大的教师模型[4,24]相似的泛化能力。实现这一目标的一个简单方法是通过给定相同的输入[2,24]来对齐它们的对数或类预测。由于KD技术的概念简单性和实用性,它在目标检测[8]、语义分割[32]和transfomer[45]的训练等各种应用中都取得了巨大的成功。

原版 KD 的一个局限性是,原始教师模型和蒸馏学生 模型之间的性能差距仍然很大。为了克服这个缺点,在过去的几年中人们提出了许多方法[19],[48]。他们中的大多数受益于利用预先训练的教师模型的额外监督,特别是中间层[1],[6],[39],[44],[46],[50],[53]。除了对齐普通的中间特征[6],[39],[50]之外,现有的工作通常都是基于精心设计的知识表示,如模拟空间注意映射[53]、两两相似性模式[36,37,46]或最大化教师和学生特征[1,44,55]之间的互信息。尽管我们确实看到这些方法在学生表现方面的不断改进,但在实践中,无论是有效的表示还是确保其成功的优化超参数都不容易实现。此外,转移知识的多样性阻碍了对学生表现最终改善的统一和明确的解释。

d484c19710d8067f686015e17b7152b.png

Fig. 1. An overview of our proposed SimKD.

在本文中,我们提出了一种简单的知识蒸馏技术,并证明它可以显著弥合教师和学生模型之间的性能差距,而无需复杂的知识表示。我们提出的“SimKD”技术如图1所示。我们认为,教师模型强大的类别预测能力不仅归功于这些表达特征,而且同样重要的是,判别性分类器。基于这个稍后会得到经验支持的论点,我们通过分类器前一层的特征对齐来训练学生模型,并直接复制教师分类器进行学生推理。这样,如果我们能够将学生的特征与教师模型的特征完美地对齐,他们的表现差距就会消失。也就是说,仅特征对齐误差就说明了学生推理的准确性,这使得我们的知识转移更容易理解。根据我们的实验结果,单一l2损失的特征对齐已经非常有效。如此简单的损失使我们不必像以前的工作那样仔细调整超参数,以平衡多重损失的影响[1],[6],[24],[39],[44],[46],[50],[53]。

由于从教师和学生模型中提取的特征的维度通常彼此不同,因此在学生特征编码器后添加一个投影仪来弥补这种维度不匹配。这种投影仪在师生压缩中,它的剪枝比成本通常小于3%,但它使我们的技术适用于任意的模型架构。在少数情况下,在添加的投影仪和重用的教师分类器的参数数小于原始学生分类器的情况下,甚至可以扩大剪枝率(见图7)。我们在标准基准数据集上进行了广泛的实验,并观察到我们的SimKD始终优于所有比较的最先进的方法。我们还表明,我们的简单技术可以很好地推广到不同的场景,如多教师知识蒸馏和无数据知识蒸馏。

目录
相关文章
|
7月前
|
机器学习/深度学习 缓存 算法
【论文速递】CVPR2020 - CRNet:用于小样本分割的交叉参考网络
【论文速递】CVPR2020 - CRNet:用于小样本分割的交叉参考网络
|
7月前
|
算法 测试技术 vr&ar
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
|
4月前
|
机器学习/深度学习 自然语言处理
准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊
【8月更文挑战第29天】浙江大学团队在《Nature》子刊上发表的论文介绍了一款名为EditRetro的基于Transformer架构的化学逆合成预测模型,其准确率高达60.8%,为化学合成领域带来了革命性的变化。此模型无需依赖传统化学反应模板,具备更强的泛化能力和多样化合成路线生成能力,在药物研发和材料科学领域展现出巨大潜力,尽管仍存在一定的错误率和计算资源需求高等挑战。论文详情见:https://www.nature.com/articles/s41467-024-50617-1。
60 3
|
7月前
|
计算机视觉
【论文速递】CVPR2022 - 基于可重复使用的教师分类器的知识蒸馏
【论文速递】CVPR2022 - 基于可重复使用的教师分类器的知识蒸馏
|
7月前
|
机器学习/深度学习 自动驾驶 机器人
【论文速递】CVPR2022 - 泛化的小样本语义分割
【论文速递】CVPR2022 - 泛化的小样本语义分割
|
7月前
|
人工智能
ICLR 2024:鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
【4月更文挑战第3天】北京大学研究团队在ICLR 2024会议上提出了“自适应膨胀”(AdaInf)策略,改善对比学习效果。该策略针对数据膨胀(使用扩散模型生成图像增强)可能导致对比学习性能下降的问题,通过动态调整数据增强强度和混合比例,提升多种对比学习方法的性能。实验显示,AdaInf在不使用外部数据的情况下,使CIFAR-10线性准确率达到94.70%,刷新纪录。研究还揭示了数据增强与数据膨胀的互补关系,以及它们如何影响泛化误差。然而,AdaInf在大量生成数据和不同质量数据上的应用仍存在局限性。
83 3
ICLR 2024:鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
|
7月前
|
知识图谱 异构计算
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
【2月更文挑战第28天】ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
47 3
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
|
7月前
|
机器学习/深度学习 数据可视化 计算机视觉
【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏
【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏
|
7月前
|
机器学习/深度学习 计算机视觉
【论文速递】CVPR2022 - 学习 什么不能分割:小样本分割的新视角
【论文速递】CVPR2022 - 学习 什么不能分割:小样本分割的新视角
|
7月前
|
机器学习/深度学习 监控 算法
【论文速递】CVPR2021 - 通过解耦特征的目标检测知识蒸馏
【论文速递】CVPR2021 - 通过解耦特征的目标检测知识蒸馏