【论文速递】ISBI2022 - 通过点对点相互学习增强知识蒸馏

简介: 【论文速递】ISBI2022 - 通过点对点相互学习增强知识蒸馏

【论文速递】ISBI2022 - 通过点对点相互学习增强知识蒸馏

【论文原文】:Augmenting Knowledge Distillation with Peer-to-Peer Mutual Learning for Model Compression

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9761511

image.gif

博主关键词:知识蒸馏,相互学习,师生网络,在线蒸馏。

推荐相关论文:

- 无

image.gif

摘要:

知识蒸馏(KD)是一种有效的模型压缩技术,是教授紧凑的学生网络来模仿复杂且训练有素的教师网络的行为。相比之下,相互学习(ML)提供了一种替代策略,即使没有强大但静态的教师网络,也可以从共享知识中使多个简单的学生网络受益。在这些发现的激励下,我们提出了一个单教师、多学生的框架,该框架利用 KD 和 ML 来实现更好的表现。此外,我们还利用在线蒸馏策略同时培训教师和学生。为了评估所提出的方法的性能,我们使用三种不同版本的师生网络对基准生物医学分类(MSI与MSS)和目标检测(息肉检测)任务进行了广泛的实验。以提议的方式训练的学生网络集合比单独使用 KD 或 ML 训练的学生集合取得了更好的结果,从而确立了通过学生之间的点对点学习增强教师向学生的知识转移的好处。

简介:

深度学习在过去十年中引起了医疗保健部门的极大兴趣。在医学专家和研究人员的协助下,它在药物发现、医学图像分析、机器人手术等多个领域取得了可喜的成果。虽然深度学习技术表现得非常好,但它们需要在大型数据集上训练大型模型才能实现这一壮举。然而,由于与训练它们相关的计算成本以及它们无法扩展到资源有限的医疗设备,大型模型并不总是实际可行的。因此,人们转向开发更小、更快、更高效的深度学习模型,而不会显着影响性能。最近,知识蒸馏(KD)已成为创建这种更小和高效架构的潜在候选者。它涉及将庞大的预训练教师网络获得的知识转移到紧凑的学生模型中。师生互动机制旨是在逐步使学生能够复制训练有素的教师模式的行为。

知识蒸馏现在被认为是一种成熟且有效的模型压缩技术。其应用包括各种计算机视觉任务,包括分割,目标检测和识别自成立以来,已经提出了几种KD变体,以加强知识转移。传统上,师生网络在被称为离线 KD 的两阶段过程中进行训练。预先训练的教师网络保持固定,同时提供结构化知识来指导学生的学习过程。相比之下,在线蒸馏将所有网络视为对等体,并在一步过程中协作训练它们。深度互学习(DML)通过提炼两个学生网络之间的对数信息,取得了有希望的结果。一般来说,知识的转移是使用对数实现的,但也探索了中级表示的转移。FitNet 从预先训练的教师网络中传输特征图,以改善学生网络的监督学习。此外,所有学生生成的对数集合已被证明优于直接使用对数信息的方法。进化蒸馏被提出,其通过在教师和学生网络之间引入引导模块来转移中间级表示。除了计算机视觉,KD的优势也被用于医学图像分析。提出了互知蒸馏(MKD),以将知识从一种模态(MR图像)转移到另一种模态(CT图像)以进行分割任务。知识从训练多模态数据的教师网络蒸馏到用于阿尔茨海默病预测的单模态学生网络。

从在线动态学习中汲取灵感,我们探索了通过多个学生之间的相互学习来增强教师对学生的知识蒸馏的想法。我们的主要贡献是:

    • 我们建议使用单教师、多学生的框架将知识蒸馏的好处与相互学习相结合。
    • 我们的在线训练框架包括将老师的预测传递给每个学生,并在同一培训步骤中同时在学生之间共享日志信息。
    • 我们证明了我们提出的方法使用三种不同的网络配置在基准生物医学分类和检测任务上的有效性。

    35d56c9cc14fb0c3b69d67f9d5157db.png

    Fig. 1. Overview of the combined knowledge distillation and mutual learning technique with one teacher and two student networks.

    Fig. 1.结合知识蒸馏和相互学习技术与一个教师和两个学生网络概述。



    目录
    相关文章
    |
    7月前
    |
    自然语言处理 测试技术 计算机视觉
    ICLR 2024:谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测
    【4月更文挑战第22天】**TIME-LLM** 论文提出将大型语言模型重编程用于时序预测,克服数据稀疏性问题。通过文本原型重编码和Prompt-as-Prefix策略,使LLMs能处理连续时序数据。在多基准测试中超越专业模型,尤其在少量样本场景下效果突出。但面临跨领域泛化、模型调整复杂性和计算资源需求的挑战。[论文链接](https://openreview.net/pdf?id=Unb5CVPtae)
    108 2
    |
    机器学习/深度学习 人工智能 安全
    隐语小课丨「论文研究」隐私保护纵向联邦图神经网络
    隐语小课丨「论文研究」隐私保护纵向联邦图神经网络
    222 0
    |
    7月前
    |
    机器学习/深度学习 Shell 计算机视觉
    【论文速递】CCDC2021 - 轻量级网络的结构化注意知识蒸馏
    【论文速递】CCDC2021 - 轻量级网络的结构化注意知识蒸馏
    |
    机器学习/深度学习 存储 缓存
    VLDB 2022最佳研究论文:克服通信挑战,新框架SANCUS实现GNN高效训练
    VLDB 2022最佳研究论文:克服通信挑战,新框架SANCUS实现GNN高效训练
    110 0
    |
    机器学习/深度学习 编解码 算法
    CVPR 2022 | 提高小数据集利用效率,复旦等提出分层级联ViT网络
    CVPR 2022 | 提高小数据集利用效率,复旦等提出分层级联ViT网络
    168 0
    |
    人工智能
    IJCAI 2022 | 用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块
    IJCAI 2022 | 用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块
    153 0
    |
    自动驾驶 数据挖掘 计算机视觉
    CVPR2022 | 利用域自适应思想,北大、字节跳动提出新型弱监督物体定位框架
    CVPR2022 | 利用域自适应思想,北大、字节跳动提出新型弱监督物体定位框架
    168 0
    |
    机器学习/深度学习 自然语言处理 数据可视化
    任务通用!清华提出主干网络Flowformer,实现线性复杂度|ICML2022
    任务通用!清华提出主干网络Flowformer,实现线性复杂度|ICML2022
    165 0
    |
    传感器 机器学习/深度学习 编解码
    ViT强势应用 | V2X基于ViT提出了一个具有V2X通信的强大协作感知框架
    在本文中研究了Vehicle-to-Everything(V2X)通信在提高自动驾驶汽车感知性能方面的应用。使用新颖的vision Transformer提出了一个具有 V2X 通信的强大协作感知框架。
    ViT强势应用 | V2X基于ViT提出了一个具有V2X通信的强大协作感知框架
    |
    机器学习/深度学习 存储 人工智能
    用Transformer振兴CNN骨干网络,港大、腾讯等联合提出视觉自监督表征学习CARE
    来自港大、腾讯 AI Lab、牛津大学的研究者用 Transformer 振兴 CNN 注意力。
    231 0
    用Transformer振兴CNN骨干网络,港大、腾讯等联合提出视觉自监督表征学习CARE