【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏

  【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏

【论文原文】:Multi-Stage Model Compression using Teacher Assistant and Distillation with Hint-Based Training

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9767229

image.gif

博主关键词:蒸馏,基于提示的训练,模型压缩,图像分类

推荐相关论文:

- 无

image.gif

摘要:

大型神经网络在各种应用中都表现出高性能,但是,它们不适合智能手机等小型设备。因此,需要实现易于部署在小型设备中并具有高性能的小型网络。解决这个问题的方法之一是蒸馏,它可以通过从大型高性能教师模型中转移知识来获得具有高性能的小型神经网络。但是,如果教师模型和学生模型之间的参数数量存在较大差异,则蒸馏可能无法正常工作。在本文中,我们使用教师助理(TA)模型,该模型在教师模型和学生模型之间的层数中处于中间位置,以执行隐藏层和输出层的多步压缩,这是一种称为基于提示的训练的技术。首先,我们通过使用教师模型并针对隐藏层和输出层进行蒸馏来优化 TA 模型。然后,使用 TA 模型作为老师,我们对学生模型上的隐藏层和输出层执行相同的提炼。通过这种方式,我们通过减小模型的大小,同时逐步增加层的深度来提高学生模型的性能。实验表明,所提方法能够将简单的CNN模型压缩到参数比原始神经网络约1/7的大小,同时保持测试数据集相同的分类精度。在使用瓶颈架构的ResNet的学生模型中,所提出的方法优于教师模型,教师模型的参数数量大约是所提模型的8倍。此外,与现有研究相比,所提出的方法在学生模型中取得了最佳性能。

简介:

近年来,深度学习在人工智能领域取得了显著成果。特别是,具有大量卷积层的卷积神经网络(CNN)成功地获得了高性能。此外,随着深度学习方法的发展和GPU等硬件性能的提高,大规模训练神经网络变得更加容易。众所周知,这些神经网络在图像分类和图像识别等问题上表现良好,并且已经开发了VGGnet和ResNet等神经网络模型。但是,它们不适合在智能手机等小型设备中使用,因为此类设备的计算资源有限,这使得难以使用大型CNN。因此,需要实现可以轻松部署在小型设备中并且仍然具有高性能的CNN。

解决这个问题的方法之一是蒸馏,其中使用大型CNN作为教师模型来压缩模型。在蒸馏中,大型CNN用作教师模型,并将知识转移以训练较小的模型,该模型用作学生模型。蒸馏可用于获得具有高性能的小型CNN。但是,如果教师和学生之间的参数数量差异很大,蒸馏可能无法正常工作。作为这个问题的解决方案,有一种称为教师助理知识蒸馏(TAKD)的方法,它使用教师助理(TA)模型,该模型介于教师和学生模型之间。然而,这种方法只关注蒸馏,它考虑了输出层的损失,因此还有改进的余地。其中一种方法是基于提示的训练,它模仿隐藏层的响应,以更准确地转移教师模型的输入输出关系。本文的目的是在教师和学生模型之间的参数数量存在较大差异时,通过应用模型压缩来进一步提高学生模型的性能,同时加深层数。

在本文中,我们提出了一种两步蒸馏,通过使用 TA 模型进行基于提示的训练来模拟隐藏层和输出层。第一步,我们使用 TA 模型作为学生模型,并使用基于提示的训练和蒸馏来训练 TA 模型以优化其参数。第二步,我们使用 TA 模型作为老师。在这里,目标学生模型通过基于提示的训练和蒸馏进行训练。通过这种方式,将基于提示的训练方法与 TAKD 相结合,在加深层的同时压缩模型以实现更剧烈的模型压缩,这是我们提出的方法的新颖之处。

在实验中,我们使用CIFAR-10数据集来比较所提出的方法和现有方法的性能。

c2bf1c3e999f9b4a661ee24a08a62f7.png

image.gif

Fig. 1. The proposed method for compression into a small and deep neural network model.

Fig. 1.所提出的压缩成小型深度神经网络模型的方法。



目录
相关文章
|
7天前
|
人工智能 数据安全/隐私保护
深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理
普林斯顿大学和耶鲁大学研究人员发布报告,探讨链式思维(CoT)提示对大型语言模型(LLM)推理能力的影响。研究通过移位密码任务,揭示了三个关键因素:任务输出概率、预训练阶段的隐性学习及中间操作数量(噪声推理)。实验使用GPT-4、Claude 3和Llama 3.1模型,发现CoT提示可显著提升模型准确性,但也存在局限性。论文地址:https://arxiv.org/abs/2407.01687。
62 29
|
机器学习/深度学习 人工智能 自然语言处理
MedicalGPT:基于LLaMA-13B的中英医疗问答模型(LoRA)、实现包括二次预训练、有监督微调、奖励建模
MedicalGPT:基于LLaMA-13B的中英医疗问答模型(LoRA)、实现包括二次预训练、有监督微调、奖励建模
MedicalGPT:基于LLaMA-13B的中英医疗问答模型(LoRA)、实现包括二次预训练、有监督微调、奖励建模
|
2月前
|
机器学习/深度学习 存储 人工智能
NeurIPS 2024:解锁大模型知识记忆编辑的新路径,浙大用WISE对抗幻觉
在AI领域,大型语言模型(LLM)的发展带来了巨大便利,但如何高效更新模型知识以适应世界变化成为难题。浙江大学研究团队在NeurIPS 2024上提出的WISE方法,通过双参数化记忆方案及知识分片机制,有效解决了LLM知识更新中的可靠性、泛化性和局部性问题,显著提升了模型性能。
41 3
|
2月前
|
机器学习/深度学习 自然语言处理 数据格式
社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
本篇文章主要介绍下微调上的探索以及评估。另外,还特意试了试训练CMMLU数据集,能在榜单上提多少分
|
4月前
Meta浙大校友让评估模型自学成才,数据全合成无需人工标注,训练Llama 3 70B超过405B
【9月更文挑战第21天】近日,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。该论文由Meta与浙江大学校友合作完成,提出一种创新的模型评估方法,通过让评估模型自学习训练,无需依赖昂贵且易过时的人工标注数据。此方法利用合成数据,通过迭代生成对比模型输出并训练基于大型语言模型的评估器,从而实现自我迭代改进。研究结果显示,在不使用任何标注偏好数据的情况下,这种方法显著提升了评估模型的性能,甚至超越了一些现有模型。尽管如此,该方法在实际应用中仍需进一步验证。论文地址:https://arxiv.org/abs/2408.02666
86 4
|
8月前
|
机器学习/深度学习 人工智能
【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏
【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏
|
机器学习/深度学习 人工智能 物联网
ChatGenTitle:使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型
ChatGenTitle:使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型
ChatGenTitle:使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型
|
自然语言处理 文字识别 计算机视觉
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
217 0
|
人工智能 自然语言处理 文字识别
李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始
李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始
260 0
|
机器学习/深度学习 自然语言处理 并行计算
类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练
类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练
174 0

热门文章

最新文章