【模型性能杀器解读】如果项目的模型遇到瓶颈，用这些Tricks就对了！！！（一）-阿里云开发者社区

【模型性能杀器解读】如果项目的模型遇到瓶颈，用这些Tricks就对了！！！（一）

2023-05-18 337

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【模型性能杀器解读】如果项目的模型遇到瓶颈，用这些Tricks就对了！！！（一）

1、Introduction

近年来ImageNet的榜单一直在被刷新，从2012年的AlexNet，再到VGG-Net、NiN、Inception、ResNet、DenseNet以及NASNet；Top-1精度也从62.5%(AlexNet)->82.7%(NASNet-A)；但是这么大精度的提升也不完全是由模型的架构改变所带来的，其中训练的过程也有会起到很大的作用，比如，损失函数的改进、数据的预处理方式的改变、以及优化方法的选择等；但是这也是很容易被忽略的部分，因此这篇文章在这里也会着重讨论这个问题。

表1为各种模型的计算成本和验证精度以及ResNet使用“Tricks”训练结果，能够超越使用pipeline进行训练的架构。同时证明了这些Tricks在其他模型也是有效果的，比如Inception-V3、MobileNet等模型。

2、Efficient Training

近年来硬件发展迅速，特别是GPU。因此，许多与性能相关的权衡的最佳选择也会随之发生变化。例如，在训练中使用较低的数值精度和较大的Batch_Size更有效。

在本节中将在不牺牲模型精度的情况下实现低精度和大规模批量训练的各种技术。有些技术甚至可以提高准确性和训练速度。

2.1、Large-batch training

Mini-Batch SGD将多个样本分组到一个小批量中，以增加并行性，降低传输成本。然而，使用Large Batch-size可能会减慢训练进度。对于凸优化问题，收敛率随着批量大小的增加而降低。类似的经验结论已经被发表。

换句话说，在相同的epoch数量下，使用Large Batch-size的训练会与使用较小批次的训练相比，模型的验证精度降低。很多研究提出了启发式搜索的方法来解决这个问题。下面将研究4种启发式方法，可以在单台机器训练中扩大Batch-size的规模。

1）Linear scaling learning rate

在Mini-Batch SGD中，由于样本是随机选取的，所以梯度下降也是一个随机的过程。增加批量大小不会改变随机梯度的期望，但会减小随机梯度的方差。换句话说，大的批量降低了梯度中的噪声，因此我们可以通过提高学习率来在梯度相反的方向上取得更大的进展。

Goyal等人提出对于ResNet-50训练，经验上可以根据批大小线性增加学习率。特别是，如果选择0.1作为批量大小256的初始学习率，那么当批量大小b变大时可以将初始学习率提高到:

2）Learning rate Warmup

在训练开始时，所有参数通常都是随机值，因此离最优解很远。使用过大的学习率可能导致数值不稳定。在Warmup中，在一开始使用一个比较小的学习率，然后当训练过程稳定时切换回初始设置的学习率base_lr。

Goyal等人提出了一种Gradual Warmup策略，将学习率从0线性地提高到初始学习率。换句话说，假设将使用前m批(例如5个数据epoch)进行Warmup，并且初始学习率为，那么在第批时将学习率设为i=m。

3）Zero

一个ResNet网络由多个残差块组成，而每个残差块又由多个卷积层组成。给定输入，假设是Last Layer的输出，那么这个残差块就输出。注意，Block的最后一层可以是批处理标准化层。

BN层首先标准化它的输入用表示，然后执行一个scale变换。两个参数、都是可学习的，它们的元素分别被初始化为1s和0s。在零初始化启发式中，剩余块末端的所有BN层初始化了。因此，所有的残差块只是返回它们的输入，模拟的网络层数较少，在初始阶段更容易训练。

4）No bias decay

权值衰减通常应用于所有可学习参数，包括权值和偏差。它等价于应用L2正则化到所有参数，使其值趋近于0。但如Jia等所指出，建议仅对权值进行正则化，避免过拟合。无偏差衰减启发式遵循这一建议，它只将权值衰减应用于卷积层和全连通层中的权值。其他参数，包括偏差和和以及BN层，都没有进行正则化。

LARS提供了分层自适应学习率，并且对大的Batch-size(超过16K)有效。本文中单机训练的情况下，批量大小不超过2K通常会导致良好的系统效率。

2.2、Low-precision training

神经网络通常是用32位浮点(FP32)精度训练的。也就是说，所有的数字都以FP32格式存储，输入和输出以及计算操作都是FP32类型参与的。然而，新的硬件可能已经增强了新的算术逻辑单元，用于较低精度的数据类型。

例如，前面提到的Nvidia V100在FP32中提供了14个TFLOPS，而在FP16中提供了超过100个TFLOPS。如下表所示，在V100上从FP32切换到FP16后，整体训练速度提高了2到3倍。尽管有性能上的好处，降低的精度有一个更窄的范围，使结果更有可能超出范围，然后干扰训练的进展。Micikevicius等人提出在FP16中存储所有参数和激活，并使用FP16计算梯度。同时，FP32中所有的参数都有一个用于参数更新的副本。此外，损失值乘以一个比较小的标量scaler以更好地对齐精度范围到FP16也是一个实际的解决方案。