DeepMind提出训练网络新方法,快速找到最佳超参数和模型

简介:
本文来自AI新媒体量子位(QbitAI)

从围棋到雅达利游戏、再到图像识别和语言翻译,神经网络在各领域已经崭露头角。

一直被大家忽视的是,在特定领域应用神经网络是在研究开始时就确定好的,比如用哪种类型的神经网络、用怎样的方法和数据训练它。最近DeepMind的一项研究表明,这些超参数可以通过经验、随机搜索或计算密集的搜索过程来选择。

在这篇名为《Population Based Training of Neural Networks》的论文中,研究人员提出一种训练神经网络的新方法,能让实验者快速选择最佳的超参数和模型完成任务。这种PBT(Population Based Training)法能够同时训练和优化一系列网络,快速找到最优设置。

更重要的是,PBT法不会增加计算开销。它可以像常规技术一样快速完成,并且容易集成到现有的机器学习pipeline中。

两种优化法

PBT技术是两种最常用的超参数优化方法的混合,即随机搜索手动调整

随机搜索中,神经网络群被独立地进行并行训练,训练结束后选择性能最好的模型。这就意味着只有一小部分神经网络将被优质的超参数训练,但是剩下大部分网络无法接受更好的训练,因此这种方法浪费计算资源。

 超参数的随机搜索中许多超参数是并行且独立的

如果换用手动调整,研究人员首先需要推测哪个是最优的超参数,然后再训练模型提高模型表现。这个过程需要持续不断地进行,直到神经网络性能让研究人员满意为止。

这种方法的结果不错,但耗时太长,有时需要花上几个星期甚至几个月。虽然贝叶斯优化等方法可以将这个过程自动化,但耗时仍然很长,需要许多连续训练才能找到最好的超参数。

 手动调整和贝叶斯优化等方法仍然低效

PBT来了

终于到了PBT大显身手的时候了!

PBT技术与随机搜索类似,都是从用随机超参数并行训练很多神经网络开始。但是,给个网络不会被独立训练,而是用其他神经网络群的信息来精炼超参数并协调模型间的计算资源。

随着神经网络群训练地进行,开发和探索过程为周期性的,确保群中的所有“工作者”基础性能良好。此外,新的超参数也在不断探索中。

也就是说,PBT可以快速利用好的超参数,将更多的训练时间投入到有最好的模型中。更重要的是,它可以在整个训练过程中调整超参数值,自动学习最佳结构。

 基于群的神经网络训练示意图

实验结果

实验表明,PBT在整个任务领域非常有效。例如,研究人员在一系列具有挑战性的强化学习问题中测试这个算法。结果显示,PBT在所有情况下均能迅速找到好的超参数,并给出了超出目前最先进基线的结果。

此外,PBT对训练生成的GAN也有效。研究人员用PBT框架将最大化衡量视觉保真度的指标Inception Score,将结果从6.45改善到6.9。

研究人员还把PBT应用到谷歌最先进的机器翻译神经网络中,它们都经过了手动调整的超参数的时间表,需要几个月才能完成。通过PBT,研究人员能够找到匹配甚至超过现有的性能的超参数schedule,而无需任何手动调试,同时通常只需要训练一次。

 在CIFAR-10和FeUdal网络(FuN)对吃豆小姐的训练/粉色圆点代表初始agent,蓝色圆点是最后的agent

最后,附研究论文下载地址:

file:///C:/Users/annie/Desktop/population_based_training.pdf

DeepMind博客介绍:

https://deepmind.com/blog/population-based-training-neural-networks/

本文作者:安妮 
原文发布时间:2017-11-28
相关文章
|
4月前
|
机器学习/深度学习 人工智能 算法
AI 基础知识从 0.6 到 0.7—— 彻底拆解深度神经网络训练的五大核心步骤
本文以一个经典的PyTorch手写数字识别代码示例为引子,深入剖析了简洁代码背后隐藏的深度神经网络(DNN)训练全过程。
895 56
|
3月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
378 0
|
4月前
|
存储 弹性计算 网络协议
阿里云服务器ECS实例规格族是什么?不同规格CPU型号、处理器主频及网络性能参数均不同
阿里云ECS实例规格族是指具有不同性能特点和适用场景的实例类型集合。不同规格族如计算型c9i、通用算力型u1、经济型e等,在CPU型号、主频、网络性能、云盘IOPS等方面存在差异。即使CPU和内存配置相同,性能参数和价格也各不相同,适用于不同业务需求。
426 144
|
5月前
|
JSON 监控 网络协议
干货分享“对接的 API 总是不稳定,网络分层模型” 看电商 API 故障的本质
本文从 OSI 七层网络模型出发,深入剖析电商 API 不稳定的根本原因,涵盖物理层到应用层的典型故障与解决方案,结合阿里、京东等大厂架构,详解如何构建高稳定性的电商 API 通信体系。
|
2月前
|
机器学习/深度学习 数据可视化 网络架构
PINN训练新思路:把初始条件和边界约束嵌入网络架构,解决多目标优化难题
PINNs训练难因多目标优化易失衡。通过设计硬约束网络架构,将初始与边界条件内嵌于模型输出,可自动满足约束,仅需优化方程残差,简化训练过程,提升稳定性与精度,适用于气候、生物医学等高要求仿真场景。
342 4
PINN训练新思路:把初始条件和边界约束嵌入网络架构,解决多目标优化难题
|
2月前
|
机器学习/深度学习 数据采集 人工智能
深度学习实战指南:从神经网络基础到模型优化的完整攻略
🌟 蒋星熠Jaxonic,AI探索者。深耕深度学习,从神经网络到Transformer,用代码践行智能革命。分享实战经验,助你构建CV、NLP模型,共赴二进制星辰大海。
|
3月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
236 2
|
2月前
|
机器学习/深度学习 数据采集 边缘计算
基于灰色神经网络的预测方法
基于灰色神经网络的预测方法
164 0
|
3月前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
|
3月前
|
算法 Python
【EI复现】考虑网络动态重构的分布式电源选址定容优化方法(Matlab代码实现)
【EI复现】考虑网络动态重构的分布式电源选址定容优化方法(Matlab代码实现)

热门文章

最新文章