谷歌发布最新元学习框架「DVRL」,用强化学习量化模型中每个数据点的价值

简介: Google AI研究院最近的研究表明,并不是所有数据样本对于训练都同样有用,特别是对于深度神经网络(DNN)来说。昨日,他们发表了一篇博客,详细叙述了用强化学习评估训练数据的影响。

微信图片_20220109174728.png


你是否还在使用大规模数据集进行无脑训练呢?

实际上,如果数据集包含低质量或标签不正确的数据,通常可以通过删除大量的训练样本来提高性能。

 

此外,如果训练集与测试集不匹配(例如,由于训练和测试位置或时间的差异) ,人们还可以通过将训练集中的样本限制为与测试场景最相关的样本,从而获得更高的性能。

 

由于这些场景的普遍存在,准确量化训练样本的值对于提高真实数据集上的模型性能具有很大的潜力。


        微信图片_20220109174730.png    

 

除了提高模型性能之外,为单个数据分配质量值(quality value)也可以启用新的用例,也可以用来提出更好的数据收集方法。

 

例如,什么类型的附加数据最有利,并可用于更有效地构建大规模的训练数据集,或者使用标签作为关键字进行网络搜索,过滤掉不太有价值的数据。

 

量化数据的价值

 

对于给定的机器学习模型,并不是所有的数据都是相等的。一些数据与手头的任务有更大的相关性,或者相比其他数据有更丰富的信息内容。

 

那么,到底该如何评估单一数据的价值呢?在完整数据集的粒度上,人们可以简单地在整个数据集上训练一个模型,并将其在测试集上的性能作为数据的价值。

 

然而估计单一数据的价值要困难得多,特别是对于依赖于大规模数据集的复杂模型,因为在计算复杂度上来说,不可能对一个模型的所有可能的子集进行重新训练和评估。

 

为了解决这个问题,研究人员探索了基于排列的方法(例如:influence functions)和基于博弈论的方法(例如:data Shapley)。

 

微信图片_20220109174732.jpg


然而,即使是当前最好的方法也远不能适用于大型数据集和复杂模型,而且它们的数据评估性能也是有限的。

 

同时,基于元学习(meta learning)的自适应权重分配方法已经被开发出来,用来使用元目标(meta-objective)估计权重值。


但是他们并没有优先考虑从高价值的数据样本中学习,而通常是基于梯度下降法学习或者其他启发式方法得到数据价值的映射。这些方法改变了传统的预测模型的动态训练,会导致与单个数据点的价值无关的性能变化。

 

使用强化学习评估数据(DVRL)

 

为了推断数据值,我们提出了一种数据值估计器(DVE) ,该估计器用来估计数据值,并选择最有价值的样本来训练预测器模型。

 

这种操作基本上是不可微的,因此不能使用传统的基于梯度下降的方法。

 

相反,Google的研究员们建议使用强化学习(RL) ,这样 DVE 的监督是基于一个奖励Reward,而这个Reward能用来量化预测器在一个很小但干净的验证集上面的性能。

 

DVRL:Data Valuation Using Reinforcement Learning


在给定状态和输入样本的情况下,Reward指导Policy进行最优化选择,向着最优的数据价值方向进行。


        微信图片_20220109174734.gif


Google AI 研究院以预测模型学习和评估框架为环境,提出了一种新的基于实例推理的机器学习应用方案。      


微信图片_20220109174735.gif


图:使用DVRL进行训练。在用准确的Reward训练DVE时,最有价值的样本(用绿点表示)被使用得越来越多,而最无价值的样本(红点)被使用得越来越少。

 

实验结果

 

结果评估了 DVRL 在不同类型数据集和用例上的数据价值估计的质量。

 

1.去除高/低值样本后的模型性能:

 

从训练集中剔除低值样本可以提高预测器模型的性能,特别是在训练集中含有损坏样本的情况下。

 

另一方面,移除高值的样本,特别是当数据集很小时,会显著降低性能。

 

总体而言,剔除高/低值样本后的表现是数据评估质量的一个强有力的指标

    微信图片_20220109174737.png      

2.带有噪声标签的鲁棒学习:

 

Google AI的研究人员考虑使 DVRL 在带有噪声标签时可以在端到端的方式中学习,而不必删除低价值的样本。

 

理想情况下,噪声样本应该得到低数据值,因为 DVRL 会收敛的同时将返回一个高性能模型。

        微信图片_20220109174739.png


图:数据集的标签上有40% 的均匀随机噪声,DVRL 优于其他流行的基于元学习的方法


结果显示,在最小化噪声标签影响的情况下,DVRL取得了SOTA的结果。这也表明了DVRL可以应用到复杂模型和大规模数据集。

 

3.领域适应(Domain adaptation):

 

Google考虑的场景是,训练集来自与验证和测试集完全不同的分布。通过从训练数据集中选择最适合验证数据集分布的样本,数据估值预计将对此任务有所帮助。

    微信图片_20220109174740.png      

 DVRL 通过联合优化数据估值器和相应的预测器模型,显著提高了领域的适应性。

 

结论


Google AI研究院这次提出了一种新的元学习数据评估框架,该框架决定了每个训练样本用在预测模型的训练过程的可能性。

 

与以往的研究不同的是,该方法将数据评估融入到预测器模型的训练过程中,使得预测器和DVE能够相互提高。

 

通过使用一个经过 RL 训练的 DNN 对这个数据值估计任务进行建模,并从一个代表目标任务绩效的小验证集中获得奖励。

 

DVRL 以高效的计算方法提供了高质量的排序后的训练数据,有利于领域自适应、错误样本发现和鲁棒学习,同时还发现了 DVRL 在不同类型的任务和数据集上显著优于其他方法。

 

 

参考链接:

https://ai.googleblog.com/2020/10/estimating-impact-of-training-data-with.html

相关文章
|
机器学习/深度学习 算法 搜索推荐
阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022,有效减少大规模神经网络训练时间
近日,阿里云机器学习平台 PAI 与香港大学吴川教授团队合作的论文”Efficient Pipeline Planning for Expedited Distributed DNN Training”入选INFOCOM(IEEE International Conference on Computer Communications) 2022,论文提出了一个支持任意网络拓扑的同步流水线并行训练算法,有效减少大规模神经网络的训练时间。
阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022,有效减少大规模神经网络训练时间
|
4天前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
12 2
|
7天前
|
人工智能 自然语言处理 测试技术
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【10月更文挑战第29天】Playground v3(PGv3)是最新发布的文本到图像生成模型,其在多个测试基准上取得了最先进的性能。与传统模型不同,PGv3采用了一种全新的结构,将大型语言模型与图像生成模型深度融合,展现出卓越的文本提示遵循、复杂推理和准确的文本渲染能力。此外,PGv3还具备超越人类的图形设计能力,支持精确的RGB颜色控制和多语言理解,为设计师和创意工作者提供了强大的工具。尽管存在一些挑战,但PGv3的发布标志着文本到图像生成技术的重大突破。
21 6
|
6月前
|
机器学习/深度学习 自然语言处理
谷歌发布时序预测基础模型TimesFM
【2月更文挑战第27天】谷歌发布时序预测基础模型TimesFM
616 3
谷歌发布时序预测基础模型TimesFM
|
3月前
|
机器学习/深度学习 算法 搜索推荐
支付宝商业化广告算法问题之在DNN模型中,特征的重要性如何评估
支付宝商业化广告算法问题之在DNN模型中,特征的重要性如何评估
|
5月前
|
边缘计算 自然语言处理 安全
谷歌推出AGREE,增强大模型生成回答准确性
【6月更文挑战第19天】谷歌的AGREE技术针对大语言模型(LLMs)的“幻想”回答问题,通过自我接地和引用事实来源提升回答准确性。在多个数据集和模型上的测试显示,AGREE增强了回答和引用的准确性,但无法完全消除错误,且需大量计算资源,还可能涉及隐私和安全问题。[[1](https://arxiv.org/abs/2311.09533)]
45 1
|
5月前
|
机器学习/深度学习 人工智能 算法
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
【6月更文挑战第4天】普林斯顿大学陈丹琦团队推出SimPO,一种超越DPO的强化学习优化算法,旨在优化大型语言模型以符合人类价值观。SimPO通过序列平均对数概率作为奖励,提高计算效率并减少对参考模型的依赖。在多基准测试中,SimPO表现优秀,尤其在AlpacaEval 2和Arena-Hard上大幅超越现有方法。团队还基于Llama3-8B-Instruct创建了最强8B开源模型,推动AI技术发展。尽管存在超参数敏感性等挑战,SimPO仍为AI优化提供新途径。[论文链接](https://arxiv.org/pdf/2405.14734)
76 1
|
6月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
91 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
让大模型不再巨无霸,这是一份最新的大模型参数高效微调综述
【5月更文挑战第12天】最新综述探讨了大模型参数高效微调,旨在减少计算成本、增强泛化能力和灵活性。方法包括Additive、Selective、Reparameterized和Hybrid PEFT,已应用于NLP、CV和多模态学习。尽管取得进展,仍需解决泛化、效率和可解释性问题。未来研究将关注多任务学习、强化学习和神经架构搜索。论文链接:https://arxiv.org/pdf/2403.14608.pdf
349 2
|
6月前
|
人工智能 算法 开发者
苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相
【5月更文挑战第9天】苹果开源大语言模型OpenELM,提升效率和准确性,参数仅为10亿时比OLMo准确度高2.36%。苹果首次公开训练全过程、权重、数据集和代码,增强研究透明度,支持在苹果设备上推理和微调,推动AI研究发展。但训练资源需求高和模型可解释性仍是挑战。论文链接:[arxiv.org/pdf/2404.14619.pdf](https://arxiv.org/pdf/2404.14619.pdf)
76 3