EMNLP 2024 Oral | CoBa:均衡多任务收敛之道

简介: 我们提出了一种满足了以上两种需求的新的 MTL 方法——CoBa,旨在以最小的计算开销有效控制多任务收敛的平衡。CoBa 利用相对收敛分数(RCS)、绝对收敛分数(ACS)和发散因子(DF),在训练过程中动态地调整任务权重,确保所有任务的验证集损失以均匀的速度朝向收敛推进,同时缓解了个别任务提前发散的问题。本文在四个不同的多任务数据集上进行实验,结果表明,CoBa 不仅促进了任务收敛的平衡,而且与最佳基线方法相比,还使 LLMs 的性能至多提升了 13%。

200029495_1732097867.png

目录
相关文章
|
传感器 机器学习/深度学习 自动驾驶
自动驾驶:BEV开山之作LSS(lift,splat,shoot)原理代码串讲
自动驾驶:BEV开山之作LSS(lift,splat,shoot)原理代码串讲
3989 0
自动驾驶:BEV开山之作LSS(lift,splat,shoot)原理代码串讲
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature
【9月更文挑战第24天】近年来,深度学习在人工智能领域取得巨大成功,但在连续学习任务中面临“损失可塑性”问题,尤其在深度强化学习中更为突出。加拿大阿尔伯塔大学的研究人员提出了一种名为“持续反向传播”的算法,通过选择性地重新初始化网络中的低效用单元,保持模型的可塑性。该算法通过评估每个连接和权重的贡献效用来决定是否重新初始化隐藏单元,并引入成熟度阈值保护新单元。实验表明,该算法能显著提升连续学习任务的表现,尤其在深度强化学习领域效果明显。然而,算法也存在计算复杂性和成熟度阈值设置等问题。
75 2
|
4月前
|
机器学习/深度学习
MoE也有Scaling Law,百万专家利用率近100%!DeepMind华人挑战MoE极限
【8月更文挑战第1天】近期研究提出"Mixture of A Million Experts", 通过PEER层解决了传统MoE中专家利用率低的问题。PEER采用产品键技术实现从百万级小型专家池中的稀疏检索,相较于FFW层和粗粒度MoE, 在语言建模任务上展现了更好的性能与计算效率平衡。此方法减少了计算和内存成本,同时提高了模型性能,开辟了深度学习的新方向。但仍面临模型复杂性增加及部分专家未充分利用等挑战。[论文](https://arxiv.org/abs/2407.04153)
59 7
|
7月前
|
机器学习/深度学习 算法
ICLR 2024 Oral:用巧妙的传送技巧,让神经网络的训练更加高效
【5月更文挑战第21天】ICLR 2024 Oral 提出了一种名为“传送”的新方法,利用参数对称性提升神经网络训练效率。该方法通过参数变换加速收敛,改善泛化能力,减少了训练所需的计算资源和时间。研究显示,传送能将模型移到不同曲率的极小值点,可能有助于泛化。论文还探讨了将传送应用于元学习等优化算法的潜力,但对传送加速优化的确切机制理解尚不深入,且实际应用效果有待更多验证。[论文链接](https://openreview.net/forum?id=L0r0GphlIL)
68 2
|
7月前
|
vr&ar 图形学 网络架构
看透物体的3D表示和生成模型:NUS团队提出X-Ray
【5月更文挑战第13天】NUS团队提出了X-Ray,一种新型3D表示方法,通过模拟X射线扫描细致捕捉物体内外特征,解决了现有方法对内部结构和纹理细节处理的局限。利用射线追踪技术,X-Ray将物体浓缩为多帧格式,提高表示效率和准确性。在3D物体合成任务中,X-Ray显示了优于传统方法的优势,尤其适用于高保真3D模型需求的领域,如虚拟现实和游戏。其效率提升也使实时3D生成更具潜力,但面对复杂场景和优化问题仍有挑战。[论文链接](https://arxiv.org/abs/2404.14329)
65 4
|
7月前
|
机器学习/深度学习 算法 计算机视觉
【CVPR轻量级网络】- 追求更高的FLOPS(FasterNet)
【CVPR轻量级网络】- 追求更高的FLOPS(FasterNet)
305 2
|
7月前
|
知识图谱 异构计算
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
【2月更文挑战第28天】ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
52 3
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
|
7月前
|
存储 机器学习/深度学习 SQL
【论文精读】CVPR2022 - 解耦知识蒸馏
【论文精读】CVPR2022 - 解耦知识蒸馏
|
算法 决策智能
基于蚁群算法的TPS问题求解策略研究(Matlab代码实现)
基于蚁群算法的TPS问题求解策略研究(Matlab代码实现)
|
机器学习/深度学习 数据可视化 算法
【OpenVI—论文解读系列】快速动作识别TPS ECCV论文深入解读
高效的时空建模(Spatiotemporal modeling)是视频理解和动作识别的核心问题。相较于图像的Transformer网络,视频由于增加了时间维度,如果将Transformer中的自注意力机制(Self-Attention)简单扩展到时空维度,将会导致时空自注意力高昂的计算复杂度和空间复杂度。
295 0
【OpenVI—论文解读系列】快速动作识别TPS ECCV论文深入解读