【博士每天一篇文献-算法】Evolutionary multi-task learning for modular knowledge representation in neuralnetworks

简介: 本文提出了一种进化式多任务学习方法(EMTL),用于在神经网络中通过模块化网络拓扑实现模块化知识表示,模仿人脑的模块化结构存储知识,提高了网络的鲁棒性和灵活性,并在奇偶校验问题和基准模式分类任务上验证了其有效性。

阅读时间:2023-12-11

1 介绍

年份:2018
作者:Rohitash Chandra,新南威尔士大学
期刊:Neural Processing Letters,Q3
引用量:48
Chandra R, Gupta A, Ong Y S, et al. Evolutionary multi-task learning for modular knowledge representation in neural networks[J]. Neural Processing Letters, 2018, 47: 993-1009.
本文提出了一种通过模块化网络拓扑进行神经网络(非传统的前馈神经网络,类似于储层网络)中模块化知识表示的多任务学习方法。模仿人脑的模块化结构,将每个任务的知识分割存储在不同的模块中。即使网络中选定模块的一些神经元和连接被破坏或移除,模块化知识表示也将是有效的。作者使用单隐藏层前馈网络演示了该方法学习不同难度级别的选定n位奇偶校验问题,并将其应用于基准模式分类问题。

image.png

image.png
image.png

2 创新点

  1. 模块化知识表示:提出了一种新的神经网络知识表示方法,模仿人脑的模块化结构,将知识分割存储在不同的模块中,提高了网络的鲁棒性和灵活性。
  2. 进化式多任务学习(EMTL):结合了多任务学习和神经进化的概念,通过进化算法同时优化多个任务,允许不同任务之间共享和转移知识。
  3. 统一解决方案空间:提出了一种统一的解决方案空间方法,用于处理不同子任务的异构性,使得具有不同网络拓扑的任务能够在相同的搜索空间中进化。
  4. 动态问题分解:通过将复杂问题分解为多个子任务,并利用这些子任务的解决方案来构建更复杂的网络拓扑,实现了问题的动态分解和解决方案的逐步构建。
  5. 知识保留与转移:在网络的某些模块受损时,能够保留其他模块中的知识,并通过多任务学习机制实现知识的有效转移和利用。
  6. 实验验证:通过在n位奇偶校验问题和UCI机器学习数据集上的实验,验证了所提出方法的有效性,展示了其在不同难度级别问题上的性能。
  7. 性能比较:与进化式单任务学习(ESTL)方法进行了比较,证明了EMTL在保持性能的同时能够实现模块化知识表示的能力。

3 相关研究

(1)相关概念
垂直文化传递(Vertical Cultural Transmission,简称VCT)策略是指知识和行为模式从一代传递到下一代的过程,这种传递通常是自上而下的,即从父母或其他长辈传递给子女或晚辈。在文化演化和社会学中,这种策略是文化传承的一种形式,强调经验和知识的积累对后代的影响。在EMTL算法中,垂直文化传递的概念被用来指导后代个体与子任务的关联方式。具体来说,当通过交叉和变异操作创建新的后代时,这些后代会随机模仿(或继承)其父母之一的关联策略。这意味着如果一个父代个体与特定的子任务关联,那么其后代在初始化时也更有可能与相同的子任务关联。这种策略有助于保持种群多样性,同时允许有效的知识在子任务之间传递。通过这种方式,算法可以利用先前世代中已经学到的知识,加速学习过程,并提高整体的优化性能。垂直文化传递在多任务学习中是一种有效的策略,可以促进不同任务间的协同进化和知识共享。

4 算法

ESTL是通过一个种群大小为30个个体的进化算法实现的,其中不同的子任务指的是各自的知识模块。它在进化算法中使用直接编码来表示权重,知识模块通过进化式多任务学习进行演化。
image.png
图中是不同的子任务使用不同部分的神经元。
进化多任务学习(Evolutionary Multi-Task Learning,简称EMTL)算法步骤如下:

  1. 定义不同的子任务:根据隐藏神经元的数量来定义不同的子任务。例如,子任务1 (p个隐藏神经元),子任务 2 (q个隐藏神经元),子任务 3 (r个隐藏神经元)。
  2. 初始化统一搜索空间中的个体
  • 随机地将每个个体与任一子任务(1、2或3)关联。
  • 评估每个子任务中的个体,直到达到终止条件。
  1. 迭代过程
  • 选择和通过交叉和变异创建新的后代。
  • 通过模仿为其创建的父代之一,将每个后代与任一子任务关联。
  • 仅评估后代与其关联的子任务。
  • 从每个子任务中选择(popsize/3)个精英个体进入下一代。
  1. 处理异质性:主要挑战是处理构成子任务的搜索空间维度的异质性。如果算法1中的三个子任务分别具有维度D1、D2和D3,则统一搜索空间的维度由Dmultitask = max{D1, D2, D3}给出。这样,统一空间中的候选解由Dmultitask个元素的向量特征。
  2. 评估个体:在评估与第j个子任务关联的个体时,只需从Dmultitask个元素的列表中提取(或参考)Dj个相关元素。
  3. 选择策略:在多任务学习环境中,每个个体与任一子任务的关联可以节省计算成本,因为对每个子任务详尽评估每个个体可能是昂贵的。在初始种群中,这些关联是随机分配的(同时确保所有子任务的均匀表示),在后续代中采用垂直文化传递策略。
  4. 算法终止:当完成至少30,000次函数评估时,算法终止。

5 实验分析

(1)实验数据集
image.png
用了6种数据集,都是2个类别的分类问题,其中的Instances是样本数。Max-FE是最大函数评估次数,表示算法在终止前允许的最大评估次数,这是用来衡量计算成本的一个指标。

  1. Ionosphere 数据集:这个数据集包含有关雷达回波的信息,用于识别大气中是否存在离子层。它通常用于二元分类任务。
  2. Cancer 数据集:这个数据集与乳腺癌有关,包含了细胞核的特征,用于预测良性或恶性肿瘤。
  3. Heart 数据集:它包含了有关心脏病患者心脏状况的特征,用于预测心脏病的风险。
  4. Tic-Tac-Toe 数据集:这个数据集基于井字游戏(Tic-Tac-Toe),包含了游戏的不同布局,用于预测游戏的结果。
  5. Balloon 数据集:这是一个较小的数据集,包含了有关热气球飞行条件的信息,用于预测飞行结果。
  6. Credit Approval 数据集:这个数据集包含了银行信用审批的记录,用于预测贷款申请是否会被批准。

(2)多任务学习与单任务学习对比
8位偶数奇偶校验问题中,使用5、6、7、8、9个神经元时多任务学习(MT)策略与单任务学习(ST)策略的收敛趋势。多任务学习策略在函数评估次数增加时,相比单任务学习策略,能够收敛到更高质量的解。这意味着多任务学习能够更有效地利用训练数据和网络结构,找到更好的网络权重配置。
image.pngimage.png
(2)不同数据集上子任务的性能对比

  • EMTL在所有相应的问题上达到了与ESTL相同的性能水平。这意味着模块化知识表示并没有导致性能质量的下降。
  • 在某些情况下,使用附加的知识模块可能会因为它们在训练中占用了计算资源而稍微降低系统的性能。然而,EMTL通过模块化学习保留了知识,并且能够在需要时利用这些模块来指导解空间的演化。

image.png

6 思考

(1)和PNN有点相似
本文的算法和《Progressive Neural Networks》中的PNN算法在多任务学习领域都旨在提高模型在面对新任务时的学习能力,同时保留之前学到的知识。本文的算法更侧重于模块化和进化策略,而PNN算法更侧重于通过增加新网络列和利用横向连接来实现知识迁移。

(2)本文的EMTL算法与反向传播(Backpropagation,简称BP)训练算法在更新网络权重方面有区别。

  1. 学习策略:
  • EMTL:采用进化算法来优化网络权重,通过模拟自然选择、交叉和变异等操作来迭代地改进解的质量。
  • 反向传播:使用梯度下降(或其他优化算法)来最小化损失函数,通过计算损失相对于权重的梯度来更新权重。
  1. 权重更新机制:
  • EMTL:权重的更新是通过遗传算子实现的,包括选择(选择性能较好的个体)、交叉(在两个或多个个体之间交换遗传信息)和变异(随机改变个体的某些部分)。
  • 反向传播:权重的更新是通过计算损失函数关于权重的偏导数来实现的,然后根据这些偏导数和学习率来调整权重。
  1. 模块化知识表示:
  • EMTL:强调模块化的知识表示,允许网络在某些模块受损时仍然保持功能,通过模块化学习可以更好地迁移和重用知识。
  • 反向传播:通常不直接处理模块化知识表示,而是在整个网络层面上统一更新权重。
  1. 全局与局部搜索:
  • EMTL:通过进化算法进行全局搜索,可能更擅长跳出局部最小值,但可能需要更多的计算资源。
  • 反向传播:通过梯度下降进行局部搜索,通常收敛速度快,但可能陷入局部最小值。
  1. 适用性:
  • EMTL:适用于结构化和模块化的网络设计,特别是当问题可以分解为多个子任务或模块时。
  • 反向传播:适用于各种类型的神经网络,特别是当问题可以通过端到端的方式直接从输入映射到输出时。
  1. 计算效率:
  • EMTL:可能需要更多的评估和迭代来找到解,因此在计算上可能不如反向传播高效。
  • 反向传播:通常计算效率更高,因为每次迭代只需要一次前向传播和一次反向传播。
  1. 泛化能力:
  • EMTL:通过模块化学习可能提高模型的泛化能力,因为每个模块可以专门学习数据的特定特征。
  • 反向传播:泛化能力取决于网络架构、正则化技术和训练数据的多样性。

(4)总结
从图5和图6可以看出来,模块化方法在性能上没有太大优势,作者所以提出的优势是,即使在某些模块受损时,网络仍然可以在安全模式下运行。基础知识模块可以在这种情况下用于操作。
注意,论文中的模块化方法不适合前馈神经网络。

目录
相关文章
|
5月前
|
机器学习/深度学习 人工智能 资源调度
【博士每天一篇文献-算法】连续学习算法之HAT: Overcoming catastrophic forgetting with hard attention to the task
本文介绍了一种名为Hard Attention to the Task (HAT)的连续学习算法,通过学习几乎二值的注意力向量来克服灾难性遗忘问题,同时不影响当前任务的学习,并通过实验验证了其在减少遗忘方面的有效性。
101 12
|
5月前
|
机器学习/深度学习 算法 计算机视觉
【博士每天一篇文献-算法】持续学习经典算法之LwF: Learning without forgetting
LwF(Learning without Forgetting)是一种机器学习方法,通过知识蒸馏损失来在训练新任务时保留旧任务的知识,无需旧任务数据,有效解决了神经网络学习新任务时可能发生的灾难性遗忘问题。
330 9
|
5月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之HNet:Continual learning with hypernetworks
本文提出了一种基于任务条件超网络(Hypernetworks)的持续学习模型,通过超网络生成目标网络权重并结合正则化技术减少灾难性遗忘,实现有效的任务顺序学习与长期记忆保持。
65 4
|
5月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之RWalk:Riemannian Walk for Incremental Learning Understanding
RWalk算法是一种增量学习框架,通过结合EWC++和修改版的Path Integral算法,并采用不同的采样策略存储先前任务的代表性子集,以量化和平衡遗忘和固执,实现在学习新任务的同时保留旧任务的知识。
124 3
|
3天前
|
算法 数据安全/隐私保护 计算机视觉
基于Retinex算法的图像去雾matlab仿真
本项目展示了基于Retinex算法的图像去雾技术。完整程序运行效果无水印,使用Matlab2022a开发。核心代码包含详细中文注释和操作步骤视频。Retinex理论由Edwin Land提出,旨在分离图像的光照和反射分量,增强图像对比度、颜色和细节,尤其在雾天条件下表现优异,有效解决图像去雾问题。
|
3天前
|
算法 数据可视化 安全
基于DWA优化算法的机器人路径规划matlab仿真
本项目基于DWA优化算法实现机器人路径规划的MATLAB仿真,适用于动态环境下的自主导航。使用MATLAB2022A版本运行,展示路径规划和预测结果。核心代码通过散点图和轨迹图可视化路径点及预测路径。DWA算法通过定义速度空间、采样候选动作并评估其优劣(目标方向性、障碍物距离、速度一致性),实时调整机器人运动参数,确保安全避障并接近目标。
|
13天前
|
算法 数据安全/隐私保护
室内障碍物射线追踪算法matlab模拟仿真
### 简介 本项目展示了室内障碍物射线追踪算法在无线通信中的应用。通过Matlab 2022a实现,包含完整程序运行效果(无水印),支持增加发射点和室内墙壁设置。核心代码配有详细中文注释及操作视频。该算法基于几何光学原理,模拟信号在复杂室内环境中的传播路径与强度,涵盖场景建模、射线发射、传播及接收点场强计算等步骤,为无线网络规划提供重要依据。
|
26天前
|
机器学习/深度学习 算法
基于改进遗传优化的BP神经网络金融序列预测算法matlab仿真
本项目基于改进遗传优化的BP神经网络进行金融序列预测,使用MATLAB2022A实现。通过对比BP神经网络、遗传优化BP神经网络及改进遗传优化BP神经网络,展示了三者的误差和预测曲线差异。核心程序结合遗传算法(GA)与BP神经网络,利用GA优化BP网络的初始权重和阈值,提高预测精度。GA通过选择、交叉、变异操作迭代优化,防止局部收敛,增强模型对金融市场复杂性和不确定性的适应能力。
165 80
|
14天前
|
机器学习/深度学习 数据采集 算法
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
本项目基于MATLAB2022a实现时间序列预测,采用CNN-GRU-SAM网络结构。卷积层提取局部特征,GRU层处理长期依赖,自注意力机制捕捉全局特征。完整代码含中文注释和操作视频,运行效果无水印展示。算法通过数据归一化、种群初始化、适应度计算、个体更新等步骤优化网络参数,最终输出预测结果。适用于金融市场、气象预报等领域。
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
|
14天前
|
算法
基于龙格库塔算法的锅炉单相受热管建模与matlab数值仿真
本设计基于龙格库塔算法对锅炉单相受热管进行建模与MATLAB数值仿真,简化为喷水减温器和末级过热器组合,考虑均匀传热及静态烟气处理。使用MATLAB2022A版本运行,展示自编与内置四阶龙格库塔法的精度对比及误差分析。模型涉及热传递和流体动力学原理,适用于优化锅炉效率。

热门文章

最新文章