想知道哪些RL技术用在了增材制造中，不妨看下这篇文章（2）-阿里云开发者社区

2.2.3 增强学习框架

在强化学习中，策略根据环境输入确定要采取的最佳控制动作。这种动作随后会影响环境，而这种影响通过奖励来量化。具体来说，状态空间 S 定义为环境当前状态的低维表示，动作空间 A 定义为 agent 可用的潜在动作，奖励量化了在前一步骤中为实现规定目标而采取的动作的效果。一个 episode 定义为环境的初始状态和最终状态之间的时间段。在这种情况下，每个 episode 被视为激光沿整个扫描路径的一次穿越，初始状态为 t=0，终端状态出现在路径的末端。图 13（a）描述了用于实现 DRL 算法的总体工作流，图 13（b）和图 13（c）分别描述了状态和策略网络的附加上下文。

图 13. 深度强化学习框架

强化学习优化范式的目标是在一个 episode 中获得最大的奖励，这是通过生成一个策略π来实现的。策略π根据 agent 的当前状态选择一个操作，以便最大化未来预期奖励。agent 根据策略π完成动作，给定状态的未来预期收益记为值函数 V^π(s)，而在采取特定动作 a 之后，以及随后根据策略π完成动作时，给定状态的未来预期奖励称为动作值函数 Q^π(s,a)。对策略进行迭代优化，以找到使 Q^π(s,a)的值最大化的最优策略π。

(2.10)

(2.11)

其中 s′是指 agent 在采取动作 a 后的下一个状态，a′是指在状态 s′中要采取的动作，r(s,a)是 agent 在采取动作 a 后在状态 s 中观察到的奖励。在公式（2.11）中，状态空间定义为特定视图和方向上的温度场观测值。状态空间作为 9 个二维热图传递给策略网络，该热图显示了激光当前位置周围的局部温度分布。具体地说，在激光器周围定义了一个 160μm×160μm 的区域，在 x-y 横截面上以激光器为中心，在 y-z 和 x-z 横截面上从域表面向下延伸。这组温度场的三个横截面快照与之前在事件轨迹期间观察到的两组快照相衔接。对温度值进行白化处理，减去平均值，再除以状态空间的标准偏差，以逼近数据的标准正态分布。

将行动空间定义为对激光特性进行的工艺参数更新，这些更新表征改变熔化过程的行为。对于速度控制方案，提供了激光从轨迹中的一个预定点到下一个点的速度，同时为基于功率的控制指定了功率。将这些动作调整到 [-1, 1] 范围内，以避免出现激活函数中常见的梯度消失问题。

(2.12)

(2.13)

公式（2.12）和（2.13）中，v 和 P 分别表示基于规定动作的速度和功率。奖励函数量化了控制策略在一个 episode 中的性能，奖励定义为目标熔化深度和当前深度之间的绝对误差。此外，还增加了一个避免 “欺骗（cheating）” 的正则化项，该正则化项的作用是惩罚在 episode 期间观察到的最小和最大熔融深度之间的距离，从而避免可能导致熔融深度突然峰值的异常策略。

(2.14)

2.2.4 逼近策略优化

为了优化策略网络，作者使用了策略梯度法（Policy Gradient methods）的一个子类：近端策略优化（Proximal Policy Optimization，PPO）算法。策略梯度法通过梯度上升概率地搜索最优策略。该策略基于优势函数 A^π进行优化，A^π表示通过执行特定动作产生的预期奖励的变化，A^π与从给定状态开始的一组可能动作的预期未来平均奖励相关。

(2.15)

近端策略优化基于新策略利用观察到的预期奖励的相对增加来限制梯度上升步骤的最大值。之所以选择这种方法，是因为相对于信赖域策略优化（Trust Region Policy Optimization），PPO 在实现上是流线型的，并且与类似的强化学习方法相比，它需要更少的超参数调整和 Actor-Critic 优化。此外，它更适合于连续控制问题。策略梯度方法是 episodic 的，因为策略网络在一个 episode 完成后根据累积的奖励进行更新。在此设置中，每一个 episode 被定义为激光完成整个扫描路径的整个过程。本文实现了一个近端策略优化的矢量化版本，其中并行部署多个 agent 以收集经验流并更新相同的策略网络。将 PPO 矢量化处理可以减少算法收集必要经验以学习最佳策略所需的时间。

2.2.5 经验生成和模型训练

近端策略优化算法针对 15000 个 episodes 更新进行训练。策略网络用于将状态映射到其对应的行动中，策略网络由两个隐藏层组成，其中，每个隐藏层具有 64 个神经元和双曲正切激活函数。该算法在八个环境中并行训练，来自这些并行环境的经验被用于同步更新模型。在预定的轨迹间隔内采取控制措施，水平扫描路径为 100μm，三角形扫描路径为 50μm，其中，每个间隔定义为 DRL 框架的单步迭代。表 1 给出了描述介质热特性的参数以及激光热源的尺寸。

2.3 实验分析

2.3.1 速度控制

作者应用上述 PPO 支持的深度强化学习算法来优化单层制造过程中形成的熔池深度。该方法适用于两种不同的轨迹，一种是激光粉末床聚变工业应用中常用的水平交叉阴影策略（图 12a），另一种是一系列同心三角形，用于放大次优激光轨迹或粉末床密闭部分发生的过热现象（图 12c）。由于 DRL 算法能够找到随时间变化的工艺参数的策略，因此作者将每个控制策略的性能与在整个熔炼过程中工艺参数保持不变而产生的熔池深度进行比较。

图 14 给出了在熔化过程中严格控制激光速度时发现的水平交叉阴影轨迹控制策略。在整个轨迹使用相同速度的情况下，轨迹每四分之一间隔处的熔体深度都有明显的峰值。在这些区域，熔池深度增加多达 20μm。我们观察到的熔化深度增加是由于在激光改变方向的位置处能量的积累，以及阻止热能逃逸的绝热边界条件。引入 DRL 算法优化控制策略，能够通过修改轨迹上某些点的速度来限制这些影响。当激光接近域的边缘时，激光的速度会增加，以减少转移到域的能量，从而避免由于热量扩散的能力降低而导致最大熔化深度的峰值。与恒定激光速度的性能相比，学习到的控制策略能够使熔池深度的变化远远小于恒定工艺参数。虽然在熔化过程中熔化深度在某些点上略微低于目标熔化深度，但熔化深度所占据的范围比在未受控制的情况下观察到的范围要窄很多。因此，假设熔池的面积可以与轨迹上任何给定点的熔池深度相关联，应用速度控制的结果是熔池的面积更加一致，明显不容易形成锁眼（keyhole）。图 15(a)和 16(a)显示了控制策略所显示的变化的减少。

图 14. （a）发现的水平交叉阴影扫描路径的控制策略。当激光在边界附近反转方向以减少这些区域的热能积累时，速度增加。（b）按照导出的控制策略，同心三角形扫描路径实现的熔体深度。（c）根据导出的控制策略，水平交叉阴影扫描路径达到的熔化深度。（d）导出了同心三角形路径的控制策略。当激光改变方向时，速度增加，当激光接近扫描路径中心时，平均速度逐渐增加

图 15. （a）对于水平交叉阴影扫描路径，由控制策略生成的熔体深度与由恒定速度生成的熔体深度相比较。与在整个熔化过程中采用恒定速度相比，熔池深度更稳定。（b）控制策略生成的熔体深度与同心三角形扫描路径恒定速度生成的熔体深度进行比较。与在整个熔化过程中采用恒定速度相比，熔池深度更稳定

图 16. （a）控制策略生成的熔体深度直方图与水平交叉阴影扫描路径恒定速度生成的熔体深度直方图进行比较。熔融过程中产生的熔池深度平均值更接近目标熔池深度，且标准偏差较小。（b）控制策略生成的熔体深度直方图，与同心三角形扫描路径恒定速度生成的熔体深度进行比较。熔融过程中产生的熔池深度平均值更接近目标熔池深度，且标准偏差较小

在同心三角形轨迹上训练模型时，算法也能通过修改激光接近域中心时的速度来学习合适的策略。在未受控制的情况下，每次激光扭转方向完成同心三角形轨迹时，熔池深度都会大大增加。此外，在接近轨迹末端时，由于轨迹的重叠段和方向反转频率的增加，热能积聚在轨迹中心。在轨迹的最后 20% 处的熔池深度中也可以看到这种热能积累，其中，突然增加了 40μm。与恒定工艺参数的情况相比，利用 DRL 学习到的策略能够避免在轨迹结束时出现的熔体深度的大跳跃。当激光改变行进方向时，速度增加，与水平交叉划线扫描路径类似。另外，激光的平均速度在接近扫描路径的中心时增加，速度保持在可能的最大值以减少过热现象。图 15(b)详细说明了引入控制策略可以保证熔池稳定，图 16(b)则说明了在稳定的熔池中没有出现过热现象。

2.3.2 能量控制

针对能量控制问题，作者通过改变激光的功率来优化熔池的深度。由于激光运动的物理限制，在一个层的运行过程中快速改变速度并不是一定可行的。此外，过高的速度值会在熔池中诱发 Rayleigh 不稳定性，从而导致成球缺陷（balling defects ）。因此，作者还研究了用于控制熔池深度的基于功率的控制机制。该方法适用于前面研究的相同轨迹，如图 12 所示，具有表 1 所示的相同物理参数。如图 17 和图 18 所示，当激光通过扫描路径移动时，agent 能够成功学习调节激光功率以实现恒定熔池深度的策略。激光功率在拐角处和残余热浓度较大的区域降低，使熔池随时间保持一致。在比较功率控制策略和速度控制策略的性能时，我们可以观察到水平轨迹的稳定性略有增加（累积误差减少 68.2% vs 63.8%），三角形轨迹的稳定性略有下降（累积误差减少 74.6% vs 90.6%）。

图 17. （a）按照导出的控制策略，同心三角形扫描路径实现的熔体深度。（b）发现的水平交叉阴影扫描路径的控制策略。当激光在边界附近反转方向以减少这些区域的热能积累时，功率降低。（c）导出了同心三角形路径的控制策略。当激光改变方向时，功率降低，随着激光接近扫描路径中心，平均功率也逐渐降低。（d）根据导出的控制策略，水平交叉阴影扫描路径达到的熔化深度

图 18.（a）功率控制策略生成的熔深与水平交叉阴影扫描路径的恒定功率生成的熔深相比。与在整个熔化过程中施加恒定功率和速度相比，熔池深度更稳定。（b）功率控制策略生成的熔体深度与同心三角形扫描路径的恒定功率和速度生成的熔体深度相比。与在整个熔化过程中施加恒定功率相比，熔池深度更稳定

本文提出了一种提高激光粉末熔床产品质量的深度强化学习方法。通过迭代优化策略网络以最大化熔化过程中的预期奖励，利用 PPO 生成能够减少缺陷形成的控制策略。通过上述实验，作者发现有效的控制策略能够减少模拟中不同扫描路径下观察到的熔池变化，进而证明了该方法的有效性。具体来说，基于速度的控制和基于功率的控制方法能够降低由于激光区域和轨迹的几何形状而导致的过热问题，同时减少了熔池深度的变化。利用观察熔化过程中特定速度或功率选择所生成的奖励，DRL 的策略能够做到在热量可能积聚的地方增加速度或减少功率，从而降低了缺陷形成的可能性。

3 基于声频发射（Acoustic Emission）的 AM 现场质量监测：一种强化学习方法[7]

3.1 方法思路介绍

本文聚焦 AM 领域中的一个技术难题：现场质量监测。尽管 AM 技术拥有很多优势，但将其应用于大规模生产仍然存在很多问题，其中一个主要的原因是工件之间缺少工艺可再现性和质量保证。因此，人们迫切需要一种可靠的、经济高效的 AM 现场实时质量监测技术。

AM 质量监测的发展主要集中在三个主要领域：（a）通过高温计或高速摄像机测量熔池温度；（b）工件各层表面图像分析；（c）整个工件的 x 射线相衬成像（x-ray phase-contrast imaging，XPCI）和 / 或 x 射线计算机断层扫描（xray computed tomography，XCT）。上述每种技术都存在限制其大规模生产适用性的缺点。首先，熔体池的温度测量仅限于熔体表面，没有关于整个深度内复杂液体运动和热量分布的信息。其次，图像处理方法在生成整个层后评估质量，并且只能检测正在构建的层表面的缺陷，并不能检测熔池内产生的缺陷，如气孔。再次，两种 x 射线方法都是昂贵和耗时的。XPCI 仅能用于实验室条件下的现场和实时监测，无法应用于实时处理。XCT 只有在工件从造板上移除后才能执行，由于成本高，只能在有限的情况下由行业应用。

本文首次提出了结合声频发射（Acoustic Emission，AE）和强化学习（RL）的对粉末床熔融添加剂制造（Powder Bed Fusion Additive Manufacturing，PBFAM）过程进行现场和实时质量监测的方法。AE 能够捕获过程的表面下动力学信息（subsurface dynamics of the process），RL 为一种机器学习方法。AE 的优点是通过实用、经济高效的硬件能够实现可靠地监测多种物理现象。

想知道哪些RL技术用在了增材制造中，不妨看下这篇文章（2）

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

想知道哪些RL技术用在了增材制造中，不妨看下这篇文章（2）

热门文章

最新文章

相关电子书