设计思路
通过训练一个深层神经网络,直接从原始的 GelSight 视频回归硬度: 使用一个卷积神经网络模型来表示 GelSight 视频的帧,使用一个递归神经网络模型来模拟凝胶变形随时间的变化。实验时GelSight 在一个松散的控制条件下接触物体,并通过 GelSight 的触觉图像序列测量物体的硬度
1)Neural network神经网络设计
使用一个神经网络,映射一个图像序列到一个标量硬度值(测量Shore 00比例尺)。我们用卷积网络特征 φ (Ii)表示每个 GelSight 图像 Ii。对于这些,我们使用 VGG 体系结构的倒数第二层(fc7)。然后,我们使用带有长短期记忆单位的递归神经网络模型(LSTM)来模拟时间信息。在每一个时间步骤中,我们通过当前 LSTM 隐藏状态的一个仿射变换回溯它的输出硬度值:
其中 W 和 b 定义了隐藏状态 ht 的仿射变换,L使用当前映像根据以前的状态ht更新为ht-1(为简单起见,省略了LSTM 的隐藏单元状态)。预测指标为当前时间步长的硬度估计值。通过平均最后3帧的预测值来估计整个物体的硬度值。
在每帧的基础上进行回归,以增加视频的鲁棒性,其中压迫运动明显不同于那些训练集。在训练期间,我们减少损失,惩罚之间的差异预测和地面真实硬度值,使用胡伯损失。
图 2使用递归神经网络来映射由 GelSight 传感器记录的视频到硬度值。
这个网络类似于[25] : 图像使用 CNN 的特性 fc7从 vgg16网络,并提供给 LSTM 网络。网络输入是减去初始帧后的一个 GelSight 图像序列。特别是,从一个压入序列中均匀地选择5帧,每帧是一个压入阶段。只用最后3帧,即 y3,y4,y5的 RNN 输出来估计样品的硬度。
2)训练****
这个训练数据集包含了大约7000个视频(在不同的硅树脂样本上按压 GelSight),每个视频都是一个独立的按压序列。在训练过程中多次使用单个视频,采用不同的端点进行序列提取,从而包含了不同最大力的接触情况。
使用随机梯度下降训练模型,使用 ImageNet预训练初始化 CNN 权重,联合训练 CNN 和 LSTM。我们对算法进行了10,000次迭代的训练,学习速度为0.001,步长为1000。\
图 3 Gelsight大小25mmx25mm,厚度2.4mm。训练数据集主要包含基本对象形状(第1组) ,但也包含大量复杂形状或不良接触条件(第2组和第4组)。这些不规则的数据大大有助于防止模型的过度拟合。第五组是自然物体,可以粗略地感觉到它们是“软”、“非常软”或“硬”