开发者社区> 问答> 正文

整体深度强化学习网络框架是什么?

整体深度强化学习网络框架是什么?

展开
收起
Dons 2021-12-14 19:01:52 1149 0
1 条回答
写回答
取消 提交回答
  • 整体的网络框架示意图如下: image.png

    在训练端:随机选择 M 个 block,每个 block 复制 N 份,然后输入到有 3 个隐含层的全连接网络中,用 region softmax 得到各参数各种 choice 的概率,然后按照概率去 sample 每个参数的值,得到参数后输入到底层的压缩算法进行实际压缩并得到压缩值。复制的 N 个 block 相互比较计算 loss 然后做反向传播。loss 的整体设计为: image.png

    fn(copi) 描述了压缩效果,比 N 个 block 的均值高就正反馈,Hcs(copi) 是交叉熵,希望得分高的概率越大越确定越好;反之亦然。后面的 H(cop) 是交叉熵作为正则化因子来尽量避免网络固化且收敛到局部最优。 在推理端,可以把一个 timeline 的全部或局部 block 输入到网络中,得到参数,做统计聚合然后得到整个 timeline 的参数。

    2021-12-14 19:11:21
    赞同 展开评论 打赏
问答分类:
问答标签:
来源圈子
更多
收录在圈子:
+ 订阅
关于阿里的机器智能创新技术均呈现于此.
问答排行榜
最热
最新

相关电子书

更多
Session:更加安全、可靠的数据中心网络产品更新 立即下载
Session:极简易用的全球化网络产品更新 立即下载
Session:弹性、高可用、可观测的应用交付网络产品更新 立即下载