网络|结合随机微分方程，多大Duvenaud团队提出无限深度贝叶斯神经网络( 二 )_训练|深度|函数|贝叶斯|研究

文章图片

表示 t 层隐
藏单元激活向量，输入 h_0 = x ，

文章图片

表示 t 层的参数，在离散设置中

文章图片

该研究通过设置

文章图片

并将极限
设为

文章图片

来构建残差网络的连续深度变体。这样产生一个微分方程，该方程将隐藏单元进化描述为深度 t 的函数。由于标准残差网络每层使用不同的权重进行参数化，因此该研究用 w_t 表示第 t 层的权重。此外该研究还引入一个超网络（hypernetwork） f_w ，它将权重的变化指定为深度和当前权重的函数。然后将隐藏单元激活函数的进化和权重组合成一个微分方程：

文章图片

权重先验过程：该研究使用 Ornstein-Uhlenbeck (OU) 过程作为权重先验，该过程的特点是具有漂移（drift）和弥散（diffusion）的 SDE：

文章图片

权重近似后验使用另一个具有以下漂移函数的 SDE 隐式地进行参数化：

文章图片

然后该研究在给定输入下评估了该网络需要边缘化权重和隐藏单元轨迹（trajectory）。这可以通过简单的蒙特卡罗方法来完成，从后验过程中采样权重路径 {w_t} ，并在给定采样权重和输入的情况下评估网络激活函数 {h_t} 。这两个步骤都需要求解一个微分方程，两步可以通过调用增强状态 SDE 的单个 SDE 求解器同时完成：
为了让网络拟合数据，该研究最大化由无限维 ELBO 给出的边缘似然（marginal likelihood）的下限：

文章图片

采样权重、隐藏激活函数和训练目标都是通过一次调用自适应 SDE 求解器同时计算的。
减小方差的梯度估计
该研究使用 STL（sticking the landing）估计器来替换 path 空间 KL 中的原始估计器以适应 SDE 设置：

文章图片

等式（12）中的第二项是鞅（martingale），期望值为零。在之前的工作中，研究者仅对第一项进行了蒙特卡罗估计，但该研究发现这种方法不一定会减少梯度的方差，如下图 4 所示。

网络|结合随机微分方程，多大Duvenaud团队提出无限深度贝叶斯神经网络( 二 )

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)