ResNet

贡献

  • 提出了残差模块,解决了深度网络梯度消失/爆炸的问题
  • 残差函数

$$
F(x) = H(x) -x
$$

  • 残差模块的输入和输出
    • 这里的加法是逐元素相加,在两个特征图上逐个通道上进行
$$ y = F(x, {W_{i}}) + W_{s}x;\quad W_{s}仅仅用于匹配维度 $$

ResNet中的两种模块

  • ResNet34左侧的模块构成;ResNet50由右侧模块构成
  • ResNet101和ResNet152使用更多的三层模块组成

测试

  • 34层的plain网络比18层网络的训练误差要高,但是他们发现可能不会是梯度传播带来的问题,这个问题有待于未来研究

  • 这些普通网络使用 BN 进行训练,确保前向传播的信号具有非零方差。我们还验证了反向传播梯度与 BN 表现出健康的规范。因此,前向或后向信号都不会消失。