为什么残差结构拯救了深度神经网络？

之前学习深度学习的时候，最早就是从图像分类入手的，当时比较流行的模型架构就是很简单的几层卷积，包括后面的VGG系列，当时还没有学习到resnet，觉得模型的结构很简单易懂，就是一层一层的堆叠。基于对卷积和池化本身的理解，我认为这样直接的堆叠确实是很有效的方案，但是后来学习到了resnet，看到了残差结构。我一度不理解为什么要这样做？为什么这解决了梯度消失和梯度爆炸的问题？后来通过一段时间的学习和实验，自己也慢慢理解了，没有一个shortcut用于特征的直连，梯度很容易在一层层的累计中，发生爆炸和消失，大致的意思如图所示。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章