原文:
www.kdnuggets.com/2016/09/deep-learning-reading-group-deep-residual-learning-image-recognition.html
今天的论文提出了一种新的卷积网络架构。这篇论文由微软研究院的 He、Zhang、Ren 和 Sun 撰写。我要在开始之前警告你:这篇论文非常古老。它发布于 2015 年底深度学习的黑暗时代,我相当确定它的原始格式是莎草纸;幸运的是,有人扫描了它,以便未来几代人可以阅读。然而,它仍然值得抹去尘土并翻阅,因为它提出的架构已经被反复使用,包括在我们之前阅读的一些论文中:具有随机深度的深度网络。
He et al. 开始时指出了一个看似矛盾的情况:非常深的网络表现比中等深度的网络更差,也就是说,尽管增加网络的层数通常会提高性能,但在某些点之后,新层开始阻碍网络。他们将这种效应称为网络降级。
如果你一直关注我们的之前的帖子,这不会让你感到惊讶;随着网络变得更深,诸如梯度消失等训练问题会变得更严重,因此你会期望更多的层会在某个点之后使网络表现变差。但作者预见了这种推理,并指出几种其他深度学习方法,如批量归一化(参见我们的帖子的总结),基本上解决了这些训练问题,但网络的表现仍然随着深度的增加而变得越来越差。例如,他们比较了 20 层和 56 层的网络,并发现 56 层网络表现远不如 20 层;见下图。
20 层和 56 层网络在 CIFAR-10 上的比较。注意 56 层网络在训练和测试中的表现都较差。
然后作者设立了一个思想实验(或者说思想实验如果你像我一样是一个恢复中的物理学家)来证明更深的网络应该总是表现更好。他们的论点如下:
-
从一个表现良好的网络开始;
-
添加强制为恒等函数的额外层,即,它们只是传递到达它们的任何信息而不进行更改;
-
这个网络更深,但必须与原始网络具有相同的性能,因为新层没有做任何事情。
-
网络中的层可以学习恒等函数,因此如果它是最优的,它们应该能够准确复制这个深层网络的性能。
这个思想实验促使他们提出了深度残差学习架构。他们构建了他们所谓的残差构建块网络。下图展示了其中一个这样的块。这些块被称为 ResBlocks。
一个 ResBlock;顶部学习一个残差函数 f(x),而底部的信息保持不变。图像改编自黄等人的随机深度论文。
ResBlock 由普通网络层构建,这些层通过线性整流单元(ReLUs)连接,并且在下面有一个通过的连接,保持来自先前层的信息不变。ResBlock 的网络部分可以包含任意数量的层,但最简单的情况是两层。
要了解 ResBlock 背后的数学:假设一组层如果学习一个特定的函数h(x),将表现最好。作者指出,可以学习残差f(x) = h(x) − x,然后将其与原始输入结合,以恢复h(x),如下所示:h(x) = f(x) + x。这可以通过向网络中添加一个*+x*组件来实现,回想一下我们的思想实验,这只是恒等函数。作者希望将这种“传递”添加到他们的层中将有助于训练。与大多数深度学习一样,这种方法只有直观的支持,而没有更深层次的理解。然而,正如作者所展示的,它确实有效,而这正是许多从业者所关心的唯一问题。
论文还探讨了对 ResBlock 的一些修改。第一个是创建具有三层的瓶颈块,其中中间层通过使用较少的输入和输出来限制信息流。第二个是测试不同类型的传递连接,包括学习完整的投影矩阵。尽管更复杂的传递连接性能更好,但只是略微提高,而且训练时间成本更高。
论文的其余部分测试了网络的性能。作者发现,他们的网络在使用通行功能后表现优于没有通行功能的相同网络;请参见下图的绘图以了解这一点。他们还发现,能够训练更深层的网络,并且仍然表现出改进的性能,最终训练了一个 152 层的 ResNet,表现优于较浅的网络。他们甚至训练了一个 1202 层的网络以证明其可行性,但发现其性能不如论文中检查的其他网络。
两个网络性能的比较:左侧的网络不使用 ResBlocks,而右侧的网络使用了。注意 34 层的网络比 18 层的网络表现更好,但仅在使用 ResBlocks 时。
就这样!他 et al. 提出了一个新的架构,受到思想实验的启发,并希望它能比以前的架构表现更好。他们构建了几个网络,包括一些非常深的网络,发现他们的新架构确实改善了网络的性能。虽然我们对深度学习的基本原理没有获得进一步的理解,但我们确实获得了一种使网络表现更好的新方法,最终也许这已经足够好。
亚历山大·古德 目前是 Lab41 的数据科学家,研究推荐系统算法。他拥有加州大学伯克利分校的物理学学士学位和明尼苏达大学双城分校的基础粒子物理学博士学位。
Lab41 是一个“挑战实验室”,美国情报界与学术界、工业界以及 In-Q-Tel 的同行共同合作,解决大数据问题。它允许来自不同背景的参与者接触思想、人才和技术,以探索数据分析中有效和无效的方面。作为一个开放、协作的环境,Lab41 促进了参与者之间的宝贵关系。
原文。经许可转载。
相关内容:
-
在深度学习中,架构工程是新的特征工程
-
深度学习进展:七月更新
-
深度学习网络为何会扩展?
1. 谷歌网络安全证书 - 快速入门网络安全职业。
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求