一个决定神经网络深度、网络层大小的简单方法.doc

资源描述

《一个决定神经网络深度、网络层大小的简单方法.doc》由会员分享，可在线阅读，更多相关《一个决定神经网络深度、网络层大小的简单方法.doc（4页珍藏版）》请在三一文库上搜索。

1、一个决定神经网络深度、网络层大小的简单方法编者按：Ahmed Gad介绍了一个决定神经网络深度、网络层大小的简单方法。该使用多少层隐藏层？使用隐藏层的目的是什么？增加隐藏层/神经元的数目总能给出更好的结果吗？人工神经网络（ANN）初学者常常提出这些问题。如果需要解决的问题很复杂，这些问题的答案可能也会比较复杂。希望读完这篇文章后，你至少可以知道如何回答这些问题。介绍在计算机科学中，借鉴了生物神经网络的ANN用一组网络层表示。这些网络层可以分为三类：输入层、隐藏层、输出层。输入层和输出层的层数、大小是最容易确定的。每个网络都有一个输入层，一个输出层。输入层的神经元数目等于将要处理的数据的变量数。

2、输出层的神经元数目等于每个输入对应的输出数。不过，确定隐藏层的层数和大小却是一项挑战。下面是在分类问题中确定隐藏层的层数，以及每个隐藏层的神经元数目的一些原则：在数据上画出分隔分类的期望边界。将期望边界表示为一组线段。线段数等于第一个隐藏层的隐藏层神经元数。将其中部分线段连接起来（每次选择哪些线段连接取决于设计者），并增加一个新隐藏层。也就是说，每连接一些线段，就新增一个隐藏层。每次连接的连接数等于新增隐藏层的神经元数目。下面我们将举例说明这一确定隐藏层层数、大小的简单方法。例一让我们先来看一个简单的分类问题。每个样本有两个输入和一个表示分类标签的输出，和XOR问题很像。首先需要回答的问题，是

3、否需要隐藏层。关于这个问题，有一条一般规则：在神经网络中，当且仅当数据必须以非线性的方式分割时，才需要隐藏层。回到我们的例子。看起来一条直线搞不定，因此，我们需要使用隐藏层。在这样的情形下，也许我们仍然可以不用隐藏层，但会影响到分类精确度。所以，最好使用隐藏层。已知需要隐藏层，那么接下来就需要回答两个重要问题：需要多少层？每层需要多少神经元？按照我们之前提到的流程，首先需要画出分割的边界。如下图所示，可能的边界不止一种。我们在之后的讨论中将以下图右部的方案为例。根据之前的原则，接下来是使用一组线段表示这一边界。使用一组线段表示边界的想法来自于神经网络的基础构件单层感知器。单层感知器是一个线性分

4、类器，根据下式创建分界线：y = w1x1+ w2x2+ + wixi+ b其中xi是第i项输入，wi是权重，b是偏置，y是输出。因为每增加一个隐藏单元都会增加权重数，所以一般建议使用能够完成任务的最少数量的隐藏单元。隐藏神经元使用量超出需要会增加复杂度。回到我们的例子上来，人工神经网络基于多个感知器构建，这就相当于网络由多条直线组成。因此我们使用一组线段替换边界，以分界曲线变向处作为线段的起点，在这一点上放置方向不同的两条线段。如下图所示，我们只需要两条线段（分界曲线变向处以空心圆圈表示）。也就是两个单层感知器网络，每个感知器产生一条线段。只需两条线段就可以表示边界，因此第一个隐藏层将有两个

5、隐藏神经元。到目前为止，我们有包含两个隐藏神经元的单隐藏层。每个隐藏神经元可以看成由一条线段表示的一个线性分类器。每个分类器（即隐藏神经元）都有一个输出，总共有两个输出。但我们将要创建的是基于单个输出表示分类标签的一个分类器，因此，两个隐藏神经元的输出将被合并为单个输出。换句话说，这两条线段将由另一个神经元连接起来，如下图所示。很幸运，我们并不需要额外添加一个包含单个神经元的隐藏层。输出层的神经元正好可以起到这个作用，合并之前提到的两个输出（连接两条线段），这样整个网络就只有一个输出。整个网络架构如下图所示：例二我们再来看一个分类问题的例子。和上面一个例子相似，这个例子也有两个分类，每个样本对

6、应两个输入和一个输出。区别在于边界比之前的更复杂。遵照之前的原则，第一步是画出边界（如下图左半部分所示），接着是将边界分成一组线段，我们将使用ANN的感知器建模每条线段。在画出线段之前，首先标出边界的变向处（下图右半部分中的空心圆圈）。问题在于需要几条线段？顶部和底部的变向处各需要两条线段，这样总共是4条线段。而当中的变向处可以和上下两个变向处共用线段。所以我们需要4条线段，如下图所示。这意味着第一个隐藏层将包含4个神经元。换句话说，由单层感知器构成的4个分类器，每个分类器各生成一个输出，共计4个输出。接下来需要将这些分类器连接起来，使得整个网络生成单个输出。换句话说，通过另外的隐藏层将这些线段连接起来，以得到单条曲线。网络的具体布局取决于模型设计者。一种可能的网络架构是创建包含两个隐藏神经元的第二隐藏层。其中第一个隐藏神经元连接前两条线段，最后一个隐藏神经元连接后两条线段，如下图所示。到目前为止，我们有两条曲线，也就是两个输出。接下来我们连接这两条曲线，以得到整个网络的单个输出。在这一情形下，输出层的神经元可以完成最终的连接，而无需增加一个新的隐藏层。最后我们得到了如下曲线：这就完成了网络的设计，整个网络架构如下图所示：

展开阅读全文