AI-5 深度学习计算

浪矢\n / 2023-07-16 / 原文

5.1块和层

我们一直在通过net(X)调用我们的模型来获得模型的输出。这实际上是net.__call__(X)的简写。这个前向传播函数非常简单：它将列表中的每个块连接在一起，将每个块的输出作为下一个块的输入。

import torch
from torch import nn
from torch.nn import functional as F
net = nn.Sequential(nn.Linear(20, 256), nn.ReLU(), nn.Linear(256, 10))
X = torch.rand(2, 20)
net(X)

块的一个主要优点是它的多功能性。我们可以子类化块以创建层（如全连接层的类）、整个模型（如上面的MLP类）或具有中等复杂度的各种组件。

Sequential的设计则是为了把其他模块串起来。

5.1练习

1如果将MySequential中存储块的方式更改为Python列表，会出现什么样的问题？

将无法通过parameters()迭代器访问参数。

2实现一个块，它以两个块为参数，例如net1和net2，并返回前向传播中两个网络的串联输出。这也被称为平行块。

3假设我们想要连接同一网络的多个实例。实现一个函数，该函数生成同一个块的多个实例，并在此基础上构建更大的网络。

通过sequential连续定义多个块

5.2. 参数管理

经过训练后，我们将需要使用这些参数来做出未来的预测。此外，有时我们希望提取参数，以便在其他环境中复用它们，将模型保存下来，以便它可以在其他软件中执行，或者为了获得科学的理解而进行检查。

当通过Sequential类定义模型时，可以像访问列表一样访问模型的参数。

print(net[2].state_dict())

另外，这一节还有一些参数初始化的方法。

5.2. 练习

1使用 5.1节中定义的FancyMLP模型，访问各个层的参数。

2查看初始化模块文档以了解不同的初始化方法。

包括初始化为1,0，推荐增益值等等，链接：torch.nn.init — PyTorch 2.0 documentation

3构建包含共享参数层的多层感知机并对其进行训练。在训练过程中，观察模型各层的参数和梯度。

共享参数层的参数是具有相同的内存地址，他们的参数回同步改变。

4为什么共享参数是个好主意？

也许可以减小参数所占空间？

5.3. 延后初始化

我们定义了网络架构，但没有指定输入维度。我们添加层时没有指定前一层的输出维度。我们在初始化参数时，甚至没有足够的信息来确定模型应该包含多少参数。直到数据第一次通过模型传递时，框架才会动态地推断出每个层的大小。

练习

1如果指定了第一层的输入尺寸，但没有指定后续层的尺寸，会发生什么？是否立即进行初始化？

框架会自动设置后续尺寸。

2如果指定了不匹配的维度会发生什么？

会报错

3如果输入具有不同的维度，需要做什么？提示：查看参数绑定的相关内容。

会共享参数？