PyTorch教程8.5之批量归一化-电子发烧友网

训练深度神经网络很困难。让它们在合理的时间内收敛可能很棘手。在本节中，我们将介绍 批量归一化，这是一种流行且有效的技术，可以持续加速深度网络的收敛（Ioffe 和 Szegedy，2015 年）。连同残差块（稍后将在第 8.6 节中介绍），批量归一化使从业者可以例行地训练超过 100 层的网络。批量归一化的第二个（偶然的）好处在于其固有的正则化。

						import torch
from torch import nn
from d2l import torch as d2l

						 

						from mxnet import autograd, init, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

						from functools import partial
import jax
import optax
from flax import linen as nn
from jax import numpy as jnp
from d2l import jax as d2l

						 

						import tensorflow as tf
from d2l import tensorflow as d2l

8.5.1. 训练深度网络

在处理数据时，我们经常在训练前进行预处理。关于数据预处理的选择通常会对最终结果产生巨大影响。回想一下我们将 MLP 应用于预测房价（第 5.7 节）。我们处理真实数据的第一步是将我们的输入特征标准化为零均值 μ=0和单位方差 Σ=1across multiple observations ( Friedman, 1987 )。至少，人们经常重新缩放它，使对角线是统一的，即 Σii=1. 另一种策略是将向量重新调整为单位长度，每次观察的均值可能为零。这可以很好地工作，例如，对于空间传感器数据。这些预处理技术以及更多技术有助于很好地控制估计问题。参见例如Guyon等人的文章。( 2008 )审查特征选择和提取技术。标准化向量还有一个很好的副作用，即限制作用于它的函数的函数复杂性。例如，支持向量机中著名的半径边界( Vapnik, 1995 )和感知器收敛定理( Novikoff, 1962 )依赖有界范数的输入。

直觉上，这种标准化与我们的优化器配合得很好，因为它先验地将参数放在相似的范围内。因此，很自然地会问在深度网络中相应的规范化步骤是否可能没有好处。虽然这并不是导致批量归一化发明的原因（Ioffe 和 Szegedy，2015 年），但它是在统一框架内理解它及其堂兄层归一化（Ba等人，2016 年）的有用方法。

其次，对于典型的 MLP 或 CNN，在我们训练时，中间层中的变量（例如，MLP 中的仿射变换输出）可能采用幅度变化很大的值：沿着从输入到输出的层，跨同一层中的单元，随着时间的推移，由于我们对模型参数的更新。批量归一化的发明者非正式地假设，这种变量分布的漂移可能会阻碍网络的收敛。凭直觉，我们可能会推测，如果一层的可变激活是另一层的 100 倍，这可能需要对学习率进行补偿性调整。自适应求解器，例如 AdaGrad （Duchi等人，2011 年）、Adam （Kingma 和 Ba，2014 年）)、Yogi ( Zaheer et al. , 2018 )或 Distributed Shampoo ( Anil et al. , 2020 )旨在从优化的角度解决这个问题，例如，通过添加二阶方法的方面。另一种方法是通过自适应规范化来防止问题发生。

第三，更深层次的网络很复杂，而且往往更容易过度拟合。这意味着正则化变得更加关键。一种常用的正则化技术是噪声注入。这已经为人所知很长时间了，例如，关于输入的噪声注入( Bishop, 1995 )。它还构成了第 5.6 节中 dropout 的基础。事实证明，批归一化带来了所有三个好处：预处理、数值稳定性和正则化。

批归一化应用于单个层，或者可选地应用于所有层：在每次训练迭代中，我们首先通过减去它们的均值并除以它们的标准差来归一化（批归一化的）输入，其中两者都是基于统计数据估计的当前的小批量。接下来，我们应用比例系数和偏移量来恢复丢失的自由度。批归一化正是由于这种基于批统计的归一化 而得名。

请注意，如果我们尝试对大小为 1 的小批量应用批量归一化，我们将无法学习任何东西。这是因为在减去均值后，每个隐藏单元的值为 0。正如您可能猜到的那样，由于我们将整个部分用于批量归一化，并且具有足够大的小批量，因此该方法被证明是有效且稳定的。这里的一个要点是，当应用批量归一化时，批量大小的选择甚至比没有批量归一化更重要，或者至少需要适当的校准，因为我们可能会调整它。

表示为B一个小批量并让 x∈B作为批量归一化的输入（BN). 在这种情况下，批量归一化定义如下：

(8.5.1)BN(x)=γ⊙x−μ^Bσ^B+β.

在(8.5.1)中，μ^B 是样本均值和σ^B是 minibatch 的样本标准差B. 应用标准化后，生成的小批量具有零均值和单位方差。单位方差的选择（相对于其他一些幻数）是一个任意选择。我们通过包含元素尺度参数来恢复这种自由度 γ 和转移参数 β具有相同的形状x. 两者都是需要在模型训练中学习的参数。

中间层的可变幅度在训练期间不能发散，因为批量归一化主动将它们居中并将它们重新缩放回给定的均值和大小（通过 μ^B和 σ^B). 实践经验证实，正如在讨论特征重新缩放时所提到的，批量归一化似乎允许更积极的学习率。我们计算μ^B和 σ^B(8.5.1)中如下：

PyTorch教程8.5之批量归一化

8.5.1. 训练深度网络

PyTorch教程21.5之推荐系统的个性化排名

PyTorch教程23.4之使用Google Colab

PyTorch教程23.2之使用亚马逊SageMaker

PyTorch教程23.8之API

PyTorch教程4.1之Softmax回归

PyTorch教程3.6之概括

PyTorch教程5.5之深度学习中的泛化

PyTorch教程5.4之数值稳定性和初始化

PyTorch教程6.2之参数管理

PyTorch教程6.1之层和模块

PyTorch教程10.8之波束搜索

PyTorch教程12.5之小批量随机梯度下降

PyTorch教程12.2之凸度

PyTorch教程13.4之硬件

PyTorch教程13.3之自动并行

PyTorch教程13.2之异步计算

PyTorch教程14.2之微调

PyTorch教程14.1之图像增强

PyTorch教程6.4之惰性初始化

PyTorch教程6.7之显卡

PyTorch教程2.5之自动微分

PyTorch教程3.1之线性回归

PyTorch教程14.4之锚箱

PyTorch教程21.1之推荐系统概述

PyTorch教程7.3之填充和步幅

PyTorch教程7.2之图像卷积

PyTorch教程8.2之使用块的网络(VGG)

【代码收藏夹】C语言的归一化算法

基于谱归一化条件生成对抗网络的图像修复算法

傣语语音合成中的文本归一化方法

pytorch怎么在pycharm中运行

PyTorch的介绍与使用案例

tensorflow和pytorch哪个更简单?

如何使用PyTorch建立网络模型

TorchFix:基于PyTorch的代码静态分析

智能车中电磁归一化该怎么处理

电磁循迹中什么是归一化

使用Pytorch实现频谱归一化生成对抗网络(SN-GAN)

Zemax不同面型的归一化半径如何设置

使用PyTorch加速图像分割

INT8量子化PyTorch x86处理器

pytorch用来干嘛的

深度学习框架pytorch介绍

深度学习框架pytorch入门与实践

经典计算机视觉或基于图像的深度学习问题探索

PyTorch构建自己一种易用的计算图结构

PyTorch的简单实现

无残差连接或归一化层，也能成功训练深度Transformer

PyTorch 的 Autograd 机制和使用

点云数据的方位角归一化方法

13个你一定来看看的PyTorch特性！

基于PyTorch的深度学习入门教程之PyTorch的自动梯度计算

基于PyTorch的深度学习入门教程之PyTorch简单知识

基于PyTorch的深度学习入门教程之PyTorch重点综合实践

基于PyTorch的深度学习入门教程之DataParallel使用多GPU

基于PyTorch的深度学习入门教程之使用PyTorch构建一个神经网络

一篇非常新的介绍PyTorch内部机制的文章

广州8.5代OLED面板厂正式投产 但目前产量很低且无法开始批量生产

一文解构PyTorch：深入了解PyTorch内部机制

Pytorch入门教程与范例

下载排行榜

美的超薄电磁炉TM-S1-09B主板原理图

LVGL开发指南介绍

H桥中的电流感测

舒尔SLX4无线话筒接收机原理图:二次变频超外差部分

TPS55288布局指南

雷达的基本分类方法

广州8.5代OLED面板厂正式投产但目前产量很低且无法开始批量生产