神经网络中的 Dropout 是什么？

2025年2月3日 | 阅读 8 分钟

神经网络中的核心问题之一是如何创建能够很好地泛化到新、未见过数据的模型。防止这种情况的一个常见问题是过拟合，即模型在训练数据上表现良好，但在验证或测试数据上表现不佳。Dropout 是一种强大的正则化技术，用于防止模型过拟合，从而提高泛化性能。

使用 Dropout 时的一个主要区别在于，它会在训练期间随机选择要忽略或“丢弃”的神经元。这意味着，在正向传播过程中，一部分神经元的输出被设置为零，而在反向传播过程中，不会计算这些神经元的梯度。Dropout 的作用是：同时训练许多具有不同架构的网络，可以避免网络过度依赖某些特定神经元。在训练阶段，有一个设定的 dropout 率，例如 50%，在每次迭代中，都会随机丢弃一部分神经元，使得每次正向和反向传播都有一个不同的子网络。然而，在测试时，不会应用 dropout。相反，为了保持训练和推理阶段输出的一致性，神经元的权重会按 dropout 率进行缩减。

神经网络中 Dropout 的优点

现在，我们将讨论神经网络中 Dropout 的许多优点，并分析它们对模型性能的影响。

防止过拟合： Dropout 最重要的优点之一是它能够避免过拟合。当模型学习到训练数据中的噪声和细节到一定程度，以至于在新的、未见过的数据上表现不佳时，就会发生过拟合。Dropout 通过在训练过程中引入随机性来防止过拟合；实际上，它会对几个子网络的预测进行平均。这将确保没有单个神经元能够过于强大而主导其他神经元的决策，从而迫使网络学习更通用的特征。
提高鲁棒性： Dropout 可以通过使神经网络不易受到输入数据微小扰动的影响，并使其更能适应不同场景，从而提高其鲁棒性。这是因为网络将在即使其某些组件缺失的情况下也能表现良好的训练中受益。
Dropout 降低模型复杂度： 通过在训练期间随机丢弃神经元，Dropout 能够降低连接神经网络的有效参数数量，从而防止模型因过度拟合训练数据而变得过于复杂。
高效的模型平均： Dropout 可以被视为一种高效的、在数量庞大的不同可能网络架构上执行模型平均的方法。在训练过程中，每次迭代都会选择不同的神经元子集，形成一个子网络；通过这种方式，它有效地对一个模型集锦的预测进行平均，从而得出更准确、更稳定的预测。
提高训练时间： 虽然 Dropout 会因为额外的正则化而增加每个 epoch 所需的时间，但它通常有助于整体上更快地收敛。通过减少过拟合并使模型能够学习更通用的特征，Dropout 可以更快地达到最优解。
提高模型可解释性： 使用 Dropout 训练的模型在大多数情况下会返回更具可解释性的结果，因为它能抵抗数据中的噪声和虚假模式。这种强制的独立性可能导致对底层数据进行更简单、更有意义的表示。

选择 Dropout 率

这个 dropout 率的选择很重要，通常在 0.2 到 0.5 的范围内；这是因为过高的率可能导致欠拟合，而过低的率则可能无法显著避免过拟合。Dropout 是一种轻量级但功能强大的正则化工具，可以防止神经网络过拟合，并有利于泛化。Dropout 通过在训练期间随机忽略一部分神经元，迫使模型不过度依赖某些特征或神经元，从而提供更鲁棒、更有效的神经网络模型。

Dropout 的变种

随着 Dropout 的流行，在神经网络中出现了许多富有创意的 Dropout 变种和应用。这些变种旨在改进普通 Dropout 的一些缺点并支持其优点，所有这些都旨在进一步提高机器学习模型的性能和适应性。虽然所有变种都基于 Dropout 的基本概念——在训练时随机省略部分元素以避免过拟合——但它们带来了针对不同网络架构和各种应用的特定修改。

空间 Dropout（Spatial Dropout）： 这种方法在 CNN 中特别有用。与丢弃单个神经元不同，空间 Dropout 丢弃整个特征图。这是因为，在 CNN 中，通常存在高度的空间相关性，并且某些特征比其他特征在空间上更连贯。空间 Dropout 通过移除整个特征图来帮助避免过度依赖某些空间特征，从而实现平衡且鲁棒的学习。
DropConnect： DropConnect 引入了另一种主要的正则化形式——丢弃连接，而不是神经元本身。这种方法在全连接层中非常有用，因为它能够确保信息能够通过多种多样的路径传递到神经网络，从而提高网络的鲁棒性和泛化能力。
AlphaDropout： AlphaDropout 确保层输入的均值和方差在训练和推理时保持一致。该变种与 SELU 等具有自归一化特性的激活函数配合效果尤佳。通过保持输入的统计特性，AlphaDropout 能够实现稳定高效的训练，并平衡深度网络以获得最佳性能。
变分 Dropout（Variational Dropout）： 传统 Dropout 使用固定的比例来丢弃，而变分 Dropout 则学习这个 dropout 率。基本上，在这个版本的 Dropout 中，模型知道哪些神经元是至关重要的，需要保留，而其他神经元则可以更频繁地被丢弃。这种自适应机制使得训练更加高效，将更多的计算资源投入到更相关的特征上，从而增强了模型性能。

Dropout 改进技术

随着神经网络架构的不断发展，Dropout 技术也得到了改进，以实现更好的模型性能和可解释性，因此成为机器学习研究中一个引人注目的领域。我们将考虑一些超越传统实现的先进 Dropout 技术，以实现更好的正则化、不确定性估计和整体模型鲁棒性。

蒙特卡洛 Dropout（Monte Carlo Dropout）： 这是一种全新的、创新的方法，它将 Dropout 的概念扩展到模型生命周期的推理阶段。传统 Dropout 在训练期间用于防止过拟合；这是通过随机失活神经元来实现的。相比之下，蒙特卡洛 Dropout 允许在推理期间使用 Dropout 来获得模型不确定性估计。具体如下：
连续 Dropout（Concrete Dropout）： 连续 Dropout 的关键概念是学习 dropout 率，而不是使用静态超参数。因此，这将允许模型在训练期间动态决定向模型添加多少正则化，并且它在各种数据集和任务上都能很好地处理性能。
高斯 Dropout（Gaussian Dropout）： 在高斯 Dropout 中，普通 Dropout 被乘性高斯噪声取代。在此变种中，正则化涉及连续噪声，这可能带来更平滑的优化景观和更稳定的训练过程。
目标 Dropout（Targeted Dropout）： 目标 Dropout 专注于选择性地丢弃神经元或连接，而不是随机丢弃，而是基于某些标准或启发式方法。这再次尝试通过定位对整体性能贡献较小的网络部分来进一步提高 Dropout 的效率。
对抗性 Dropout（Adversarial Dropout）： 它将 Dropout 与对抗性训练方法相结合，提供了一种非常强大的机制来提高网络抵御对抗性攻击的能力，从而在对抗性条件下保持性能。
计划 Dropout（Scheduled Dropout）： 计划 Dropout 率是一种在训练期间动态调整 dropout 率的方法。典型的计划通常从高 dropout 率开始，并在训练结束时逐渐降低。在某种意义上，这种方法类似于学习率计划，并使正则化更加系统化。

现在我们将使用 **TensorFlow/Keras** 实现一个有和没有 Dropout 的神经网络，以查看其对模型性能的影响。

代码

导入库

import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.datasets import mnist
from tensorflow.keras.utils import to_categorical

加载数据集

# Load the MNIST dataset
(train_X, train_y), (test_X, test_y) = mnist.load_data()

# Preprocess the data
train_X = train_X.reshape(-1, 28 * 28).astype('float32') / 255
test_X = test_X.reshape(-1, 28 * 28).astype('float32') / 255
# Convert labels to one-hot encoding
train_y = to_categorical(train_y, 10)
test_y = to_categorical(test_y, 10)

现在我们将创建一个简单的没有 Dropout 的神经网络。

# Build a simple neural network without Dropout
without_droput_model = Sequential([
    Dense(512, activation='relu', input_shape=(784,)),
    Dense(512, activation='relu'),
    Dense(10, activation='softmax')
])

# Compile the model
without_droput_model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Train the model
without_droput_history = without_droput_model.fit(train_X, train_y, epochs=20, batch_size=128, validation_split=0.2, verbose=2)

输出

现在，我们将创建一个带有 Dropout 的神经网络，之后我们将把两者结合起来。

# Build a neural network with Dropout
with_droput_model = Sequential([
    Dense(512, activation='relu', input_shape=(784,)),
    Dropout(0.5),
    Dense(512, activation='relu'),
    Dropout(0.5),
    Dense(10, activation='softmax')
])

# Compile the model
with_droput_model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Train the model
with_droput_history = with_droput_model.fit(train_X, train_y, epochs=20, batch_size=128, validation_split=0.2, verbose=2)

输出

现在我们将绘制两个并排的子图，每个子图显示训练集和验证集在 epoch 上的准确率趋势。

# Plot training & validation accuracy values
plt.figure(figsize=(14, 6))

plt.subplot(1, 2, 1)
plt.plot(without_droput_history.history['accuracy'], label='Train')
plt.plot(without_droput_history.history['val_accuracy'], label='Validation')
plt.title('Model accuracy without Dropout')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.legend()

plt.subplot(1, 2, 2)
plt.plot(with_droput_history.history['accuracy'], label='Train')
plt.plot(with_droput_history.history['val_accuracy'], label='Validation')
plt.title('Model accuracy with Dropout')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.legend()
plt.show()

输出

在这里，我们将创建一个单独的图，将两个模型的准确率趋势结合起来，让您轻松比较它们在 epoch 上的性能。

# Plot training & validation accuracy values together for comparison
plt.figure(figsize=(14, 6))

plt.plot(without_droput_history.history['accur
acy'], label='Train without Dropout')
plt.plot(without_droput_history.history['val_accuracy'], label='Validation without Dropout')
plt.plot(with_droput_history.history['accuracy'], label='Train with Dropout')
plt.plot(with_droput_history.history['val_accuracy'], label='Validation with Dropout')

plt.title('Model accuracy comparison')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.legend()
plt.show()

输出

同样，我们将创建两个并排的子图，以比较模型损失在 epoch 上的变化情况，有和没有 Dropout。这样的可视化有助于理解模型的性能，尤其是在过拟合和收敛行为方面。

# Plot training & validation loss values
plt.figure(figsize=(14, 6))

plt.subplot(1, 2, 1)
plt.plot(without_droput_history.history['loss'], label='Train')
plt.plot(without_droput_history.history['val_loss'], label='Validation')
plt.title('Model loss without Dropout')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.legend()

plt.subplot(1, 2, 2)
plt.plot(with_droput_history.history['loss'], label='Train')
plt.plot(with_droput_history.history['val_loss'], label='Validation')
plt.title('Model loss with Dropout')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.legend()

plt.show()

输出

虽然没有 Dropout 的模型可能很快达到较高的训练准确率，但其过拟合的倾向会导致较低的验证准确率。

由于其正则化影响，Dropout 模型通常会产生更高的验证准确率，即使它需要更长的时间才能达到高训练准确率。

下一个主题机器学习的类型

← 上一个下一个 →

神经网络中的 Dropout 是什么？

神经网络中 Dropout 的优点

选择 Dropout 率

Dropout 的变种

Dropout 改进技术

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

神经网络中的 Dropout 是什么？

神经网络中 Dropout 的优点

选择 Dropout 率

Dropout 的变种

Dropout 改进技术

相关帖子

多项逻辑回归

局部异常因子新颖性检测

StandardScaler、MinMaxScaler 和 RobustScaler 技术

使用 scikit-learn 的 train_test_split() 分割数据集

最大似然估计简介

归纳学习与转导学习的区别

ML | 主动学习

机器学习中的生存分析

机器学习中的 Epoch

如何为机器学习去除异常值

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器