贪婪层向预训练

2025年3月17日 | 阅读 8 分钟

人工智能得益于神经网络的发展，取得了革命性的进步，在语音识别、计算机视觉和自然语言处理等众多领域取得了显著的进展。然而，深度神经网络的训练可能很困难，特别是在处理大型、复杂的数据集时。贪婪层级预训练是一种解决这些问题的方法，它通过逐层初始化深度神经网络的参数。

贪婪层级预训练用于逐层初始化深度神经网络的参数，从第一层开始，然后依次处理后续的每一层。在每一步，一层都被训练成好像它是一个独立的模型，使用前一层的输入和后一层的输出。通常，训练的目标是开发出可用的输入数据表示。

贪婪层级预训练的过程

贪婪层级预训练过程可以分阶段进行如下

初始化：神经网络的第一层使用自编码器和其他无监督学习策略独立训练。学习一系列特征，这些特征能够突出输入数据的重要方面。
提取特征：在上一层训练完成后，将其激活用作特征来训练下一层。当这个过程反复进行时，每一层都学会以更高级别的抽象来表示前一层发现的特征。
微调：一旦每一层都以这种方式预训练，整个网络将使用监督学习方法进行调整。为了最大限度地提高特定任务的性能，这需要使用标记数据集同时修改网络的所有参数。

贪婪层级预训练的优势

以下是贪婪层级预训练的一些优势

特征学习和表示：网络的每一层都获得了识别和提取输入数据相关特征的能力，并具有不同程度的抽象。预训练是无监督的，因此模型可以在不需要标记的情况下识别数据中的潜在结构和模式。因此，获得的表示通常具有更多信息含量和泛化能力，从而在后续的监督任务中提高性能。
正则化和泛化：贪婪层级预训练迫使模型学习输入数据的有意义表示，这起到了一种正则化的作用。通过作为一种正则化形式，预训练权重将学习过程引导到参数空间中更有可能良好泛化到新数据的区域。这有助于避免过拟合，尤其是在训练数据稀缺的情况下。
迁移学习和适应性：贪婪层级预训练使得预训练模型能够更容易地迁移到新任务或领域，只需进行少量额外的训练。这被称为迁移学习。由于学到的特征能够捕获数据中经常可以在其他任务或数据集中迁移的通用模式，因此模型即使在标记数据不足的情况下也能有效地适应新环境并取得可接受的性能。
高效的训练过程：独立训练每一层使得整个过程更有效，并且不容易出现收敛问题。之后，整个网络可以使用监督学习进行微调。预训练的权重为进一步训练提供了极好的起点，通过减少收敛所需的迭代次数来加速训练过程。

贪婪层级预训练的缺点

贪婪层级预训练具有各种优点，但也存在一些局限性。以下是贪婪层级预训练的一些缺点

复杂性和训练时间：贪婪层级预训练使用无监督学习独立地训练神经网络的层，然后使用监督学习来微调整个网络。对于大型数据集和复杂设计，这个过程在处理方面可能成本高昂且耗时。顺序训练更多层需要更多的处理能力，并且对于非常深的网络可能效果不佳。
实现难度：实现贪婪层级预训练可能很困难，特别是在具有多层的深度系统中。需要仔细的设计和实现，以确保与后续的微调过程兼容，管理层之间预训练权重的转移，以及协调每一层的训练过程。贪婪层级预训练的复杂性可能会阻碍其被采纳，特别是对于深度学习背景不深的从业者。
对数据可用性的依赖：对于无监督学习，贪婪层级预训练需要访问大量未标记数据。虽然这对于某些领域或数据集可能不是大问题，但在有大量标记数据但缺乏或昂贵未标记数据的情况下可能会有问题。在某些情况下，其他预训练方法或数据增强方法可能更合适。

代码

我们将实现三个层的自编码器，然后是一个分类任务，这个模型使用了两个预训练的自编码器层，后面跟着一个连接到 softmax 的密集层。我们将能够演示贪婪层级预训练。

导入库

%env KERAS_BACKEND=theano
%reset

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
 
import keras
import keras.backend as K
from keras.layers import Input, Convolution2D, Activation, MaxPooling2D, \
     Dense, BatchNormalization, Dropout
from keras.layers.core import Flatten
from keras.optimizers import SGD
from keras.models import Model
from keras.utils import np_utils
from keras.constraints import maxnorm
from keras.regularizers import l2
from keras.callbacks import LearningRateScheduler
from keras.layers.normalization import BatchNormalization

print(keras.__version__)

from subprocess import check_output
print(check_output(["ls", "../input"]).decode("utf8"))

输出

缩放

将输入缩放到 0 到 1 之间。这使得解码模型变得简单，因为我们可以将其视为二元输出。

N_train = 30000 # Out of 42000, to reduce processing time
train = np.genfromtxt('../input/train.csv', delimiter = ',', skip_header = 1)
training_inputs = train[0:N_train, 1:] / 255.0
training_targets = np_utils.to_categorical(train[:, int(0)])[0:N_train]

val_inputs = train[(N_train+1):42000, 1:] / 255.0
val_targets = np_utils.to_categorical(train[:, int(0)])[(N_train+1):42000]

#test = np.genfromtxt('../input/test.csv', delimiter = ',', skip_header = 1)
#test_inputs = test[:, ] / 255.0


# For 2D data (e.g. image), ordering type "tf" assumes (rows, cols, channels)
#  type "th" assumes (channels, rows, cols). See https://keras.org.cn/backend/
print('We are using image ordering type', K.image_dim_ordering())

training_inputs = training_inputs.reshape(training_inputs.shape[0], 784)
#test_inputs = test_inputs.reshape(test_inputs.shape[0], 784)
print(training_inputs.shape)
print(val_inputs.shape)

输出

现在我们将使用自编码器实现层级预训练模型。

# Layer-by-layer pretraining Models

# Layer 1
input_img = Input(shape = (784, ))
distorted_input1 = Dropout(.1)(input_img)
encoded1 = Dense(800, activation = 'sigmoid')(distorted_input1)
encoded1_bn = BatchNormalization()(encoded1)
decoded1 = Dense(784, activation = 'sigmoid')(encoded1_bn)

autoencoder1 = Model(input = input_img, output = decoded1)
encoder1 = Model(input = input_img, output = encoded1_bn)

# Layer 2
encoded1_input = Input(shape = (800,))
distorted_input2 = Dropout(.2)(encoded1_input)
encoded2 = Dense(400, activation = 'sigmoid')(distorted_input2)
encoded2_bn = BatchNormalization()(encoded2)
decoded2 = Dense(800, activation = 'sigmoid')(encoded2_bn)

autoencoder2 = Model(input = encoded1_input, output = decoded2)
encoder2 = Model(input = encoded1_input, output = encoded2_bn)

# Layer 3 - which we won't end up fitting in the interest of time
encoded2_input = Input(shape = (400,))
distorted_input3 = Dropout(.3)(encoded2_input)
encoded3 = Dense(200, activation = 'sigmoid')(distorted_input3)
encoded3_bn = BatchNormalization()(encoded3)
decoded3 = Dense(400, activation = 'sigmoid')(encoded3_bn)

autoencoder3 = Model(input = encoded2_input, output = decoded3)
encoder3 = Model(input = encoded2_input, output = encoded3_bn)

# Deep Autoencoder
encoded1_da = Dense(800, activation = 'sigmoid')(input_img)
encoded1_da_bn = BatchNormalization()(encoded1_da)
encoded2_da = Dense(400, activation = 'sigmoid')(encoded1_da_bn)
encoded2_da_bn = BatchNormalization()(encoded2_da)
encoded3_da = Dense(200, activation = 'sigmoid')(encoded2_da_bn)
encoded3_da_bn = BatchNormalization()(encoded3_da)
decoded3_da = Dense(400, activation = 'sigmoid')(encoded3_da_bn)
decoded2_da = Dense(800, activation = 'sigmoid')(decoded3_da)
decoded1_da = Dense(784, activation = 'sigmoid')(decoded2_da)

deep_autoencoder = Model(input = input_img, output = decoded1_da)

# Not as Deep Autoencoder
nad_encoded1_da = Dense(800, activation = 'sigmoid')(input_img)
nad_encoded1_da_bn = BatchNormalization()(nad_encoded1_da)
nad_encoded2_da = Dense(400, activation = 'sigmoid')(nad_encoded1_da_bn)
nad_encoded2_da_bn = BatchNormalization()(nad_encoded2_da)
nad_decoded2_da = Dense(800, activation = 'sigmoid')(nad_encoded2_da_bn)
nad_decoded1_da = Dense(784, activation = 'sigmoid')(nad_decoded2_da)

nad_deep_autoencoder = Model(input = input_img, output = nad_decoded1_da)

我们现在将配置三个具有特定参数的 SGD 优化器，并通过一系列连续降低学习率的操作，我们将说明学习率衰减计划的影响。

sgd1 = SGD(lr = 5, decay = 0.5, momentum = .85, nesterov = True)
sgd2 = SGD(lr = 5, decay = 0.5, momentum = .85, nesterov = True)
sgd3 = SGD(lr = 5, decay = 0.5, momentum = .85, nesterov = True)

autoencoder1.compile(loss='binary_crossentropy', optimizer = sgd1)
autoencoder2.compile(loss='binary_crossentropy', optimizer = sgd2)
autoencoder3.compile(loss='binary_crossentropy', optimizer = sgd3)

encoder1.compile(loss='binary_crossentropy', optimizer = sgd1)
encoder2.compile(loss='binary_crossentropy', optimizer = sgd1)
encoder3.compile(loss='binary_crossentropy', optimizer = sgd1)

deep_autoencoder.compile(loss='binary_crossentropy', optimizer = sgd1)
nad_deep_autoencoder.compile(loss='binary_crossentropy', optimizer = sgd1)

# What will happen to the learning rates under this decay schedule?
lr = 5
for i in range(12):
    lr = lr - lr * .15
    print(lr)    

输出

堆叠的自编码器必须逐层训练，每一层依次被教授，其编码表示馈送到下一层。通过使用这种方法，模型能够逐渐学习输入数据的更抽象表示。

autoencoder1.fit(training_inputs, training_inputs,
                nb_epoch = 8, batch_size = 512,
                validation_split = 0.30,
                shuffle = True)

输出

first_layer_code = encoder1.predict(training_inputs)
print(first_layer_code.shape)

输出

autoencoder2.fit(first_layer_code, first_layer_code,
                nb_epoch = 8, batch_size = 512,
                validation_split = 0.25,
                shuffle = True)

输出

second_layer_code = encoder2.predict(first_layer_code)
print(second_layer_code.shape)

Not enough time!!
autoencoder3.fit(second_layer_code, second_layer_code,
               nb_epoch = 8, batch_size = 512,
               validation_split = 0.30,
               shuffle = True)

我们必须确保在训练单个自编码器期间学习到的权重被转移到深度自编码器和非深度自编码器的相应层，这使得它们能够有效地执行编码和解码任务。

# Setting the weights of the deep autoencoder
deep_autoencoder.layers[1].set_weights(autoencoder1.layers[2].get_weights()) # first dense layer
deep_autoencoder.layers[2].set_weights(autoencoder1.layers[3].get_weights()) # first bn layer
deep_autoencoder.layers[3].set_weights(autoencoder2.layers[2].get_weights()) # second dense layer
deep_autoencoder.layers[4].set_weights(autoencoder2.layers[3].get_weights()) # second bn layer
deep_autoencoder.layers[5].set_weights(autoencoder3.layers[2].get_weights()) # thrird dense layer
deep_autoencoder.layers[6].set_weights(autoencoder3.layers[3].get_weights()) # third bn layer
deep_autoencoder.layers[7].set_weights(autoencoder3.layers[4].get_weights()) # first decoder
deep_autoencoder.layers[8].set_weights(autoencoder2.layers[4].get_weights()) # second decoder
deep_autoencoder.layers[9].set_weights(autoencoder1.layers[4].get_weights()) # third decoder

# Setting up the weights of the not-as-deep autoencoder
nad_deep_autoencoder.layers[1].set_weights(autoencoder1.layers[2].get_weights()) # first dense layer
nad_deep_autoencoder.layers[2].set_weights(autoencoder1.layers[3].get_weights()) # first bn layer
nad_deep_autoencoder.layers[3].set_weights(autoencoder2.layers[2].get_weights()) # second dense layer
nad_deep_autoencoder.layers[4].set_weights(autoencoder2.layers[3].get_weights()) # second bn layer
nad_deep_autoencoder.layers[5].set_weights(autoencoder2.layers[4].get_weights()) # second decoder
nad_deep_autoencoder.layers[6].set_weights(autoencoder1.layers[4].get_weights()) # third decoder

现在我们将比较原始图像与其重建图像，您可以评估自编码器模型在捕获和重现输入数据方面的性能。逐个取消注释每一行，您可以比较不同自编码器架构的重建质量。

# you can see the degradation by uncommenting these one at a time and plotting
#decoded_inputs = autoencoder1.predict(training_inputs[0:25, ])
decoded_inputs = nad_deep_autoencoder.predict(training_inputs[0:25,])
#decoded_inputs = deep_autoencoder.predict(training_inputs[0:25,])
decoded_inputs.shape

fig = plt.figure(figsize = (8, 8))
fig.suptitle('Deep autoencoder reconstructions', fontsize=24, fontweight='bold')

ax1 = fig.add_subplot(231)
plt.imshow(training_inputs[2].reshape(28, 28))

ax2 = fig.add_subplot(234)
plt.imshow(decoded_inputs[2].reshape(28, 28))

ax3 = fig.add_subplot(232)
plt.imshow(training_inputs[6].reshape(28, 28))

ax4 = fig.add_subplot(235)
plt.imshow(decoded_inputs[6].reshape(28, 28))

ax5 = fig.add_subplot(233)
plt.imshow(training_inputs[4].reshape(28, 28))

ax6 = fig.add_subplot(236)
plt.imshow(decoded_inputs[4].reshape(28, 28))

输出

微调后

dense1 = Dense(500, activation = 'relu')(nad_decoded1_da)
dense1_drop = Dropout(.3)(dense1)
#dense1_bn = BatchNormalization()(dense1_drop)
dense2 = Dense(10, activation = 'sigmoid')(dense1_drop)

classifier = Model(input = input_img, output = dense2)
sgd4 = SGD(lr = .1, decay = 0.001, momentum = .95, nesterov = True)
classifier.compile(loss='categorical_crossentropy', optimizer = sgd4, metrics=['accuracy'])
   
classifier.fit(training_inputs, training_targets,
                nb_epoch = 6, batch_size = 600,
                validation_split = 0.25,
                shuffle = True)

输出

val_preds = classifier.predict(val_inputs)
predictions = np.argmax(val_preds, axis = 1)
true_digits = np.argmax(val_targets, axis = 1)
predictions[0:25]

输出

n_correct = np.sum(np.equal(predictions, true_digits).astype(int))
total = float(len(predictions))
print("Validation Accuracy:", round(n_correct / total, 3))

输出

下一主题OneVsRestClassifier

贪婪层向预训练

贪婪层级预训练的过程

贪婪层级预训练的优势

贪婪层级预训练的缺点

导入库

缩放

微调后

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

贪婪层向预训练

贪婪层级预训练的过程

贪婪层级预训练的优势

贪婪层级预训练的缺点

导入库

缩放

微调后

相关帖子

联合概率分布

机器学习中的网络入侵检测系统

聚类性能评估

金融领域的机器学习

机器学习中的几何模型

2025 年机器学习最新研究课题

使用 NumPy 从头开始实现神经网络

机器学习工程师与研究员的区别

Python 中的 Imbalanced Learn 模块

多重共线性：原因、影响和检测

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器