W-GAN

2025年3月17日 | 阅读 7 分钟

得益于生成对抗网络 (GAN)，深度学习迎来了一场革命，它使得生成逼真的合成数据成为可能。尽管传统的 GAN 取得了巨大的成功，但它们可能会生成低质量的样本，并在训练过程中出现不稳定性。Wasserstein 生成对抗网络 (WGAN) 被提出来解决这些问题。与传统的 GAN 相比，WGAN 具有一系列优势，包括提高样本质量、改善训练动态和增强稳定性。

Wasserstein 生成对抗网络的基础是概率分布之间的 Wasserstein 距离，通常也称为 Earth-Mover's 距离。WGAN 最大化 Wasserstein 距离，而传统的 GAN 使用 Jensen-Shannon 或 Kullback-Leibler 散度来量化分布之间的差异。除了提供更稳定的训练动态外，Wasserstein 距离还提供了量化分布不相似性的更有效方式。

W-GAN 的组成部分

生成器和判别器：与传统的 GAN 一样，WGAN 也由生成器和判别器组成。生成器创建合成数据样本，而判别器则评估创建的样本相对于真实数据的真实性。
Wasserstein 距离：WGAN 的主要创新在于使用 Wasserstein 距离作为目标函数，而不是更传统的散度度量。Wasserstein 距离衡量将一个分布转换为另一个分布所需的“工作量”，是分布不相似性的更准确的指标。
梯度惩罚：WGAN 引入了梯度惩罚项，使判别器遵循 Lipschitz 约束。这种惩罚可以提高训练的稳定性，并促进判别器输出的平滑性。

现在，我们来动手实现 W-GAN with Gradient Penalty，用于 MNIST 数据增强。

代码

导入库

import tensorflow as tf
import tensorflow.keras as keras

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from IPython import display
from tqdm.auto import trange

实用工具

现在我们将提供所需的实用工具。

def plot_results(images, n_cols=None, title=None):
    
    n_cols = n_cols or len(images)
    n_rows = (len(images) - 1) // n_cols + 1

    if images.shape[-1] == 1:
        images = np.squeeze(images, axis=-1)
    
    fig = plt.figure(figsize=(n_cols, n_rows))
    
    for index, image in enumerate(images):
        plt.subplot(n_rows, n_cols, index + 1)
        plt.imshow(image, cmap="binary")
        plt.axis("off")
        
    plt.suptitle(title)

BATCH_SIZE = 128
CODINGS_SIZE = 32
N_EPOCHS = 100
D_STEPS = 5
GP_WEIGHT = 10.0

现在我们将创建一个函数，用于准备模型训练所需的数据。

def prepare_data(label, batch_size):
    (X_train, y_train), (X_test, y_test) = keras.datasets.mnist.load_data()
    X_all = np.concatenate([X_train, X_test])
    y_all = np.concatenate([y_train, y_test])
    
    X_all = X_all.astype(np.float32) / 255
    X_all = X_all.reshape(-1, 28, 28, 1) * 2. - 1.
    X_train = X_all[np.where(y_all == label)]

    dataset = tf.data.Dataset.from_tensor_slices(X_train)
    dataset = dataset.shuffle(1024)
    dataset = dataset.batch(BATCH_SIZE, drop_remainder=True).prefetch(1)
    
    return dataset


def prepare_images(label):
    (X_train, y_train), (X_test, y_test) = keras.datasets.mnist.load_data()
    X_all = np.concatenate([X_train, X_test])
    y_all = np.concatenate([y_train, y_test])
    
    X_all = X_all.astype(np.float32) / 255
    X_all = X_all.reshape(-1, 28, 28, 1) * 2. - 1.
    X_train = X_all[np.where(y_all == label)]
    
    return X_train

构建模型

通过使用 Wasserstein 距离，原始的 Wasserstein GAN 生成的值函数比初始 GAN 论文中使用的值函数具有更优越的理论特性。为了使 WGAN 工作，判别器（也称为 critic）必须位于 1-Lipschitz 函数空间内。作者建议使用权重裁剪来实现这一限制。尽管权重裁剪是有效的，但它可能导致不期望的行为，并且是强制执行 1-Lipschitz 约束的麻烦技术。例如，非常深的 WGAN 判别器（critic）经常无法收敛。

权重裁剪并不是 WGAN-GP 方法为保证平稳训练所提出的唯一解决方案。作者们建议使用“梯度惩罚”来代替裁剪权重，其中包括添加一个损失项来将判别器梯度的 L2 范数保持在 1 附近。

发电机

我们首先将随机噪声输入生成器，然后将其塑造成 MNIST 图像格式。总体步骤如下：

将输入噪声馈送到一个厚层。
修改结果以包含三个维度。这代表 (宽度、长度和滤波器数量)。
使用 Conv2DTranspose 进行反卷积，步长为二，滤波器数量为一半。
最后一层将特征上采样到训练图像的大小。在此示例中为 28 x 28 x 1。

值得注意的是，除最后一个反卷积层外，所有层都应用了批归一化。将 selu 用作中间反卷积的激活函数，将 tanh 用作输出的激活函数是最佳实践。

判别器

判别器将使用跨步卷积来降低输入图像的维度。LeakyRELU 是这些的最佳实践激活。没有激活的情况下，输出特征将被展平并馈送到一个 1 个单元的密集层。

def build_generator():
    inputs = keras.Input(shape=[CODINGS_SIZE])
    x = keras.layers.Dense(7 * 7 * 128)(inputs)
    x = keras.layers.Reshape([7, 7, 128])(x)
    x = keras.layers.BatchNormalization()(x)
    x = keras.layers.Conv2DTranspose(64, kernel_size=3, strides=1, padding="SAME", activation="selu")(x)
    x = keras.layers.BatchNormalization()(x)
    skip = keras.layers.Conv2DTranspose(64, kernel_size=3, strides=1, padding="SAME", activation="selu")(x)
    skip = keras.layers.BatchNormalization()(skip)
    skip = keras.layers.Conv2DTranspose(64, kernel_size=3, strides=1, padding="SAME", activation="selu")(skip)
    skip = keras.layers.BatchNormalization()(skip)
    x = keras.layers.add([x, skip])
    x = keras.layers.Conv2DTranspose(64, kernel_size=3, strides=2, padding="SAME",activation="selu")(x)
    skip = keras.layers.Conv2DTranspose(64, kernel_size=3, strides=1, padding="SAME", activation="selu")(x)
    skip = keras.layers.BatchNormalization()(skip)
    skip = keras.layers.Conv2DTranspose(64, kernel_size=3, strides=1, padding="SAME", activation="selu")(skip)
    skip = keras.layers.BatchNormalization()(skip)
    x = keras.layers.add([x, skip])
    outputs = keras.layers.Conv2DTranspose(1, kernel_size=3, strides=2, padding="SAME",activation="tanh")(x)
    return keras.models.Model(inputs, outputs, name='generator')


def build_discriminator():
    return keras.models.Sequential([
    keras.layers.Conv2D(64, kernel_size=3, strides=1, padding="SAME", activation=keras.layers.LeakyReLU(0.2), input_shape=[28, 28, 1]),
    keras.layers.Conv2D(128, kernel_size=3, strides=1, padding="SAME", activation=keras.layers.LeakyReLU(0.2)),
    keras.layers.Conv2D(128, kernel_size=3, strides=2, padding="SAME", activation=keras.layers.LeakyReLU(0.2)),
    keras.layers.Dropout(0.4),
    keras.layers.Conv2D(128, kernel_size=3, strides=1, padding="SAME", activation=keras.layers.LeakyReLU(0.2)),
    keras.layers.Conv2D(128, kernel_size=3, strides=1, padding="SAME", activation=keras.layers.LeakyReLU(0.2)),
    keras.layers.Conv2D(128, kernel_size=3, strides=2, padding="SAME", activation=keras.layers.LeakyReLU(0.2)),
    keras.layers.Dropout(0.4),
    keras.layers.Flatten(),
    keras.layers.Dense(1)
], name='discriminator')

class WGAN(keras.Model):
    def __init__(
        self,
        discriminator,
        generator,
        latent_dim,
        discriminator_extra_steps=5,
        gp_weight=10.0,
    ):
        super().__init__()
        self.discriminator = discriminator
        self.generator = generator
        self.latent_dim = latent_dim
        self.d_steps = discriminator_extra_steps
        self.gp_weight = gp_weight

    def compile(self, d_optimizer, g_optimizer, d_loss_fn, g_loss_fn):
        super().compile()
        self.d_optimizer = d_optimizer
        self.g_optimizer = g_optimizer
        self.d_loss_fn = d_loss_fn
        self.g_loss_fn = g_loss_fn

    def gradient_penalty(self, batch_size, real_images, fake_images):
        """ Calculates the gradient penalty.

        This loss is calculated on an interpolated image
        and added to the discriminator loss.
        """
        # Get the interpolated image
        alpha = tf.random.normal([batch_size, 1, 1, 1], 0.0, 1.0)
        diff = fake_images - real_images
        interpolated = real_images + alpha * diff

        with tf.GradientTape() as gp_tape:
            gp_tape.watch(interpolated)
            # 1. Get the discriminator output for this interpolated image.
            pred = self.discriminator(interpolated, training=True)

        # 2. Calculate the gradients w.r.t to this interpolated image.
        grads = gp_tape.gradient(pred, [interpolated])[0]
        # 3. Calculate the norm of the gradients.
        norm = tf.sqrt(tf.reduce_sum(tf.square(grads), axis=[1, 2, 3]))
        gp = tf.reduce_mean((norm - 1.0) ** 2)
        return gp

    def train_step(self, real_images):
        if isinstance(real_images, tuple):
            real_images = real_images[0]

        batch_size = tf.shape(real_images)[0]

        # For each batch, we are going to perform the
        # following steps:
        # 1. Train the generator and get the generator loss
        # 2. Train the discriminator and get the discriminator's loss
        # 3. Calculate the gradient penalty
        # 4. Multiply this gradient penalty with a constant weight factor
        # 5. Add the gradient penalty to the discriminator loss
        # 6. Return the generator and discriminator losses as a loss dictionary

        # Train the discriminator for `x` more steps (typically 5) as compared to
        # one step of the generator.
        for i in range(self.d_steps):
            random_latent_vectors = tf.random.normal(
                shape=(batch_size, self.latent_dim)
            )
            with tf.GradientTape() as tape:
                fake_images = self.generator(random_latent_vectors, training=True)
                fake_logits = self.discriminator(fake_images, training=True)
                real_logits = self.discriminator(real_images, training=True)

                d_cost = self.d_loss_fn(real_img=real_logits, fake_img=fake_logits)
                gp = self.gradient_penalty(batch_size, real_images, fake_images)
                d_loss = d_cost + gp * self.gp_weight

            d_gradient = tape.gradient(d_loss, self.discriminator.trainable_variables)
            self.d_optimizer.apply_gradients(
                zip(d_gradient, self.discriminator.trainable_variables)
            )

        random_latent_vectors = tf.random.normal(shape=(batch_size, self.latent_dim))
        with tf.GradientTape() as tape:
            generated_images = self.generator(random_latent_vectors, training=True)
            gen_img_logits = self.discriminator(generated_images, training=True)
            g_loss = self.g_loss_fn(gen_img_logits)

        gen_gradient = tape.gradient(g_loss, self.generator.trainable_variables)
        self.g_optimizer.apply_gradients(
            zip(gen_gradient, self.generator.trainable_variables)
        )
        return {"d_loss": d_loss, "g_loss": g_loss}    
    
def discriminator_loss(real_img, fake_img):
    real_loss = tf.reduce_mean(real_img)
    fake_loss = tf.reduce_mean(fake_img)
    return fake_loss - real_loss


def generator_loss(fake_img):
    return -tf.reduce_mean(fake_img)    

generator = build_generator()
discriminator = build_discriminator()
print('Generator Summary\n\n')
generator.summary()
print('\n\nDiscriminator Summary\n\n')
discriminator.summary()
keras.utils.plot_model(generator, show_shapes=True, expand_nested=True, to_file='generator.png')
keras.utils.plot_model(discriminator, show_shapes=True, expand_nested=True, to_file='discriminator.png')
fig, ax = plt.subplots(1, 2, figsize=(20, 12))
ax[0].imshow(plt.imread('generator.png'))
ax[0].set_title('Generator', fontsize=18)
ax[1].imshow(plt.imread('discriminator.png'))
ax[1].set_title('Discriminator', fontsize=18)
ax[0].axis("off")
ax[1].axis("off")
plt.show()

输出

W-GAN 实战

现在让我们看看 W-GAN 在实际应用中的情况。

 
for i in range(10):
    LABEL = i
    dataset = prepare_data(LABEL, BATCH_SIZE)

    generator = build_generator()
    discriminator = build_discriminator()
    
    gan = WGAN(
        discriminator=discriminator, generator=generator, 
        latent_dim=CODINGS_SIZE, discriminator_extra_steps=D_STEPS, gp_weight=GP_WEIGHT
    )
    gan.compile(
        d_optimizer=keras.optimizers.Adam(learning_rate=0.0001),
        g_optimizer=keras.optimizers.Adam(learning_rate=0.0001),
        g_loss_fn=generator_loss,
        d_loss_fn=discriminator_loss,
    )
    
    fig, ax = plt.subplots(figsize=(20, 6))
    ax.set_title(f'Learning Curve-{LABEL}', fontsize=18)
    history = gan.fit(dataset, epochs=N_EPOCHS, verbose=1)
    pd.DataFrame(history.history).plot(ax=ax)
    ax.grid()
       
    generator.save(f'MNIST-AUG-WGAN-{LABEL}.h5')

输出

生成的图像

让我们来看看 W-GAN 模型生成的图像。

from scipy.linalg import sqrtm

def frechet_distance(act1, act2):
    mu1, sigma1 = np.mean(act1, axis=0), np.cov(act1, rowvar=False)
    mu2, sigma2 = np.mean(act2, axis=0), np.cov(act2, rowvar=False)
    ssdiff = np.sum((mu1 - mu2)**2.0)
    covmean = sqrtm(sigma1.dot(sigma2))
    if np.iscomplexobj(covmean):
        covmean = covmean.real
    fid = ssdiff + np.trace(sigma1 + sigma2 - 2.0 * covmean)
    return fid

evaluator = keras.models.Sequential(keras.models.load_model('../input/mnist-net/mnist_net.h5').layers[:-1])
scores = []

for i in range(10):
    generator = keras.models.load_model(f'MNIST-AUG-WGAN-{i}.h5')
    fake_images = generator(tf.random.normal([128, CODINGS_SIZE]))
    embeddings_real = evaluator(prepare_images(i))
    embeddings_fake = evaluator(fake_images)
    scores.append(frechet_distance(embeddings_real, embeddings_fake))
    plot_results(fake_images, 16, f'Images Generated for class {i}')                     
    plt.show()  

输出

求值

现在，我们将使用 Frechet 距离来表示一些生成数据样本与真实数据相比的评估。Frechet 距离是衡量两条曲线或形状之间相似性的度量。

输出

以下是我们对上述输出的解释：

第一个分数 49.98 相对较高。它意味着第一个数据集中的生成样本分布与真实数据分布之间存在较大偏差。
第二个分数 27.99 仍然很高，尽管比第一个低。
与前两组相比，第三组的得分 20.37 在生成数据分布与真实数据分布的相似性方面显示出进一步的改进。

第四个分数 11.02 远低于前几个分数。这表明第四组的生成样本分布与真实数据分布非常相似。

第五个分数 21.36，比第四个分数略好，但与第一个结果相比仍然相当高。
第六个分数 30.76，低于第二个和第三个，但高于第五个。
第七个分数 17.90，表明生成数据分布与真实数据分布非常匹配。
第八个分数 15.67，甚至低于第七个分数，这表明分布的相似性仍有改进空间。
第九个分数 21.52，比第八个分数略好，但与初始分数相比仍然相当高。
第十个分数 20.16，生成数据分布与真实数据分布相当吻合。

下一个主题贪婪层级预训练

W-GAN

W-GAN 的组成部分

导入库

实用工具

构建模型

发电机

判别器

W-GAN 实战

生成的图像

求值

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

W-GAN

W-GAN 的组成部分

导入库

实用工具

构建模型

发电机

判别器

W-GAN 实战

生成的图像

求值

相关帖子

机器学习中的训练集和测试集

K-Means 聚类算法

统计模型与机器学习的区别

机器学习中的数据质量是什么？

一对一 (OvO) 多类分类器

GIS 的组成部分

模型参数与超参数

自由度

印度机器学习公司列表

机器学习中的安置预测

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器