10 个生成对抗网络 (GAN) 项目创意

2025年6月17日 | 阅读10分钟

GAN 简介

在生成对抗网络 (GAN) 中,两个神经网络使用深度学习技术相互对抗,以提供更准确的预测。GAN 通常使用协作零和游戏框架进行学习,并在无监督下运行。

组成 GAN 的两个神经网络称为判别器和生成器。判别器是反卷积神经网络,而生成器是卷积神经网络。生成器的目的是创建容易被误认为是真实数据的合成输出。判别器的目的是识别它收到的输出是否是故意创建的。本质上,生成模型会自行生成训练数据。

生成器经过训练以生成假数据,判别器网络经过训练以区分生成数据和真实世界示例。如果判别器迅速找到它生成的假数据(例如不是真实人脸的图片),则生成器会受到惩罚。随着对抗网络之间的反馈循环持续,判别器变得更擅长识别生成不当的数据,生成器开始生成更好、更可靠的输出。例如,可以训练生成对抗网络来制作看起来逼真的人脸照片,而这些照片实际上并不是任何真实人物的照片。

GAN 通常分为以下几类

  • 生成式:这描述了如何使用概率模型生成数据。
  • 对抗式:模型在对抗环境中进行训练。
  • 网络:对于训练,深度神经网络可以用作人工智能 (AI) 算法。

创建 GAN 的第一步是找到预期的最终输出,并根据这些参数编译初步训练数据集。之后,数据被随机分配并输入到生成器中,直到模型能够提供具有一定准确性水平的输出。

然后将生成的样本或图像以及原始概念的实际数据点提供给判别器。在判别器和生成器模型处理数据后,反向传播优化开始。在对数据进行排序后,判别器会产生一个介于 0 和 1 之间的概率,表示每个图像的合法性;0 表示假图像,而 1 表示真图像。该过程将持续进行,直到模型开发人员亲自验证这些值是否成功后,达到预期结果。

通常,GAN 执行以下操作

  • 在获取随机数后,生成器生成一张图片。
  • 判别器还会收到这张生成的图像以及来自真实、地面真值数据集的图像流。
  • 当真实和虚假图片都发送到判别器时,它会产生概率,这些值介于 0 和 1 之间。值为 1 表示真实性预测,而值为 0 表示虚假。

项目创意

1. 使用 CycleGAN 进行图像风格迁移

您是否曾梦想过像梵高或莫奈那样作画?如果我告诉您现在就可以做到,而无需拿起画笔呢?您所需要的只是 GAN。图像风格迁移的任务需要输入两张图片——内容图片和参考图片——并通过将内容图片的物体与参考图片的风格结合起来构建一幅作品。风格指的是参考图片的颜色、纹理和笔触。

10 Generative Adversarial Networks (GAN) Based Project Ideas

现在,这难道不完全吸引人吗?为了找到最成功的风格迁移方法,该领域进行了大量研究。图像到图像翻译或域适应是这种技术的其他名称。然而,为了训练图像到图像翻译任务,您通常需要一对图片及其翻译形式,这在这种情况下很难实现。CycleGAN 有助于克服典型 GAN 拓扑中的这种限制。提供了未配对的图像到图像翻译训练。GAN 已被证明可以创建更逼真的照片,尽管像 VGG19 这样的 CNN 也可以用于风格迁移任务。您可以从以下位置获取风格和内容图片的 datasets:

Kaggle 上有史以来最好的艺术作品

2. 使用 GAN 进行肺部胸部 X 光医学图像合成

随着人工智能领域飞速发展,集中研究已展开,以探索在医学科学领域利用先进深度学习模型的新方法。这不仅有助于减轻一线医疗服务提供者的负担,还有助于更有效地管理疫情/流行病等危机。许多 CNN 已经在利用放射成像和 CT 图像进行准确诊断方面取得了最先进的性能。然而,可用于训练这些模型的数据量有限,这增加了过拟合的风险。

医学影像的数据收集和标注极其耗时且昂贵。它非常容易产生偏见和标注错误,因为许多放射科医生作为标注者参与其中,而且众所周知,没有两个人会以相同的方式思考,尤其是在令人困惑的情况下。有没有有效的方法来克服这些限制?是的!基于当前训练数据生成合成数据。

10 Generative Adversarial Networks (GAN) Based Project Ideas

传统的数据增强技术包括调整亮度、对比度、锐度、模糊度等。它适用于简单的分类任务,但不适用于医学成像,因为它可能会扭曲图像。我们需要更巧妙的方法,例如 GAN。目标是利用训练数据集的隐藏潜在特征来训练生成器模型以生成不可见的扫描。可以使用多种 GAN 架构,例如 DCGAN、pix2pix、StarGAN 等。

使用胸部 X 光图像数据集来亲身体验这个 GAN 项目创意。

3. 使用 GAN 创建您的动漫角色

你知道《钢之炼金术师》吗?《死亡笔记》?《星际牛仔》?当然,你听说过!谁没听说过这些热门动漫系列?即使没有,也总有时间尝试新事物。借助 GAN,我们可以设计动漫角色的面孔。可以使用一系列 GAN 架构,包括 DCGAN 和 StyleGAN,来实现这个目标。我们建议使用动漫人脸数据集。可以创建超过 60,000 张高质量动漫人脸照片,形成逼真的动漫角色集合。

10 Generative Adversarial Networks (GAN) Based Project Ideas

借助某些高级设计,GAN 已被证明可以生成极其逼真的动漫角色。

4. 使用人脸合成创建人脸老化应用程序

谁不想看看我们老了、满脸皱纹、六七十岁时会是什么样子呢?即使我们没有特里劳妮教授那样的魔法水晶球,我们仍然可以使用生成模型来预测我们未来可能的样子。我们可以使用条件 GAN 或 cGAN 来创建优雅融合、自然老化的面孔。这在寻找被绑架儿童时非常有用。不幸的是,随着时间的推移,搜索队不得不放弃任务,因为他们无法使用旧照片。我们可以继续寻找他们,并尝试猜测他们多年后可能的样子。

10 Generative Adversarial Networks (GAN) Based Project Ideas

cGAN 是 GAN 的扩展版本,可以创建具有特定特征的图片。判别器和生成器模型都会收到这些条件数据,这些数据可以是性别或年龄等任何内容。

该数据集可在IMDB-WIKI上下载。

5. 使用 GAN 将黑白图像转换为彩色图像

图像着色是一个引人注目的 GAN 项目。许多人拥有在彩色电影制作处于创新前沿时代拍摄的历史胶片和照片。

10 Generative Adversarial Networks (GAN) Based Project Ideas

将单色与最接近的色调相关联的过程有时被称为着色。在深度学习之前,照片或视频的着色是利用人类智能和颜色参考图像的组合来完成的。这个过程耗时、困难且通常不准确。深度学习出现后,各种研究人员开始利用 CNN 发现隐藏模式的能力来对灰度照片进行着色。尽管取得了巨大成功,但仍有很大的进步空间。由于 GAN 的进步,研究人员现在已经开发出更逼真的彩色图片。对于这个项目,您可以利用 Kaggle 上的图像着色数据集来测试和玩转 GAN。

6. 使用 GAN 从真实场景图像中去除不需要的噪声

您是否曾用手机拍下完美日落的照片,呈现出红色和黄色色调的最佳组合?然而,图像的纹理非常粗糙,降低了照片的质量。您不能再向任何人展示它了,但它可能已成为下一个 Instagram 热门图片。嗯,不用担心。GAN 可以拯救您的生活。

噪声是用来描述这张图像颗粒状外观的术语。尽管图像中总是存在一些噪声,但由于外部干扰、损坏的相机传感器、弱光等原因,它有时会非常明显。从照片中消除噪声的技术称为图像去噪。

10 Generative Adversarial Networks (GAN) Based Project Ideas

如果数据用于训练 ML/DL 模型,去噪照片变得更加关键,因为低质量图像将导致模型性能不佳。在许多计算机视觉应用中都使用真实场景图像捕获,例如语义场景分割、弱光下的对象检测、CCTV 视频流上的图像分析等。此外,它还可以帮助修复随着时间推移而劣化的图像,或使用过时、劣质设备拍摄的图像。解决这个问题的一种方法是使用 GAN。您可以使用广泛使用的智能手机图像去噪数据集,也称为 SIDD,来训练模型。它包含 30,000 多张在 10 种不同照明条件下用五种不同智能手机拍摄的嘈杂照片。

7. 使用可变形 GAN 创建新颖的人体姿态。

你准备好迎接挑战了吗?亲自尝试这个绝佳的项目创意。手头的任务是通过合成人体图像来创建所需姿态的人体。人体图像和目标姿态是这种未配对图像到图像翻译中的两种不相关训练数据类型。

10 Generative Adversarial Networks (GAN) Based Project Ideas

这是一项具有挑战性的任务,因为合成图像必须准确地再现原始照片的背景和人物外观特征。研究人员解决这个问题的基本策略是独立处理背景和人物。首先,从图像中取出前景物体或人物,并将其放置在所需位置。接下来,合成相关纹理以填充背景空白。之后,将它们组合在一起以创建所需的图像。对于此类任务,使用专门的 GAN,例如可变形 GAN。在现实世界中,这种 GAN 应用在时尚行业中用于根据需要创建不同姿态的人工模型图像。

对于这个 GAN 项目概念,使用姿态迁移数据集。

8. 基于 SegAN 的肝肿瘤语义分割

肝癌是全球癌症相关死亡的主要原因之一。如果能通过 CT 扫描及早发现癌症,全球数百万人可以免于死亡。如果无法避免死亡,医生当然可以通过长期治疗延长预期寿命。缺点是放射科医生发现要跟上速度极其困难,因为阅读和解释图像是一项劳动密集型且耗时的操作。在过去 10 年中,利用复杂人工智能算法准确、正确分析医学图像的技术取得了显著进步。在人工智能驱动的解决方案的帮助下,多家公司正在致力于简化医疗服务提供者生活的崇高目标。

10 Generative Adversarial Networks (GAN) Based Project Ideas

语义分割是分析扫描和定位异常区域的一种方法。尽管深度复杂的 CNN 架构在语义分割领域取得了令人瞩目的成果,但 SegNet(一种独特的 GAN 类型)也可用于此任务。SegNet 的设计有点难以理解,超出了本文的范围。如果您想了解更多信息,可以阅读《SegAN:基于对抗性学习的语义分割》。总的来说,它使用带有 FCN 作为分割器的评论者对抗网络学习图像像素之间的潜在长短期关联,并生成相同的分割图。如果您正在寻找毕业论文,您可能希望更仔细地研究这个项目。对于此任务,您可以使用LiTS-肝肿瘤分割挑战数据集。

9. 使用 ST-GAN 开发文本到图像合成器

从口头描述创建逼真视觉效果的主题既引人入胜又极其困难。事实证明,GAN 难以从其他输入照片合成逼真的图片。该模型需要自行做出假设,而此任务中提供的唯一输入是图像的书面描述,其中对预期或目标的许多细节都不确定。在创建高分辨率照片时,细节和优雅成为一个重大问题。此外,针对不同的文本描述概括照片可能并不容易。为了解决这个问题,研究人员采用了 StackGAN 或 ST-GAN。在这种设计中,两个 GAN 堆叠在一起。

10 Generative Adversarial Networks (GAN) Based Project Ideas

牛津花卉-102 数据集包含您可用于训练此模型的数据集。十个不同的标题作为图像说明,大约有 8000 张图片,分为 102 个不同类别。它涵盖了不同的人描述视觉效果的广泛方式。

10. 基于 GAN 的抽象文本摘要器

文本摘要任务分为两类:1) 抽取式文本摘要和 2) 抽象式文本摘要。抽取式文本摘要是相对简单的过程,即找到最能捕捉冗长文本精髓的短语。相反,抽象式文本摘要很难,因为它需要对冗长文本进行意译,以便将其要点浓缩成一个简短的段落。原始文本中的句子甚至短语不总是包含在内。科学家们多年来一直在与这个问题作斗争,最先进的序列到序列模型并不总是能像它们应有的那样出色地完成这项工作。

10 Generative Adversarial Networks (GAN) Based Project Ideas

GAN 在计算机视觉领域的图像到图像转换问题中表现出色。然而,它们在处理语言数据方面仍处于相对早期阶段,并且仍在寻找自己的定位。文本摘要是少数几个正在测试 GAN 应用的任务之一。建议的方法提出了一种 GAN 架构,其中生成器网络学习从判别器网络合成摘要文本。模型可以理解摘要中的许多潜在概念。此任务的数据集可在 Sent-Summary 上获得。


下一主题机器学习书籍