半监督学习简介

2025 年 6 月 8 日 | 阅读 4 分钟

半监督学习是一种机器学习算法,它介于监督学习和无监督学习算法之间。它在训练期间同时使用标记和未标记的数据集。

Introduction to Semi-Supervised Learning

在理解半监督学习之前,您应该了解机器学习算法的主要类别。机器学习由三个主要类别组成:监督学习、无监督学习和强化学习。进一步来说,监督学习和无监督学习之间的基本区别在于,监督学习数据集包含与每个元组关联的输出标签训练数据,而无监督数据集不包含这些半监督学习是一个重要类别,介于监督和无监督机器学习之间。尽管半监督学习是监督和无监督学习之间的折衷方案,并且处理包含少量标签的数据,但它主要包含未标记的数据。由于标签成本高昂,但在企业用途中,可能只有少量标签。

监督学习的基本缺点是它需要机器学习专家或数据科学家进行手动标记,并且处理成本也很高。进一步来说,无监督学习的应用范围也很有限。为了克服监督学习和无监督学习算法的这些缺点,引入了半监督学习的概念。在此算法中,训练数据是标记数据和未标记数据的组合。但是,标记数据量非常少,而未标记数据量很大。最初,使用无监督学习算法对相似数据进行聚类,然后帮助将未标记数据转换为标记数据。因此,获取标记数据的成本相对高于未标记数据。

我们可以通过一个例子来设想这些算法。监督学习就像学生在家和学校都由老师辅导。进一步来说,如果该学生在没有任何老师帮助的情况下自行分析同一概念,则属于无监督学习。在半监督学习中,学生在学校由老师指导下分析同一概念后,需要自己复习。

半监督学习遵循的假设

要使用未标记的数据集,对象之间必须存在关系。要理解这一点,半监督学习使用以下任何假设:

  • 连续性假设
    根据连续性假设,彼此靠近的对象倾向于属于同一组或具有相同的标签。监督学习也使用此假设,并且数据集由决策边界分隔。但在半监督学习中,决策边界在低密度边界中添加了平滑性假设。
  • 聚类假设 - 在此假设中,数据被划分为不同的离散聚类。进一步来说,同一聚类中的点共享输出标签。
  • 流形假设 - 此假设有助于使用距离和密度,并且这些数据位于比输入空间维度更少的流形上。
  • 维度数据是由自由度较低的过程创建的,并且可能难以直接建模。(如果此假设成立,则更为实用)。

半监督学习的工作原理

半监督学习使用伪标签来训练模型,其标记的训练数据比监督学习少。该过程可以结合各种神经网络模型和训练方式。半监督学习的整个工作原理在以下几点中进行了说明:

  • 首先,它以少量训练数据训练模型,这与监督学习模型类似。训练一直持续到模型给出准确的结果。
  • 算法在下一步中使用带有伪标签的未标记数据集,此时结果可能不准确。
  • 现在,将标记训练数据中的标签与伪标签数据链接在一起。
  • 标记训练数据和未标记训练数据中的输入数据也已链接。
  • 最后,再次像第一步一样,使用新的组合输入来训练模型。这将减少错误并提高模型的准确性。

半监督学习与强化学习的区别。

强化学习与半监督学习不同,因为它处理奖励和反馈。强化学习旨在通过试错来最大化奖励,而在半监督学习中,我们使用较少的标记数据集来训练模型。

半监督学习的实际应用 -

半监督学习模型在行业中的受欢迎程度日益提高。一些主要应用如下:

  • 语音分析 - 这是半监督学习应用中最经典的例子。由于标记音频数据是一项非常困难的任务,需要大量人力资源,因此可以通过在半监督学习模型中应用 SSL 来自然地解决此问题。
  • 网页内容分类 - 虽然对互联网上的每个页面进行标记非常关键且不可能,因为它需要大量人工干预。尽管如此,半监督学习算法可以缓解这个问题。
    此外,Google 还使用半监督学习算法为特定查询对网页进行排名。
  • 蛋白质序列分类 - DNA 链较长,需要积极的人工干预。因此,半监督模型在该领域的兴起是有据可查的。
  • 文本文档分类器 - 我们知道,要找到大量标记的文本数据是不切实际的,因此半监督学习是克服这一问题的理想模型。

下一个主题Adadelta-optimizer