监督机器学习

2025年9月9日 | 阅读8分钟

监督学习是机器学习的基础，模型在标注数据上进行训练，即每输入数据都知道其正确的输出。模型在训练过程中进行预测，通过将预测结果与标签的真实值进行比较来计算误差，并通过最小化误差来调整其内部参数。

这个过程在多次迭代后会变得越来越准确，并能更好地泛化到新数据。最终目标是对新输入做出可靠的预测。

例如，一个用于识别手写数字的神经网络能够识别和辨认以前从未见过的数字。监督学习可能涉及分类（将输入分类）或回归（推断一个连续的（或名义的、序数的、离散的）值）。

它是人工智能或数据挖掘中的一项重要工具。基本概念之一是“从示例中学习”，例如，通过向模型展示标记好的猫狗照片来训练它，以便稍后能够正确地对新照片进行分类。

监督机器学习的工作原理

监督学习算法包括输入特征和输出标签。通常，它遵循以下过程：

训练数据

首先，向模型呈现一个包含输入（特征）及其正确输出（标签或目标值）的数据集。

学习过程

算法通过改变其参数来学习如何将输入与输出关联起来。目标是缩小模型预测标签与实际标签之间的差距。

测试

训练后，模型用于分析不同的数据以确定其准确性和性能。通过参数调整、交叉验证等方法来最小化偏差和方差，以提高结果。

更简单地说，监督机器学习是在标记数据上进行训练（识别模式），然后利用这些信息对以前未见过的数据进行自信的预测。

机器学习中监督学习的类型

监督学习可用于两大类问题：

1. 分类

监督机器学习主要关注分类，算法使用标记数据进行训练，以预测未来的结果或事件。例如，银行可以根据客户信息（如信用历史、贷款和投资详情）来预测客户是否会违约。

输入的属性（例如，信用历史、贷款、投资）由特征表示。
目标是输出标签（例如，客户是否违约，通常标记为1/0 是/否或 True/False）。

分类涉及分类结果。

如果只有两种结果，如“违约/不违约”或“是/否”，则称为二元分类。

如果结果超过两种，则称为多类分类。

有一些著名的分类算法，例如：

逻辑回归
决策树
K-近邻算法 (KNN)
随机森林
神经网络

2. 回归

回归是一种监督机器学习类型，其中算法在标记数据上进行训练，以预测实际值，例如销售额、工资、温度或房价。例如，假设有一个包含房屋面积、卧室数量、浴室数量、社区以及房屋价格等属性的房屋数据集。在该数据上训练回归算法，可以使算法学习这些特征与价格之间的相关性，从而预测新房屋的价格。

许多机器学习算法可用于回归任务：

线性回归
决策树回归器
K-近邻 (KNN) 回归器
随机森林回归器
神经网络

监督学习示例

以下是监督机器学习在实际应用中的一些用途：

银行业

可以通过使用先前交易数据训练模型（并将交易标记为假或欺诈）来检测银行欺诈。

帕金森病聚集

在监督学习中，医疗记录用于预测帕金森病等进行性神经系统疾病的可能性。

客户流失预测

该技术将通过算法发现的先前客户行为模式来帮助企业预测客户流失。

癌细胞聚类

聚类允许将细胞分类为恶性或良性，以及其他特征，这提高了医疗诊断的速度和准确性。

股票价格预测

股票价格预测算法使用股票价格的历史数据来预测信号，这些信号决定了投资特定股票是否值得。

监督机器学习算法

监督学习有多种算法类型，具有不同的特性和用途。以下是一些最常用的：

线性回归

一种回归算法，用于估计值，假设一个连续的值。它是最流行且易于学习的监督学习算法之一。

逻辑回归

这是一种分类算法，可用于预测二元分类，例如，是/否或真/假。

决策树

模型以树形结构表示，其中内部节点表示选择，叶节点表示可能的结果。

随机森林

随机森林由独立的决策树组成，这些决策树在不同的数据子集上进行训练。所有树的窗口化输出组合起来做出最终预测。

支持向量机 (SVM)

构建一个将数据分离成类别的超平面，边界是支持向量。

K-近邻 (KNN)

结果的预测取决于 K 个最近的训练样本的数量，通过多数投票（分类）或平均（回归）来决定。

梯度提升

按顺序构建模型，后一个模型纠正前一个模型引入的错误。

朴素贝叶斯

它源自贝叶斯定理，具有使其在文本分类和其他条件下类别标签已知时特征条件独立的任务中有效且高效的特性。

训练监督学习模型的步骤

监督学习主要旨在构建能够泛化，即外推到未见数据的模型。此类模型的训练包含多个步骤，所有步骤都旨在确保模型能够根据标记数据做出准确的观察。

第一步：数据收集和预处理

获取包含输入特征和目标输出的标记数据集。对其进行预处理，以清理数据，处理缺失值，并缩放特征以保证质量。

第二步：数据划分

将数据划分为训练数据（例如 80%）和测试数据（例如 20%）。

第三步：选择模型

选择适合任务的算法，包括回归或分类。

第四步：模型训练

输入训练数据，使模型通过调整内部参数来学习其中的关系。

第五步：模型评估

通过适当的评估指标在新的数据上确定模型的性能。

第六步：超参数调整

通过网格搜索或交叉验证找到参数的最佳值，例如学习率。

第七步：最终模型选择

使用最佳设置进行训练并验证性能。

第八步：部署

部署经过验证的模型，以通过真实世界的数据生成预测。

监督机器学习示例

# create a fake binary classification dataset with 1000 rows and 10 features.

from sklearn.datasets import make_classification
X, y = make_classification(n_samples = 1000, n_features = 10, n_classes = 2)

X.shape, y.shape
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()

lr.fit(X_train, y_train)

y_pred = lr.predict(X_test)

y_pred

from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_pred)

输出

X.shape, y.shape
# (1000, 10), (1000,)

y_pred
# Array of 0s and 1s (length 250)

accuracy_score(y_test, y_pred)
# ~0.80 to 0.90 (will vary due to randomness)

监督学习的优缺点

监督学习的优势

监督学习具有优势，因为它能够精确地发现模式并协助在各种应用中做出数据驱动的决策。主要优点如下：

准确的预测

监督学习模型在识别数据中的模式和连续性方面非常有效，这一特性使其能够提供准确可靠的估计。

有标签数据学习

由于输入数据附带正确的输出标签，模型可以直接学习输入和输出之间的关系，从而提高其预测能力。

多任务应用

监督学习涵盖了分类（预测类别）和回归（预测连续值）两种用例，因此具有广泛的应用灵活性。

广泛应用

它适用于图像识别、语音识别、自然语言处理、欺诈检测和医学诊断等高级领域。

结构化的评估指标

准确率、精确率、召回率和 F1 分数等性能指标可用于清晰地衡量模型的性能和改进。

复杂但有效的模型

随机森林、SVM 和神经网络算法允许创建能够处理大型多维数据的复杂模型。

通过高质量数据能得到更好的结果

标记数据越少偏见，越准确，模型对新数据和未见过案例的泛化能力就越强。

监督学习的缺点

尽管其优点相当显著，但监督学习并非没有缺点：

过拟合风险

模型可能过度拟合训练数据，导致信号/噪声比降低，模型泛化能力丧失。

需要严格的特征工程

确定、选择和转换最适用的特征可能是一个非常重要的步骤；这可能非常耗时，有时需要广泛的领域知识。

预测中的偏差

如果训练数据存在偏差或不平衡，模型会吸收这些偏差并进一步固化它们。这将导致模型做出不公平或错误的预测。

需要标记数据

监督学习需要大量高质量的标记数据，收集这些数据可能成本高昂且耗时，有时甚至不切实际。

结论

监督学习是机器学习中最重要的领域之一，它涉及使用训练中的标记示例进行学习。通过训练监督算法，模型被教会识别模式并预测结果，模型的关键优势在于其对训练数据进行泛化并推断到未见过数据的能力。

这使得监督学习在进行图像识别、欺诈检测和金融预测时具有极高的价值。了解不同监督学习算法及其工作原理对于识别适合解决特定问题的算法至关重要。随着技术的进步，监督学习还将进一步推动人工智能和智能决策系统的发展。

下一主题无监督机器学习

监督机器学习

监督机器学习的工作原理