传统特征工程模型2024年8月28日 | 阅读 12 分钟 引言将未处理的数据转换为适合机器学习算法的格式的过程称为特征工程。提高模型性能需要选择、生成和修改特征。机器学习模型可以使用可衡量的特征,即数据中的质量或属性作为输入。通过识别和消除噪声或不必要的数据,特征工程旨在提高模型的预测能力。 简单来说,特征工程就像是在准备一道菜时组装食材。数据科学家精心选择和开发特征,就像厨师选择和准备食材来制作一道好菜一样,以创建一个高效的机器学习模型。 特征工程在机器学习中的重要性
传统特征工程模型概述传统的特征工程模型提供了一系列广泛的方法,用于在将数据提供给机器学习算法之前进行准备和修改。
传统特征工程中的常用技术1. 独热编码 (One-Hot Encoding)独热编码是一种表示分类数据的方法,使用二进制向量。此过程将每个类别转换为一个二进制向量,其长度等于特征中不同类别的数量。每个向量除了对应类别的索引处为 1 外,其余位置均为 0。这确保了模型不会假定类别之间存在序数关系。 用例和示例
优点
局限性
2. 标签编码 (Label Encoding)标签编码是将分类数据转换为数值标签的一种技术。每个类别被分配一个介于 0 和 n-1 之间的唯一整数,其中 n 是特征中不同类别的总数。通过这种转换,算法现在可以理解分类数据为数值。 用例和示例
优点
局限性
3. 序数编码 (Ordinal Encoding)在考虑类别之间的序数关系时,序数编码与标签编码类似。数值标签根据其等级或顺序应用于类别。这种编码保留了分类特征中包含的序数数据。 用例和示例
优点
局限性
4. 计数编码 (Count Encoding)计数编码用数据集中每个类别的实例数来替换原始值。在处理高基数分类变量时,这种编码可能很有用,因为它捕捉了每个类别的频率。 用例和示例
优点
局限性
5. 目标编码 (Target Encoding)目标编码(有时也称为均值编码)用目标变量的均值来替换每个类别中的原始值。这种编码,对于分类问题尤其有用,它利用目标变量中的信息来编码类别特征。 用例和示例
优点
局限性
特征缩放技术1. 标准化 (Standardization)标准化(有时也称为 Z 分数归一化)将数据转换,使其均值为 0,标准差为 1。它通过从每个数据点减去特征均值,然后除以标准差来实现。结果分布的标准差为一,均值为零。 用例和示例 假定数据呈正态分布的算法,如支持向量机(SVM)、逻辑回归和线性回归,经常使用标准化。例如,标准化可以提高线性回归中系数指示每个因素影响大小的准确性。 假设我们有一个包含教育水平、收入和年龄等属性的数据集。例如,通过标准化这些特征,我们可以更成功地比较它们对预测房价这一目标变量的影响。 优点
局限性
2. 最小-最大缩放 (Min-Max Scaling)最小-最大缩放(通常也称为归一化)将数据缩放到一个设定的范围,通常在 0 到 1 之间。它通过用最大值和最小值之差除以减去特征的最小值来实现。 用例和示例 需要特征具有相似尺度的算法,如 K 近邻 (KNN) 和神经网络,经常使用最小-最大缩放。例如,在图像处理任务中,像素值通常被归一化到 0 到 1 之间的范围。 优点
局限性
3. 鲁棒缩放也称为鲁棒标准化,鲁棒缩放涉及使用对异常值效应不太敏感的鲁棒估计器来缩放数据。在减去中位数后,使用四分位距(IQR)而不是标准差进行缩放。 用例和示例 当处理包含偏斜分布或异常值的数据集时,鲁棒缩放非常有利。由于对特征尺度的敏感度降低,决策树和聚类等算法经常使用它。 假设我们有一个家庭收入数据集,其中少数人的收入非常高。通过使用鲁棒缩放,我们可以减轻这些异常值对缩放过程的影响。 优点
局限性
特征转换技术1. 多项式特征 (Polynomial Features)通过将现有特征的幂次提高到 2 来创建新特征,称为多项式特征。例如,给定一个特征 (x),生成二阶多项式特征将涉及在原始特征 (x) 的基础上生成 (x^2)。因此,模型可以表示特征之间的非线性交互。 用例和示例
优点
局限性
2. 对数转换 (Log Transformation)对数转换是指对数值特征取对数。当数据存在偏斜或变量之间存在乘法关系而非加法关系时,它非常有帮助。对数转换可以稳定方差并改善数据的高斯性。 用例和示例
优点
局限性
3. Box-Cox 转换 (Box-Cox Transformation)Box-Cox 转换是幂次转换家族的一部分,包括平方根和对数转换。使用的转换类型由参数化的 lambda 值决定。 用例和示例
优点
局限性
特征选择技术1. 过滤方法 (Filter Methods)过滤方法是特征选择策略,它们在不使用机器学习算法的情况下评估特征的内在属性。通常,这些技术使用启发式算法或统计度量来对属性进行排名或评分。卡方检验、互信息和相关系数是常见的过滤技术的例子。 用例和示例
优点
局限性
2. 包裹方法 (Wrapper Methods)包裹方法通过使用在多个特征子集上训练的机器学习算法来选择特征子集,通过评估它们的性能。这些方法通常使用前向选择、后向消除或递归特征消除等策略,涉及迭代不同的特征组合,并选择最大化预定性能参数的子集。 用例和示例
优点
局限性
3. 嵌入方法 (Embedded Methods)嵌入式技术在模型训练过程中执行特征选择。通过将特征选择包含在模型创建步骤中,这些策略使训练能够确定哪些特征最重要。Lasso(L1 正则化)等正则化方法和随机森林等基于树的算法是常见示例。 用例和示例
优点
局限性
特征工程的评估指标1. 准确性在评估特征工程中模型的性能时,准确率是最容易使用的度量之一。它计算所有实例中正确分类实例的百分比。特征工程中的准确率衡量了所设计的特征在多大程度上提高了模型的整体预测能力。 2. 精确率和召回率在模型的所有正面预测中,精确率显示了准确的正面预测的百分比。它侧重于预测正面事件的显着性。 相反,召回率量化了数据集中与真阳性预测相对应的真实阳性案例的百分比。它突出了模型检测所有阳性案例的能力,即使存在假阳性。 3. F1 分数精确率和召回率的调和平均数,F1 分数在两者之间取得了平衡。由于它同时考虑了假阳性和假阴性,因此此统计量有助于评估模型的整体性能。 F1 分数有助于理解特征工程中召回率和准确率之间的权衡。当类别分布不均或需要最小化假阳性和假阴性时,它特别有用。 4. ROC-AUC 分数AUC 和接收者操作特征 (ROC) 曲线用于在不同阈值下评估二元分类算法的性能。 ROC 曲线显示了在不同阈值水平下的真阳性率 (TPR) 与假阳性率 (FPR) 的关系,以说明灵敏度和特异性之间的权衡。 结论总而言之,传统的特征工程模型涵盖了对提高机器学习模型准确性至关重要的各种方法。这些模型通过编码、缩放、转换和选择等技术来最大化特征表示。严格的评估标准保证了它们的有效性,这有助于创建更复杂、更成功的预测模型。 下一主题机器学习中的概念漂移和模型衰减 |
我们请求您订阅我们的新闻通讯以获取最新更新。