数据挖掘中的特征转换2025年3月17日 | 阅读 3 分钟 数据预处理是任何数据科学项目中许多关键步骤之一。众所周知,我们的现实生活数据通常非常杂乱无章,如果没有数据预处理。首先,我们必须预处理数据,然后将处理过的数据提供给我们的数据科学模型,以获得良好的性能。预处理的一部分是特征转换,我们将在本文中讨论。 无论我们使用什么模型,无论是分类任务还是回归任务,还是无监督学习模型,我们都应该始终使用特征转换技术。 什么是特征转换?特征转换是一种数学变换,我们在其中将数学公式应用于特定列(特征)并转换这些值,这对于我们的进一步分析很有用。这是一种可以提高模型性能的技术。它也被称为特征工程,它从现有特征中创建新特征,这可能有助于提高模型性能。 它指的是使用现有特征创建新特征的算法家族。这些新特征可能与原始特征没有相同的解释,但它们可能在不同空间中比在原始空间中具有更强的解释力。这也可以用于特征降维。它可以通过多种方式完成,通过原始特征的线性组合或使用非线性函数。它有助于机器学习算法更快地收敛。 我们为什么需要特征转换?像线性回归和逻辑回归一样,一些数据科学模型假设变量服从正态分布。更有可能的是,真实数据集中的变量将服从偏态分布。通过对这些偏态变量应用一些转换,我们可以将这种偏态分布映射到正态分布,以提高模型的性能。 众所周知,正态分布是统计学中一个非常重要的分布,它是许多统计学家解决统计学问题的关键。通常,自然界中的数据分布遵循正态分布,如年龄、收入、身高、体重等。但现实生活中的数据中的特征并不是正态分布的。然而,当我们不知道潜在的分布模式时,它是最好的近似值。 特征转换技术以下转换技术可以应用于数据集,例如 ![]() 1. 对数变换: 通常,这些转换使我们的数据接近正态分布,但不能完全遵守正态分布。此转换不适用于具有负值的那些特征。此转换主要应用于右偏数据。将数据从加性尺度转换为乘性尺度,即线性分布数据。 2. 倒数变换: 此变换未定义为零。它是一种具有激进效果的强大转换。此转换会反转具有相同符号的值的顺序,因此大值会变小,反之亦然。 3. 平方变换: 此转换主要应用于左偏数据。 4. 平方根变换: 此转换仅为正数定义。这可用于减少右偏数据的偏度。此转换比对数转换弱。 5. 自定义转换: 函数转换器将其 X(和可选的 y)参数转发给用户定义的函数或函数对象,并返回此函数的结果。如果将 lambda 用作函数,则生成的转换器将不可拾取。这对于无状态转换很有用,例如获取频率的对数、执行自定义缩放等。 6. 幂变换: 幂变换是一组参数化、单调变换,使数据更像高斯分布。通过最大似然估计来估计用于稳定方差和最小化偏度的最佳参数。这对于建模与非恒定方差或其他需要正态性的情况相关的问题很有用。目前,幂转换器支持 Box-Cox 转换和 Yeo-Johnson 转换。 Box-cox 要求输入数据严格为正(甚至零也不可接受),而 Yeo-Johnson 支持正负数据。 默认情况下,将零均值、单位方差归一化应用于转换后的数据。
下一篇主题视觉和音频数据挖掘 |
我们请求您订阅我们的新闻通讯以获取最新更新。