Sklearn 中的 StandardScaler2024 年 8 月 29 日 | 4 分钟阅读 何时以及如何使用 StandardScaler?当给定数据集的特征在其范围内波动很大或以各种测量单位记录时,StandardScaler 就派上用场了。 通过 StandardScaler 将均值减小到 0 后,数据会被缩放到方差为 1。但是,在确定数据的经验均值和标准差时,数据中的异常值会产生重大影响,从而减小特征值的频谱。 许多机器学习算法可能会由于起始特征的这些变化而遇到问题。例如,对于计算距离的算法,如果数据集的任何特征具有较大或完全不同范围的值,那么该特定数据集特征将控制距离计算。 sklearn 的 StandardScaler 函数基于以下理论:数据集中值在不同范围内的变量对模型的拟合参数和训练函数贡献不均,甚至可能导致该模型预测的偏差。 因此,在将特征包含在机器学习模型中之前,我们必须对数据进行标准化(µ = 0,σ = 1)。在特征工程中,通常采用标准化来解决这个潜在问题。 使用 Sklearn 进行标准化通过从特征中去除均值并将其缩放到单位方差,使用此函数对特征进行标准化。 计算特征标准分数的公式为 z = (x - u) / s,其中 u 是训练特征的均值(如果 with_mean = False 则为零),s 是样本的标准差(如果 with_std = False 则为一)。 通过计算训练集特征的相关统计量,对每个特征独立应用中心化和缩放。然后,为了在稍后使用 transform() 处理样本,fit() 方法会存储均值和标准差。 参数
属性
StandardScaler 类的方法
StandardScaler 示例首先,我们将导入所需的库。要使用 StandardScaler 函数,我们需要导入 Sklearn 库。 然后我们将加载 iris 数据集。我们可以从 sklearn.datasets 库导入 IRIS 数据集。 我们将创建一个 StandardScaler 类的对象。 分离自变量和目标变量。 我们将使用 fit transform() 方法将转换应用于数据集。 语法 我们首先按照上述语法构建 StandardScaler() 方法的实例。此外,我们通过使用 fit_transform() 和提供的对象来标准化数据。 代码 输出 [[5.1 3.5 1.4 0.2] [4.9 3. 1.4 0.2] [4.7 3.2 1.3 0.2]] [[-0.90068117 1.01900435 -1.34022653 -1.3154443 ] [-1.14301691 -0.13197948 -1.34022653 -1.3154443 ] [-1.38535265 0.32841405 -1.39706395 -1.3154443 ]] [5.84333333 3.05733333 3.758 1.19933333] 下一主题Python 中的列表过滤 |
Python 自动化测试可以使用 Selenium Python 模块完成。基于 Python 的 Selenium WebDriver 绑定为创建功能和验收测试提供了简单的 API。访问使用 get 方法导航链接 - Selenium Python 了解如何使用测试工具打开网站……
阅读 2 分钟
几个世纪以来,人类一直对候鸟迁徙这一迷人现象着迷。鸟类能够远距离导航并返回繁殖地,这确实令人惊叹。本文将探讨鸟类迁徙的复杂性、追踪技术以及研究的重要性...
5 分钟阅读
本教程将教您如何使用Python、PyQt和SQLite创建通讯录应用程序。这个项目将是学习不同编码技能的有效方式,因为它要求您应用各种技术并鼓励您在开发过程中研究相关主题...
阅读 23 分钟
Python 的条件语句根据特定的布尔条件计算为真或假来执行各种计算或操作。在 Python 中,IF 语句处理条件语句。在本教程中,我们将学习如何使用 Python 中的条件语句。什么是 Python If 语句?要创建...
阅读 3 分钟
学习机器学习和人工智能的课题并不容易。在本教程中,我们将能够获得许多关于用 Python 编写的人工智能项目的想法。为什么人工智能需求量大?人工智能开始...
5 分钟阅读
Flask 是一个流行的 Web 框架,用于构建基于 Python 的 Web 应用程序。它允许开发人员通过提供用于处理路由、渲染模板、管理会话以及处理请求和响应的工具来轻松创建 Web 应用程序。Web 应用程序的一个重要方面是处理用户输入。用户可能需要...
7 分钟阅读
我们可以更新 Google 日历上所有人的生日并打开通知。但是,如果有一个应用程序可以在我们无需干预的情况下发送生日祝福呢?这完全是关于自动化,让我们使用 Python 广泛的库和选项…
阅读 4 分钟
PYTHON 网络项目 网络项目是提升学生和专业人士在此竞争环境中的形象的绝佳途径。我们的管理层以高度的动力启动,旨在以最专业的方式帮助学生完成他们的学业任务。我们专注于超现代...
阅读 4 分钟
在颜色排序问题中,我们得到一个包含三个数字的数组。假设这些数字是 0、1 和 2。我们的任务是编写一个程序来对这些数字进行排序。排序后,数组将首先包含所有的 0,然后是 1...
阅读9分钟
什么是数据框?如果数据以行和列或二维数据的形式存储,那么在 Pandas 中通常称为数据框。在 Pandas 中,我们可以借助 lambda 函数将任何函数添加到任何行或列。语法:lambda_Argument :...
阅读 3 分钟
我们请求您订阅我们的新闻通讯以获取最新更新。
我们提供所有技术(如 Java 教程、Android、Java 框架)的教程和面试问题
G-13, 2nd Floor, Sec-3, Noida, UP, 201301, India