数据科学的基础统计概念

2025年1月7日 | 阅读 6 分钟

将统计数据应用于数据,就是进行各种数学运算,以获得有价值的信息,如百分比、概率、利润、发现模式、损失、准确性等,这间接或直接意味着数据科学。

Basic Statistics Concepts for Data Science

要成为一名优秀的数据科学家,必须了解所有适用于数据的统计主题。因此,为了了解其中一些主题,让我们在本文中探讨不同的统计概念。

  1. 集中趋势
  2. 概率
  3. 回归
  4. 变化
  5. 标准偏差
  6. 相关性
  7. 降维

集中趋势

第一个也是最重要的概念是集中趋势,我们从小就知道,但复习并非犯罪。

集中趋势有三种度量:平均值、中位数和众数

平均数

平均值是数据的平均数,即数据的总和除以该数据中值的总数。

公式

平均值计算公式

数据集中数据值的总和 / 数据集中值的总数

中位数

中位数通常被解释为数据中居中的值。

公式

对于偶数个数据集

中位数 = ((n/2) + (n/2+1)) / 2

对于奇数个数据集

中位数 = (n+1) / 2

众数

众数是数据中最常出现的值。

公式

对于分组数据

众数 = L + (f1 - f0 / 2f1 - f0 - f2 ) h

对于未分组数据,我们将数据按任意顺序(如升序或降序)排列,然后简单找出出现次数最多的值,即众数值。

概率

下一个概念是概率,它在日常活动中很有用,如股票、价格预测、根据之前比赛命中六分等。这个重要的概念从我们上学以来就一直在实践,因为它在我们的课程中。

概率定义为事件发生的可能性。可能性表示为介于 0 到 1 之间的值。

概率概念在预测遗传和非遗传性疾病(如癌症、心脏病和肺结核)方面广泛应用于机器学习、深度学习和神经网络。

公式

求概率的通用公式是

P = 有利结果数 / 总结果数。

概率主要有三种类型

  • 理论概率
  • 实验概率
  • 公理概率

理论概率

理论概率意味着事件发生的概率基于其可能发生的几率。例如,如果掷骰子,得到 2 的概率是 1/6。这意味着我们知道至少发生一次的几率。

实验概率

实验概率基于实验观察。实验概率通过将可能的结果除以总试验次数来计算。例如,如果你掷硬币 20 次,得到正面 7 次,那么得到正面的实验概率是 7/20。

公理概率

条件概率是在给定另一个事件或结果已发生的情况下,衡量某个事件或结果发生可能性的度量。

你可以记住的常用公式

回归

回归是数据科学中一个流行且热门的概念。它用于查找因变量和自变量之间的关系。

它很可能用于根据变量之间发现的关系来预测未来。我们使用回归的一些例子包括预测股票、金融和价格,也用于了解投资地点。

常用的回归有

  • 线性回归。
  • 逻辑回归。
  • 多项式回归。

线性回归

线性回归是简单的回归,其中预测变量与因变量线性相关。

公式

y = mx + c + e

其中 m 是线的斜率,c 是截距,e 表示模型中的误差。

逻辑回归

逻辑回归是一种回归分析技术,当因变量是离散的时使用。例如,当目标变量只有两个值时,如 0 或 1,真或假等。在这种情况下,目标变量与自变量之间的关系由 sigmoid 曲线表示。

公式

f(x) = 1 / 1 + e-x

多项式回归

多项式回归是一种线性回归,它将自变量 x 和因变量 y 之间的关系建模为 n 次多项式。

标准差

让我们用更短的句子来理解什么是标准差。标准差衡量一组数据值与平均值的分散程度,简单地说,它意味着一组数据点偏离平均值(均值)的程度。

数据科学中的标准差对于分析数据值在数据集中的分布情况非常有帮助。如果标准差值低,则表示数据集中的值足够接近平均值,反之亦然,对于标准差值高的情况。

如果我们遇到特定情况,它有助于识别和评估风险、检测异常、理解趋势、评估绩效、衡量预测的准确性等。

公式

标准差计算公式

N 表示数据集中数据点的总数。

xi 表示数据集中的每个数据点。

x̅ 表示数据集的平均值(均值)。

变化

方差衡量数据点与平均值的差异程度。要查找方差,请计算每个数据点与平均值之间的差值,然后平方并取平均值。

为什么我们将方差视为数据科学中的重要概念?

为了回答上述问题,让我们看看为什么它很重要

方差帮助我们了解数据是否用于训练和测试,以及数据是否存在过拟合或欠拟合。它通常有助于了解数据质量。

公式

方差计算公式

Basic Statistics Concepts for Data Science

其中

N 表示数据集中数据点的数量

xi 表示数据集中的每个数据点

x̅ 表示数据集的平均值(均值)

采样

抽样是数据科学中的重要概念之一,因为它都与数据有关。我们有时会从数据集中选择特定的数据元素。要从数据集中选择数据元素,我们需要抽样方法。

抽样定义为从大型数据集中选择数据元素的子集,以便对子集数据而不是大型数据集执行操作,以探索趋势、预测某些内容或识别整个数据集中的模式。

这是方法列表

  • 随机抽样
  • 整群抽样
  • 便利抽样
  • 分层抽样
  • 系统抽样
  • 配额抽样

随机抽样

随机抽样从数据集中随机选择数据元素;每个元素在此方法中都有平等的选择机会。

整群抽样

当没有时间选择单个元素时,此抽样方法很有用。此方法将数据集划分为集群并随机选择任何集群。

便利抽样

该方法简单地选择现有或可访问的数据。

分层抽样

最初,程序员根据所需的因素将数据集划分为子组,然后分层抽样方法从每个子组中选择随机数据样本。

系统抽样

此方法是关于以特定间隔选择数据样本。

例如,从起点每第 10 个位置选择样本数据。

配额抽样

配额抽样是一种通过从各种组或子组中选择预定义数量的个体来保证代表性样本的技术。

相关性

相关性或依赖性的统计概念衡量两个变量之间的关系。它表明两个变量之间的关系强度以及它们之间线性依赖的程度。

常用的相关方法是 Pearson 相关系数 (r),其范围从 -1 到 1

r=1 表示变量之间的关系完全相互依赖,这意味着如果一个变量增加,另一个也增加。

r=-1 表示变量之间的关系负相关,这意味着如果一个变量增加,另一个减少。

r=0 表示变量之间没有线性关系。

公式

查找相关性的公式

Basic Statistics Concepts for Data Science
  • XiYi 是变量 X 和 Y 的单个数据点,
  • x̅ 和 y̅ 分别是变量 X 和 Y 的平均值。

降维

降维是减少数据特征的过程,以减小其大小,同时保留重要因素以对数据集执行训练。

降维主要用于机器学习和深度学习,因为访问数据集中更多的特征会导致性能下降,因为它需要更多的时间和空间来有效处理,并使问题解决更具挑战性。

结论

总之,要开始数据科学之旅,您可以从执行数据操作所需的基本统计概念入手。我希望本文能帮助您学习所有基本主题。


下一个主题什么是数据枢纽