什么是 P 值

2025 年 6 月 4 日 | 阅读 4 分钟

在统计假设检验中，P值，或有时称为概率值，在假设零假设（H0）为真的情况下，用于观察检验结果或更极端的结果。在数据科学中，有很多概念是从不同学科借鉴而来的，P值就是其中之一。P值的概念源于统计学，并广泛应用于机器学习和数据科学。

P值也用作确定拒绝点的替代方法，以便提供最小的显著性水平，在此水平下，零假设最少被拒绝或被拒绝。
它表示介于0和1之间的显著性水平，P值越小，则有越强的证据拒绝零假设。 如果P值非常小，则意味着观察到的输出是可行的，但不符合零假设的条件（H₀）。
P值为0.05被称为显著性水平（α）。通常，它根据以下两个建议来考虑：
- 如果P值>0.05： 较大的P值表明需要接受零假设。
- 如果P值<0.05： 较小的P值表明需要拒绝零假设，并且结果被声明为统计学上显著。

在统计学中，我们的主要目标是确定我们结果的统计显著性，而这种统计显著性是基于以下三个概念的：

假设检验
正态分布
统计显著性

让我们来理解其中的每一个。

假设检验

假设检验可以在两个术语之间定义：零假设和备择假设。它用于使用样本数据检查零假设或所做声明的有效性。在这里，零假设（H₀）被定义为两个变量之间没有统计学意义的假设，而备择假设被定义为两个变量之间具有统计学意义的假设。两个变量之间没有显著关系意味着一个变量不会影响另一个变量。因此，零假设表明您要证明的实际上并没有发生。如果自变量不影响因变量，则表示备择假设的条件。

简单来说，我们可以说在假设检验中，首先，我们提出一个被假设为零假设的声明，并使用样本数据。如果这个声明被发现无效，那么就选择备择假设。 使用P值来验证这个假设或声明，以查看它是否具有统计学意义，并使用证据。如果证据支持备择假设，则拒绝零假设。

假设检验步骤

以下是进行假设检验实验的步骤：

为实验声明或陈述一个零假设。
陈述备择假设，它与零假设相反。
为实验设定要使用的alpha值。
使用正态分布确定z分数。
比较P值以验证统计学意义。

正态分布

正态分布，也称为高斯分布，是概率分布函数。它围绕均值对称，并用于通过图表查看数据的分布。它表明靠近均值的数据比远离均值的数据更频繁地出现，并且它看起来像一个钟形曲线。正态分布的两个主要术语是均值（μ）和标准差（σ）。对于正态分布，均值为零，标准差为1。

在假设检验中，我们需要计算z分数。Z分数是一个数据点与均值之间的标准差数量。

在这里，z分数告诉我们数据相对于平均人口的分布情况。

统计学显著性

确定假设检验的统计学意义是计算P值的目标。为此，我们首先需要设定一个阈值，称为alpha。我们应该始终在实验之前设定alpha值，它被设定为0.05或0.01（取决于问题类型）。

如果观察到的P值低于alpha，则结果被认为是一个显著的结果。

P值中的错误

P值定义了两种类型的错误；这些错误如下：

第一类错误
第二类错误

第一类错误

它被定义为错误地拒绝零假设。对于这种错误，最大概率是alpha，并且它被预先设定。该错误不受数据集样本大小的影响。当我们增加测试或端点的数量时，第一类错误会增加。

第二类错误

第二类错误被定义为错误地接受零假设。第二类错误的概率是beta，beta取决于样本大小和alpha值。beta不能被确定为真实总体效应的函数。beta值与样本大小成反比，这意味着随着样本大小的增加，beta会减小。

当增加测试或端点的数量时，beta值也会减小。

我们可以通过下表来理解假设检验与决策之间的关系。

	决定
真实情况	接受H₀	拒绝H₀
H₀为真	正确决策	第一类错误
H₀为假	第二类错误	正确决策

P值的重要性

P值的重要性可以从两个方面来理解：

统计学方面：在统计学中，P值的概念对于假设检验和回归等统计方法很重要。
数据科学方面：在数据科学中，它也是一个重要的方面。在这里，较小的P值表明预测变量和响应之间存在关联。在数据科学中处理机器学习问题时，建议谨慎对待P值。

下一主题单次学习机器学习

什么是 P 值

假设检验