什么是 P 值2025 年 6 月 4 日 | 阅读 4 分钟 在统计假设检验中,P值,或有时称为概率值,在假设零假设(H0)为真的情况下,用于观察检验结果或更极端的结果。在数据科学中,有很多概念是从不同学科借鉴而来的,P值就是其中之一。P值的概念源于统计学,并广泛应用于机器学习和数据科学。
在统计学中,我们的主要目标是确定我们结果的统计显著性,而这种统计显著性是基于以下三个概念的:
让我们来理解其中的每一个。 假设检验假设检验可以在两个术语之间定义:零假设和备择假设。它用于使用样本数据检查零假设或所做声明的有效性。在这里,零假设(H0)被定义为两个变量之间没有统计学意义的假设,而备择假设被定义为两个变量之间具有统计学意义的假设。两个变量之间没有显著关系意味着一个变量不会影响另一个变量。因此,零假设表明您要证明的实际上并没有发生。如果自变量不影响因变量,则表示备择假设的条件。 简单来说,我们可以说在假设检验中,首先,我们提出一个被假设为零假设的声明,并使用样本数据。如果这个声明被发现无效,那么就选择备择假设。 使用P值来验证这个假设或声明,以查看它是否具有统计学意义,并使用证据。如果证据支持备择假设,则拒绝零假设。 假设检验步骤 以下是进行假设检验实验的步骤:
正态分布正态分布,也称为高斯分布,是概率分布函数。它围绕均值对称,并用于通过图表查看数据的分布。它表明靠近均值的数据比远离均值的数据更频繁地出现,并且它看起来像一个钟形曲线。正态分布的两个主要术语是均值(μ)和标准差(σ)。对于正态分布,均值为零,标准差为1。 在假设检验中,我们需要计算z分数。Z分数是一个数据点与均值之间的标准差数量。 ![]() 在这里,z分数告诉我们数据相对于平均人口的分布情况。 统计学显著性确定假设检验的统计学意义是计算P值的目标。为此,我们首先需要设定一个阈值,称为alpha。我们应该始终在实验之前设定alpha值,它被设定为0.05或0.01(取决于问题类型)。 如果观察到的P值低于alpha,则结果被认为是一个显著的结果。 P值中的错误P值定义了两种类型的错误;这些错误如下:
第一类错误它被定义为错误地拒绝零假设。对于这种错误,最大概率是alpha,并且它被预先设定。该错误不受数据集样本大小的影响。当我们增加测试或端点的数量时,第一类错误会增加。 第二类错误第二类错误被定义为错误地接受零假设。第二类错误的概率是beta,beta取决于样本大小和alpha值。beta不能被确定为真实总体效应的函数。beta值与样本大小成反比,这意味着随着样本大小的增加,beta会减小。 当增加测试或端点的数量时,beta值也会减小。 我们可以通过下表来理解假设检验与决策之间的关系。
P值的重要性P值的重要性可以从两个方面来理解:
下一主题单次学习机器学习 |
我们请求您订阅我们的新闻通讯以获取最新更新。