算术、几何和调和平均值2025年2月3日 | 阅读 6 分钟 引言算术平均数的确定是机器学习中一个相当常见的需求,尤其对于变量或数字列表。此操作每天都在执行,无论是用于汇总数据还是作为更全面的操作的辅助步骤,例如,在拟合模型时。 平均值,也称为均值,被定义为概率分布的算术平均值或最可能值。均值可以基于要分析的数据性质以多种方法计算。 由于使用了不恰当的均值来得到给定数据集想要找到的结果,这会造成问题。在评估模型性能指标时,可以看到更复杂的均值计算,例如 G-mean 或 F-measure。 什么是平均值?中心趋势是提供平均值度量的数字,通过该数字可以轻松比较给定数字列表中的值。技术上讲,它是最有可能出现在定义变量可以假定的所有可能值的函数中的值。 在为给定的数据样本寻找中心趋势度量时,可以使用不同的技术。数据样本有几种中心趋势度量,包括由值计算出的均值,表示数据分布中最频繁值的众数,以及当数据样本中的所有值都排序时位于中心的值的中位数。“平均值”一词经常与均值互换使用。 平均值的常用术语是均值,并且它们经常在相似的上下文中被使用。 均值与中位数和众数不同,因为它可以通过对数字进行平均来计算。因此,可以看出,根据数据的类型,存在不同种类的平均值或均值。 最常用的三种均值是算术平均数、几何平均数和调和平均数。虽然还有其他方法,并且确实有许多测量中心趋势的方法,但这三种均值通常被称为毕达哥拉斯均值。 算术平均数算术平均数是通过将所有值相加,然后除以值的总数 N 来计算的。 ![]() 确定算术平均数的一个更简单的方法是,将所有值相加,然后乘以值的倒数(1/N)。例如 ![]() 当数据样本中的所有值都属于同一度量单位时,可以使用算术平均数,例如身高、美元金额、英里等。 然而,算术平均数对样本略微敏感,特别是当它包含一个与其他值差异很大的元素时,或者当数据分布不是高斯分布或具有多个众数时。 它在机器学习中用于汇总变量,例如最可能值,尤其是在它具有高斯分布或类似高斯曲线的分布的情况下。 要计算算术平均数,可以使用 Numpy 的 mean() 函数。 下面的代数示例描述了求 10 个数字列表的算术平均数的通用过程。 代码 输出 Arithmetic Mean: 48.400 几何平均数几何平均数最好解释为所有数字乘积的 N 次方根,其中 N 等于被包含的数字的总值。 ![]() 例如,如果数据只有两个值,例如 S 和 T,那么几何平均数等于 sqrt(ST)。如果给出了一个实体的三个值,则应用立方根,依此类推。 当数据涉及不同度量单位的值时,可以使用几何平均数,例如身高、美元、英里等。 几何平均数仅适用于正整数。 几何平均数在机器学习中的一个应用是 G-Mean 指标。这种模型评估度量是通过计算灵敏度和特异性值的几何平均数获得的。SciPy 的 gmean() 函数可用于计算此几何平均数。 下面的示例显示了如何使用 10 个数字列表的几何平均数的公式。 代码 输出 Geometric Mean: 38.531 调和平均数此处是调和平均数的方程。它表示为值的数量 N 除以值的倒数之和(每个值的 1 除以)。 ![]() 如果只有两个值,x1 和 x2,调和平均数的一个简化计算是 ![]() 当数据包含速率时,调和平均数最适合使用。速率是两个可以不同类型的度量的关系,例如速度、加速度、频率等。 在机器学习中,当评估模型的预测结果时会使用速率,例如预测中的真阳性率或假阳性率。 与算术平均数一样,应注意调和平均数不允许负值或零值的速率;速率必须仅为正值。 调和平均数在机器学习技术中最典型的用途之一是计算 F-Measure - 一个模型性能评估标准,它是精度和召回率参数的调和平均数。 要查找调和平均数,可以使用 Python 的 SciPy 模块的 hmean() 函数。 下面将使用一个包含九个数字的列表作为示例来说明调和平均数的计算。 代码 输出 Harmonic Mean: 29.472 我如何选择正确的均值?让我们简要回顾三种确定变量或数据集的平均值或均值的方法。 均值由平均值表示,其中最常见的平均值之一是算术平均值;但是,这可能并不总是有利的。每种均值都适用于不同类型的数据 算术平均数:当分子和/或分母仅包含一个度量单位时适用。 几何平均数:当要相加的值中的一个与另一个值具有不同的单位时使用。 调和平均数:当值是公司各种资产的速率时使用。存在一些限制,如下文所述:如果数据包含负值、零值,那么不能使用几何平均数和调和平均数。 结论在给定数据集中需要使用的确切均值应根据其类型和情况确定。算术平均数如果数据值在相同的尺度上是有利的,因此,它是最广泛使用的均值。几何平均数适用于值在不同尺度上的数据,并经常应用于 G-Mean 等机器学习模型的生产中。调和平均数应用于速率以及需要计算模型效率的 F-measure 的情况。 然而,如果输入数据中存在负值或零值,则无法计算几何平均数或调和平均数。了解这些差异对于避免在收集数据和获得有意义的结果时出错,尤其是在评估机器学习程序和算法的指标方面,也很重要。 下一个主题逻辑回归的假设 |
我们请求您订阅我们的新闻通讯以获取最新更新。