直方图

2025年3月17日 | 阅读 7 分钟

具有连续类别的分组频率分布图用直方图表示。它是一种面积图,其特点是一系列矩形,其底边对应于类别边界之间的距离,其面积与相应类别的频率成比例。由于底边包含此类表示中类别边界之间的间隙,因此每个矩形都是相邻的。对于相似的类别,矩形高度与相应频率成反比;对于不相似的类别,矩形高度与频率密度成反比。

Histogram Graph

直方图的定义

直方图是一种图形,它使用矩形条来表示离散和连续数据的频率。矩形条表示落在某个类别区间内的数据点的数量。

类别区间(或称为“箱”),也称为直方图图表,在水平轴上不一定大小相同。收集数据后,创建直方图图的第一步是选择箱或类别区间。

然后,根据此区间对数据进行分组后,将确定落入这些组中的数据的频率。与条形图不同,矩形条没有间隔,因为类别区间通常跨越连续的值范围(即它们彼此相邻)。

直方图的特点

一种常见的图形技术,可以直观地显示数据分布,那就是直方图。以下是一些您需要注意的特征,以便识别直方图图形。

  • 标题

直方图的标题提供了有关图形表示的数据的信息。它提供了直方图显示中看到的数据摘要。

直方图图表的标题使第三方无需阅读图表本身即可轻松理解图形。上图中直方图图表的标题是“直方图”。

  • 坐标轴

垂直轴和水平轴构成了直方图图表的两个轴。垂直轴在直方图图形中表示频率,而水平轴显示类别区间或箱。类别区间的测量尺度显示在水平(x)轴上。通过这两个轴的标准标签及其含义,可以进一步阐明直方图图形标题的含义。

通常,一个标签会指示绘制在每个轴上的数据类型。在此实例中,水平标签为“Bin”(箱),垂直标签为“Frequency”(频率)。

  • 条形

直方图图表的条形是数据集合的主要视觉表示。直方图显示中的矩形条显示了落在每个类别区间内的值的出现次数。

条形的高度表示频率,而条形的宽度表示区间。具有恒定类别区间的直方图图形的宽度通常是恒定的。

Histogram Graph
  • 规模

图表中的数据集由一组称为直方图尺度的整数进行测量或量化。直方图图表中每个矩形条的宽度和高度在一定程度上由其决定。

它解释了水平和垂直轴上每个单位的组织结构。在示例中,水平轴上的 1 个单位相当于 20,而垂直轴上的 2 个单位相当于 2。

  • 折线图

直方图图表是一种将矩形条的顶部中点连接起来的图形。它们通常用于可视化连续变量的数据集,并被称为频率多边形。

换句话说,直方图是在直方图图表上绘制的折线图,其中矩形条的中心顶点代表数据点。

直方图图表上并非总是出现折线图。添加到直方图显示中时,它可以提供有关数据集的更多详细信息。

直方图类型

Histogram Graph

根据直方图图表上矩形条的分布方式,可以区分几种类型。具体来说,是整个图的结构和条形的形状。

以下示例突出了各种直方图图表分布

  • 正态分布

如果直方图图表呈钟形,则称该数据存在正态分布。顾名思义,即使直方图分布不是“正态”的,这种结构也是预期的典型结构。

在某些情况下,仅通过查看直方图图形即可推断其正态性。在可以将分布称为正态分布之前,进行统计计算非常重要。

  • 双峰分布

在一个数据集中组合两个不同的过程会产生双峰分布。在此分布中可以找到两个独立的正态分布图。

例如,从班级的两个班级(1A 班和 1B 班)收集的数据有可能是双峰的。它也称为双峰分布,看起来像骆驼的驼峰。

  • 偏态分布

偏态分布是一种非对称图形,其非中心峰值趋向于图的边缘(或远离尾部)。右偏和左偏分布属于偏态分布类别。

图表的尾部位于右偏分布的右侧。有时也称为正偏态分布。

另一方面,左偏分布(也称为负偏态分布)的尾部在左侧。

Histogram Graph
  • 随机分布

这种形式的分布产生多个峰,缺乏明确的模式。因此,它也称为多峰分布。

随机分布通常是在合并具有不同属性的变量集合时产生的。在这种情况下,需要将数据分离并单独检查。

  • 边缘峰值分布

边缘峰值与正态分布的区别在于边缘峰值分布尾部的大峰值大小。

通常,在构建直方图图时出现错误会导致这种形式的分布。

  • 梳状分布

顾名思义,梳状分布的条形具有梳子的结构。由于这些条形在长短之间交替,因此图形类似于梳子的开口。

  • 截断分布

如果从生成的直方图显示中移除正态分布的尾部,则会创建截断分布。称为“心形切割”分布,因为当尾部被切割时,它有时会呈现出心形。

通常,数据收集中的四舍五入错误会导致梳状分布的产生。

直方图的应用

  • 查找数据集的众数

最常见的过程结果可以快速找到,而无需使用复杂的数学计算。当收集的数据在直方图图表中可视化时,最高频率结果将作为图的峰值而突出显示。

Histogram Graph
  • 识别数据结构

在检查直方图图表时,可以轻松识别数据中的趋势。这对于预测结果、简化流程和发现潜在问题很有用。

  • 识别数据变异

与许多其他数据可视化技术不同,使用直方图可以轻松识别数据变异。当您随着时间推移收集数据时,这非常有帮助。

直方图图形会显示数据中的任何偏差。这将使您能够轻松检查数据收集过程,并在人为错误导致偏差时进行调整。

直方图与条形图的比较

尽管条形图和直方图图表具有非常相似的结构和特征,但它们在许多方面有所不同。这些差异将使我们在遇到这些图表时更容易识别它们。

鉴于此,本节将探讨条形图和直方图之间的相似之处和差异。

差异

  • 特性

与直方图连接的矩形条不同,条形图中的矩形条是分开的。此外,条形图上的水平标签通常表示离散或名义数据。

另一方面,直方图的轴用数据集的箱或类别区间标记。

Histogram Graph
  • 用途

条形图用于数据分析以确定分类数据的频率,而直方图用于确定顺序和定量(区间和比率)数据。条形图的水平轴是分类的,而直方图的水平轴是数值的,尽管两个图形的垂直轴都是离散的。

  • 排序

条形图通常具有按高度升序排列的矩形条。另一方面,直方图中矩形条的排列方式取决于它们落在类别区间内的位置。

矩形条的排序可能与类别区间不同,尽管它们都按升序排列。这是由于每个区间发生的频率不同,这会随机地根据数据集而变化。

相似之处

  • 特性

条形图和直方图都有矩形条、轴和刻度。仅仅从外观上看,它们彼此非常相似。这主要是因为它们都使用矩形条来表示数据。

  • 用途

条形图和直方图都用于确定数据集中元素的众数或频率。矩形条的高度表示特定数据集元素的频率,反之亦然。

解释这两种图表的简单方法是遵循不成文的规则:“条越高,频率越高,反之亦然。”

结论

直方图图表是理解各种大型数据集的出色可视化工具。统计分析是最常用的数据可视化技术之一。由于其易用性和处理大部分质量相关问题的能力,直方图是七种基本质量控制工具之一。质量控制分析师在直方图图形中观察到的内容包括矩形条的分布、宽度和高度。尽管人们普遍误认为直方图的高度反映了箱中的出现次数,但这并非总是如此。当直方图没有相等的箱时,矩形条的面积用于计算区间的频率。


下一个主题双曲线图