定向梯度直方图 (HOG)

17 Mar 2025 | 6 分钟阅读

在计算机视觉和图像处理领域,方向梯度直方图(HOG)仍然是一项关键策略,以其在物体检测和识别方面的能力而闻名。HOG 由 Navneet Dalal 和 Bill Triggs 于 2005 年创建,在提高计算机视觉系统的准确性和可靠性方面发挥着至关重要的作用。

理解图像特征

计算机视觉中的基本挑战是解读图像中存在的重要数据。虽然人类可以轻松地识别物体和模式,但让计算机做到这一点却很复杂。这就是 HOG 等特征提取策略发挥作用的地方。HOG 通过分析图像局部区域内梯度方向的分布来捕捉物体的特定特征。

既然我们对方向梯度直方图(HOG)策略有了初步的了解,我们就深入研究该过程的每个步骤,并探索使 HOG 成为强大的图像特征提取工具的基本原理。

HOG 管道与过程

HOG 过程的核心包含一系列步骤,这些步骤通常能带来有效的特征表示。

梯度计算

该过程从计算梯度开始,梯度表示像素强度在图像中的变化方式。梯度有助于识别图像中的边缘和重要区域。梯度是理解像素强度如何在图像中变化的关键。Sobel 算子是一种常用的技术,用于计算每个像素的梯度幅度(强度)和方向。梯度幅度表示强度变化的强度,而梯度方向则指向主要变化的方向。

细胞分裂

图像被划分为称为“单元格”的小区域。每个单元格包含一组像素,并作为特征提取的基本构建块。将图像划分为单元格被认为是特征的局部分析。每个单元格(通常测量例如 8x8 像素)充当计算和汇总梯度的微小单元。

方向和幅度

在每个单元格内,计算梯度的方向(最大强度变化的方向)和幅度(强度的大小)。这些梯度属性提供了对图像细节的见解。在每个单元格中,为每个像素计算梯度的方向和幅度。然后将这些值量化为预定义的定向 bin。例如,方向可以分为九个 bin,涵盖 0 到 180 度。这种量化简化了梯度数据,使其更易于处理。

创建直方图

为每个单元格生成直方图。这些直方图统计落入预定义精确 bin 的梯度方向的事件。这概括了单元格内边缘方向的分布。

直方图捕获每个单元格内梯度方向的分布。直方图统计落入预定义 bin 的梯度方向的事件。结果是对单元格内主要边缘方向的表示。

合并块

为了捕捉更复杂的模式,相邻的单元格被分组到块中。这些块可以有重叠的区域。来自单元格的直方图被合并,产生一个包含边缘方向及其幅度的紧凑列表。为了捕捉更复杂的模式和结构,将相邻的单元格分组到块中。这些块通常会重叠,以确保在块边界处不会丢失任何重要信息。来自块内单元格的直方图被链接在一起,形成一个更全面的边缘方向及其幅度的摘要。

规范化

块内的直方图被归一化,以确保表示强度与光照条件的变化。这种归一化强调了直方图的整体形状,而不是其绝对值。归一化对于使 HOG 描述符对光照和对比度的变化具有鲁棒性至关重要。块内的直方图被归一化,通常使用 L2 范数等技术。这个过程确保了描述符的值不受不同光照条件的影响。

描述符开发

这些步骤的完成产生了 HOG 描述符,它包括将图像中所有块的归一化直方图连接起来。该描述符概括了图像的关键纹理和形状特征。HOG 描述符通过将图像中所有块的归一化直方图连接起来形成。该描述符通常表示为向量,编码了图像独特的纹理和形状特征,使其适用于各种计算机视觉任务。

示例

代码

输出

Histogram of Oriented Gradients (HOG)

模型应用

HOG 的实用性扩展到各种应用,包括行人检测和人脸识别。然而,重要的是,虽然 HOG 在其出现时具有开创性,但像深度学习这样的现代方法因其能够自动从原始像素数据中学习复杂特征的能力而获得了认可。尽管如此,HOG 仍然是计算机视觉工具箱中的一个基本工具,通常可以补充更新的技术以实现卓越的性能。

行人检测

为了说明 HOG 的有效性,请考虑行人检测任务。在这种情况下,HOG 描述符可以捕捉个人形状和服装的独特模式。正样本(包含行人的图像)用于训练机器学习模型,通常是支持向量机(SVM)。模型学习根据 HOG 描述符从非行人中识别行人。在测试期间,经过训练的模型可以通过检查其 HOG 描述符来识别新图像中的行人。

HOG 的优点

  1. HOG 对光照和对比度的变化相对不敏感,使其适用于各种条件下的物体检测。
  2. HOG 描述符可以可视化,使其更清楚地了解正在捕获哪些特征。
  3. 虽然当前的深度学习技术需要大量的计算资源,但 HOG 在计算上是有效的,并且可以在资源受限的设备上运行。
  4. 对简单模式有效。HOG 对具有清晰边缘和纹理的物体(如行人、车辆和一些动物)效果很好。

HOG 的缺点

  1. HOG 在捕捉深度学习技术擅长的复杂特征和模式方面可能存在困难。
  2. HOG 对物体方向敏感。在不同方向识别物体需要额外的处理。
  3. 正确的参数调整对于最佳性能至关重要。单元格大小、块大小和直方图 binning 的选择会影响结果。

进展

虽然 HOG 在推出时具有革命性,但近年来深度学习技术的兴起。卷积神经网络(CNN)在直接从原始像素数据中学习特征方面表现出卓越的能力,在许多任务中都明显优于 HOG 等传统方法。

  • HOG 仍然以多种方式发挥作用
  • HOG 通常用作 CNN 的补充特征。在某些应用中,将 HOG 与深度学习模型相结合可以提高检测精度。
  • 在计算资源有限的情况下,HOG 由于其效率仍然是一个可行的选择。
  • HOG 是用于教授和理解计算机视觉中特征提取的基本方法。它提供了对支撑更复杂技术的原理的见解。

HOG + CNN 进行物体检测

一种混合方法包括将 HOG 用作预处理步骤以生成初始特征表示,然后将其输入到 CNN 进行进一步的细化。这种方法利用了这两种技术的优点,并可以在物体检测任务中提供更高的准确性。

结论

方向梯度直方图(HOG)方法仍然是计算机视觉进步的证明。其影响,从改变物体检测到塑造特征提取策略,显而易见。虽然更新的技术已经成为焦点,但 HOG 的贡献仍然交织在该领域的结构中。展望未来,承认 HOG 在不断提高机器对图像的理解能力方面的基础作用至关重要。总而言之,穿越 HOG 领域的旅程代表了一个简单的想法如何能够催化巨大的变革。HOG 的故事提醒我们,在推进计算机视觉的道路上,不断学习、适应和创新是关键。