计算机视觉技术17 Mar 2025 | 6 分钟阅读 作为人类,我们可以看到、处理、理解并对我们所看到或任何视觉输入做出反应;换句话说,我们有能力看到和理解任何视觉数据。但我们如何在机器中实现同样的事情呢?所以,计算机视觉应运而生。尽管机器在视觉方面仍然存在各种局限性,无法与人类相提并论,但它们已经非常接近于分析、理解并从任何视觉输入中提取有意义的信息。如今,计算机视觉是深度学习领域的一个热门研究领域。 在本主题中,我们将深入了解目前在一些应用中使用的不同计算机视觉技术。但是,在开始之前,让我们首先了解计算机视觉的基本介绍。 什么是计算机视觉?计算机视觉是人工智能和机器学习的一个子领域,它使机器能够看到、理解和解释视觉内容,如图像、视频等,并从中提取有用的信息,这有助于人工智能应用的决策。它可以被认为是人工智能应用的眼睛。借助计算机视觉技术,可以完成如果没有这项技术就不可能完成的任务,例如自动驾驶汽车。 计算机视觉流程![]() 计算机视觉的典型流程如上图所示。它主要执行三个步骤,分别是 1. 捕获图像 计算机视觉软件或应用程序总是包含一个数码相机或闭路电视来捕获图像。因此,首先它会捕获图像,并将其作为由零和一组成的数字文件。 2. 处理图像 在下一步中,使用不同的计算机视觉算法来处理存储在文件中的数字数据。这些算法确定基本的几何元素,并使用存储的数字数据生成图像。 3. 分析并采取必要的行动 最后,计算机视觉分析数据,根据这一分析,系统采取为其设计的必要行动。 顶级计算机视觉技术1. 图像分类 图像分类是计算机视觉中最简单的技术。图像分类的主要目的是将图像分成一个或多个不同的类别。图像分类器基本上将图像作为输入,并告知该图像中存在的不同对象,例如人、狗、树等。但是,它不会为您提供有关图像数据的更多信息,例如有多少人、树的颜色、项目位置等,为此,我们需要使用任何其他计算机视觉技术。 图像分类基本上分为两种类型:二元分类和多类分类。顾名思义,二元图像分类在给定图像中寻找单个类别,并根据图像中是否有该对象提供结果。例如,我们可以通过训练一个包含皮肤癌图像和不包含皮肤癌图像的人工智能系统,在检测人类皮肤癌方面实现超人般的表现。 2. 对象检测 对象检测是计算机视觉的另一种流行技术,它可以在图像分类之后执行,或者使用图像分类来检测视觉数据中的对象。它基本上用于识别边界框内的对象并找到图像中对象的类别。对象检测利用深度学习和机器学习技术来生成有用的结果。 作为人类,每当我们看到视觉内容或观看图像或视频时,我们可以在瞬间立即识别甚至定位其中的物体。因此,对象检测的目标是将相同的人类智能复制到机器中,以识别和定位物体。 对象检测有多种应用,包括*对象跟踪、检索、视频监控、图像字幕等。* 可以使用各种技术来执行对象检测,其中包括R-CNN、YOLO v2等。 3. 语义分割 语义分割不仅仅是检测图像中的类别,就像图像分类一样。相反,它将图像的每个像素进行分类,以指定它具有哪些对象。它试图确定图像中每个像素的作用。它基本上在不区分对象实例的情况下,将像素分成特定的类别。或者我们可以说,它将类似的物体从像素级别分类为单个类别。例如,如果一个图像包含两只狗,那么语义分割会将这两只狗放在同一个标签下。它试图理解图像中每个像素的作用。 4. 实例分割 实例分割可以像语义分割一样,在像素级别对图像中的对象进行分类,但级别更高。这意味着实例分割可以将相似类型的对象分类为不同的类别。例如,如果视觉内容包含各种汽车,那么使用语义分割,我们可以知道有许多汽车,但是使用实例分割,我们可以根据它们的颜色、形状等对它们进行标记。 与其他技术相比,实例分割是一项典型的计算机视觉任务,因为它需要分析具有不同重叠对象和不同背景的视觉数据中的差异。 在实例分割中,可以有效地使用 CNN 或卷积神经网络,它们可以在像素级别定位对象,而不仅仅是为对象创建边界框。CNN 和实例分割的一个著名例子是Facebook AI。此应用程序可以检测或区分同一对象的两种颜色,并且用于此的 CNN 架构称为Mask R-CNN或基于 Mask 区域的卷积神经网络。 使用下图,我们可以分析语义分割和实例分割之间的区别,其中语义分割将所有人员分类为单个实体,而实例分割则通过考虑颜色也将所有人员分类为不同的实体。 ![]() 5. 全景分割 全景分割是最强大的计算机视觉技术之一,因为它结合了实例分割和语义分割技术。这意味着使用全景分割,您可以在像素级别对图像对象进行分类,还可以识别该类别的独立实例。 6. 关键点检测 关键点检测试图检测图像中的一些关键点,以提供有关一类对象的更多细节。它主要检测人员并定位他们的关键点。主要有两个关键点检测领域,分别是身体关键点检测和面部关键点检测。 例如,面部关键点检测包括检测人脸的关键部分,例如鼻子、眼睛、嘴角、眉毛等。关键点检测主要有以下应用,包括人脸检测、姿势检测等。 通过姿势估计,我们可以检测人们在给定图像中具有什么样的姿势,这通常包括图像中头部、眼睛、鼻子、手臂、肩膀、手和腿的位置。这可以针对单个人或多个人完成,具体取决于需要。 7. 人员分割 人员分割是一种图像分割技术,用于将图像中的人员与背景分离。它可以在姿势估计之后使用,因为有了这个,我们可以密切识别图像中人员的确切位置以及该人员的姿势。 8. 深度感知 深度感知是一种计算机视觉技术,它为机器提供了视觉能力,以估计物体与来源的 3D 深度/距离。深度感知具有广泛的应用,包括增强现实中的物体重建、机器人技术、自动驾驶汽车等。LiDAR(光探测和测距)是一种常用的深度感知技术。借助激光束,它通过用激光照射物体然后使用传感器测量反射来测量物体的相对距离。 9. 图像字幕 顾名思义,图像字幕就是为图像提供合适的标题来描述图像。它使用了神经网络,当我们输入图像时,它会为该图像生成一个可以轻松描述该图像的标题。这不仅是计算机视觉的任务,也是一个自然语言处理任务。 10. 3D 对象重建 顾名思义,3D 对象重建是一种可以从 2D 图像中提取 3D 对象的技术。目前,它是计算机视觉中一个快速发展的领域,并且可以针对不同的对象以不同的方式完成。关于这项技术,最成功的论文之一是PiFuHD,它介绍了 3D 人体数字化。 下一主题深度度量学习-用于计算机视觉 |
我们请求您订阅我们的新闻通讯以获取最新更新。