目标检测 vs. 目标分类

28 Feb 2025 | 10分钟阅读

目标检测和目标分类是一些基本任务，它们在机器如何理解和处理视觉数据方面发挥着至关重要的作用。尽管两者相似，但由于它们都拥有检测图像中物体的最终目标，它们在目的和复杂性上有所不同。

目标检测

目标检测是目标分类的扩展，它不仅理解图像中存在哪些物体，还确定它们的位置。目标检测是指检测图像中的多个物体，包括提供这些物体的精确位置，通常通过物体周围的边界框来表示。

目标检测的工作原理

目标检测算法是包含分类和定位元素的模型。流行的方法包括 YOLO、基于区域的 CNN（R-CNN）和单阶段多框检测器（SSD）。它们通过将输入图像划分为网格，并为网格单元中可能存在的物体预测所有边界框，同时对这些物体进行分类。例如，每个边界框的输出将是一组坐标加上它所框定物体的类别标签。

目标检测的应用

以下是目标检测在不同行业中最重要的应用。

自动驾驶汽车： 目标检测在自动驾驶汽车中的最佳应用是识别和跟踪道路上的任何行人、其他车辆、交通标志或障碍物，以指导汽车并实时做出安全决策。
安全系统： 目标检测可用于跟踪视频馈送中的目标人物或物体。通过增强安全性和响应时间，这将改善公共区域以及商业和机场地点的监控。
医疗保健和医学成像： 目标检测可应用于医学成像，用于识别 X 射线、MRI 和 CT 扫描中的肿瘤、病变或异常。通过自动检测，这将有助于放射科医生在更短的时间内进行更轻松、更准确的诊断。
零售和库存管理： 目标检测在零售和库存管理中有许多应用，例如自动结账系统和库存控制。摄像头可以检测货架上的物品以及特定物品的数量，这些信息可以传递给系统以实时更新库存水平并提升客户服务。
农业： 它可以应用于精准农业，用于作物健康监测以及发现病虫害。配备摄像头的无人机可以扫描农田并识别需要关注的特定区域，从而有效地分配所需资源。

目标分类

目标分类是一个过程，其中一个系统将整个图像进行分类，根据预定义的类别或分类给出分类后的版本。例如，如果图像中有一只猫，分类算法可能会将其分类为包含猫，并将其归类为“猫”类别。

目标分类的工作原理

目标分类是卷积神经网络（CNN）学习输入图像的特征并利用它们进行分类的地方。CNN 将图像分解为边缘、纹理和形状等模式。利用这些模式，网络确定该物体最可能的类别。网络最后一层给出类别概率分布。然后，最高概率对应于预测的标签。

目标分类的应用

以下是目标分类在不同行业中最重要的应用。

医疗诊断： 目标分类的应用将有助于疾病诊断，通过识别医学样本图像中的细胞类型，例如显微镜图像或用于黑色素瘤检测的皮肤病变。
情感分析： 在自然语言处理中，目标分类可用于确定与不同情绪相关的图像背后的感受和情感，从而有助于市场研究和用户体验分析。
内容审核： 通过内容审核，社交媒体可以区分对象并移除包含裸露或暴力内容的非预期对象，以确保内容符合社区准则并提高用户安全。
野生动物监测： 保护组织利用目标分类通过相机陷阱来识别和跟踪野生动物。它有助于在没有人为干预的情况下研究动物行为和种群动态。
工业质量控制： 上述分类过程通过在生产过程中拍摄的产品图像，自动将制造的产品分类为合格或不合格。

以下是目标检测和目标分类之间差异的表格。

方面	目标分类	目标检测
目的	识别和分类物体是什么。	识别物体是什么及其位置。
输出	为整个图像提供一个标签。	为每个检测到的物体提供标签和边界框。
复杂度	通常更简单；涉及对单个物体的分类。	更复杂；结合了分类和定位。
物体数量	专注于单个物体或主要物体。	处理图像中的多个物体。
使用的技术	通常使用 CNN 进行特征提取。	利用 YOLO、R-CNN 或 SSD 等算法。
应用	图像识别、面部识别、医疗诊断等。	自动驾驶汽车、监控、机器人等。
位置信息	不提供位置信息。	提供检测到的物体的精确位置。
绩效指标	物体分类的准确性。	交并比 (IoU)、精确率和召回率。
用例	在搜索引擎和社交媒体中分类图像。	实时监控、跟踪和安全系统。

现在，我们将实现目标分类，并尝试将猫与其他类别进行分类。

代码

导入库

import numpy as np 
import pandas as pd
import os
print(os.listdir("natural_images"))

######## Checking GPU###########
import tensorflow as tf 
device_name = tf.test.gpu_device_name() 
if device_name != '/device:GPU:0':  
    raise SystemError('GPU device not found') 

加载数据集

from os import listdir
img_dir = '..be_natural_images'
list_data = listdir(img_dir)
list_data

现在，我们将使用 TensorFlow 和 Keras 设置准备和增强图像数据以训练模型的必要组件。

from tensorflow.keras import backend as K
from tensorflow.keras.models import Model ,load_model
from tensorflow.keras.optimizers import Adam, RMSprop
from tensorflow.keras.preprocessing.image import ImageDataGenerator
import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Flatten, Dense, Dropout
from tensorflow.keras.applications.inception_resnet_v2 import InceptionResNetV2, preprocess_input


FREEZE_LAYERS = 16  
NUM_EPOCHS    = 1
LEARNING_RATE = 5e-5
DROP_OUT = .5
DATASET_PATH  = img_dir
IMAGE_SIZE    = (299, 299)
NUM_CLASSES   = len(list_data)
BATCH_SIZE    = 25  
model_loc_checkpoint = '5'


datagen_train = ImageDataGenerator(preprocessing_function=preprocess_input,
                                   rotation_range=50,
                                   width_shift_range=0.2,
                                   height_shift_range=0.2,
                                   shear_range=0.25,
                                   zoom_range=0.1,
                                   channel_shift_range = 20,
                                   horizontal_flip = True ,
                                   vertical_flip = True ,
                                   validation_split = 0.2,
                                   fill_mode='constant')

# datagen_test = ImageDataGenerator(preprocessing_function=preprocess_input,
#                                    fill_mode='constant')

batches_train = datagen_train.flow_from_directory(DATASET_PATH,
                                                  target_size=IMAGE_SIZE,
                                                  shuffle=True,
                                                  batch_size=BATCH_SIZE,
                                                  subset = "training"
                                                  )

batches_valids = datagen_train.flow_from_directory(DATASET_PATH,
                                                  target_size=IMAGE_SIZE,
                                                  shuffle=True,
                                                  batch_size=BATCH_SIZE,
                                                  subset = "validation"
                                                  )
dictionary_class = batches_train.class_indices
dictionary_class

输出

Object Detection VS Object Classification

Resnet

现在我们将为任何分类问题设置一个使用 InceptionResNetV2 进行迁移学习的流程，从而能够对预训练模型进行微调以适应特定数据集。然后，全局平均池化和 Dropout 层有助于优化性能，减少过拟合；因此，该结构适用于许多图像分类任务。

from tensorflow.keras.layers import GlobalAveragePooling2D, Dropout, Dense
from tensorflow.keras.applications import InceptionResNetV2
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam

# Develop the classifier model using the pre-trained InceptionResNetV2 architecture.
if len(model_loc_checkpoint) < 5:
    # Focus exclusively on the core components of InceptionResNetV2.
    net = InceptionResNetV2(include_top=False,  #Remove the top fully connected layers.
                            weights='imagenet',  # Utilize weights that have been pre-trained on ImageNet.
                            input_tensor=None,
                            input_shape=(299, 299, 3))  # Define input shape

    # Global average pooling layer.
    x = net.output
    x = GlobalAveragePooling2D()(x)  # Reduce dimensions

    #addition of an optional dropout layer.
    x = Dropout(DROP_OUT)(x)  # Prevent overfitting

    # Output layer utilizing softmax activation for classification purposes.
    layer_output = Dense(NUM_CLASSES, activation='softmax', name='softmax')(x)

    # making the final model
    final_net = Model(inputs=net.input, outputs=layer_output)

    # Lock the initial layers to prevent them from being updated during training.
    for layer in final_net.layers[:FREEZE_LAYERS]:
        layer.trainable = False  # Freeze layers to retain pre-trained weights

    # Allow the other layers to be trainable to enable fine-tuning of the model.
    for layer in final_net.layers[FREEZE_LAYERS:]:
        layer.trainable = True

    # Set up the model for training using the Adam optimizer and categorical cross-entropy as the loss function.
    final_net.compile(optimizer=Adam(learning_rate=LEARNING_RATE),  # Adjusting learning rate
                      loss='categorical_crossentropy',  # Loss function for multi-class classification
                      metrics=['accuracy'])  # Metric to track during training


print(final_net.summary())

输出

######## If the pre-trained model is already in use, verify its status before proceeding with any further actions or modifications.#######
 if len(model_loc_checkpoint) > 5:
 final_net = load_model(model_loc_checkpoint)
 final_net.evaluate_generator(batches_valids,
                             steps = np.ceil(len(batches_valids) / BATCH_SIZE),
                               verbose = 1
                               )
if len(model_loc_checkpoint) > 5:
  final_net.evaluate_generator(batches_valids,
                               steps = np.ceil(len(batches_valids) / BATCH_SIZE),
                               verbose = 1
                               )

现在我们将添加一个 Dropout 层。

#Incorporating a Dropout layer into a pre-trained model helps reduce overfitting by randomly setting a fraction of input units to zero during training. This enhances the model's generalization ability without affecting the pre-trained weights.
drpout_needed = False

if drpout_needed :
  flt = final_net.layers[-2]
  prediction = final_net.layers[-1]

  #create dropout layer
  drp1 = Dropout(DROP_OUT)
  x = drp1(flt.output)

  predictors = prediction(x)
  final_net = Model(inputs=final_net.input, outputs=predictors)

训练模型

我们需要训练我们的模型。

#FIT MODEL
final_net.fit_generator(batches_train,
                        steps_per_epoch = np.ceil(len(batches_train) / BATCH_SIZE),
                        validation_data = batches_valids,
                        validation_steps = np.ceil(len(batches_valids) / BATCH_SIZE),
                        epochs = NUM_EPOCHS,
#                         callbacks = callbacks_list 
                       )

现在我们将进行预测。

# from PIL import Image
import pandas as pd
from tensorflow.keras.preprocessing import image
import matplotlib.pyplot as plt

IMAGE_SIZE    = (299, 299)
# print(list_data)
print("Class name to class id map\n",dictionary_class)

image_test = image.load_img((img_dir + "/otorbike/otorbike_0011.jpg"),target_size =IMAGE_SIZE )
image_test = image.load_img("be_natural_images/cat/cat_0005.jpg",target_size =IMAGE_SIZE )
image_test = image.img_to_array(image_test)

plt.imshow(image_test/255.)

# image_test = np.expand_dims(image_test , axis = 0)
image_test = image_test.reshape((1, image_test.shape[0], image_test.shape[1], image_test.shape[2]))
image_test = preprocess_input(image_test)

prediction = final_net.predict(image_test)
df = pd.DataFrame({'pred':prediction[0]})
# print(prediction[0])
df = df.sort_values(by='pred', ascending=False, na_position='first')
print(df)

for x in list_data:
  if dictionary_class[x] == (df[df == df.iloc[0]].index[0]):
    print("Class prediction = ", x)
    break

输出

现在为了理解区别，我们将实现目标检测，并尝试检测给定数据中的各种类型。

导入库

import numpy as np 
import pandas as pd 
import os
## Import the required libraries 

from keras.preprocessing.image import ImageDataGenerator
from keras.applications.inception_v3 import preprocess_input
from keras.utils.data_utils import GeneratorEnqueuer
import matplotlib.pyplot as plt
import pandas as pd 
import numpy as np 
import math, os

%matplotlib inline

现在，我们将加载图像。

image_path = "../input/test/"
#image_path = "../input/test"
batch_size = 100
generator_img = ImageDataGenerator().flow_from_directory(image_path, shuffle=False, batch_size = batch_size)
n_rounds = math.ceil(generator_img.samples / generator_img.batch_size)
filenames = generator_img.filenames

generator_img = GeneratorEnqueuer(generator_img)
generator_img.start()
generator_img = generator_img.get()

!cp -r ../input/imageairepo/imageai/imageai imageai

我们将对词汇字典进行反向映射；唯一的标识符，可能是我们数据集中的标识符，将作为键，相关的对象名称将作为值。

vocab = {"/n/a/011k07": "Tortoise", "/n/a/011q46kg": "Container", "/n/a/012074": "Magpie", "/n/a/0120dh": "Sea turtle", "/n/a/01226z": "Football", "/n/a/012n7d": "Ambulance", "/n/a/012w5l": "Ladder", "/n/a/012xff": "Toothbrush", "/n/a/012ysf": "Syringe", "/n/a/0130jx": "Sink", "/n/a/0138tl": "Toy", "/n/a/013y1f": "Organ", "/n/a/01432t": "Cassette deck", "/n/a/014j1m": "Apple", "/n/a/014sv8": "Human eye", "/n/a/014trl": "Cosmetics", "/n/a/014y4n": "Paddle", "/n/a/0152hh": "Snowman", "/n/a/01599": "Beer", "/n/a/01_5g": "Chopsticks", "/n/a/015h_t": "Human beard", "/n/a/015p6": "Bird", "/n/a/015qbp": "Parking meter", "/n/a/015qff": "Traffic light", "/n/a/015wgc": "Croissant", "/n/a/015x4r": "Cucumber", "/n/a/015x5n": "Radish", "/n/a/0162_1": "Towel", "/n/a/0167gd": "Doll", "/n/a/016m2d": "Skull", "/n/a/0174k2": "Washing machine", "/n/a/0174n1": "Glove", "/n/a/0175cv": "Tick", "/n/a/0176mf": "Belt", "/n/a/017ftj": "Sunglasses", "/n/a/018j2": "Banjo", "/n/a/018p4k": "Cart", "/n/a/018xm": "Ball", "/n/a/01940j": "Backpack", "/n/a/0199g": "Bicycle", "/n/a/019dx1": "Home appliance", "/n/a/019h78": "Centipede", "/n/a/019jd": "Boat", "/n/a/019w40": "Surfboard", "/n/a/01b638": "Boot", "/n/a/01b7fy": "Headphones", "/n/a/01b9xk": "Hot dog", "/n/a/01bfm9": "Shorts", "/n/a/01_bhs": "Fast food", "/n/a/01bjv": "Bus", "/n/a/01bl7v": "Boy", "/n/a/01bms0": "Screwdriver", "/n/a/01bqk0": "Bicycle wheel", "/n/a/01btn": "Barge", "/n/a/01c648": "Laptop", "/n/a/01cmb2": "Miniskirt", "/n/a/01d380": "Drill", "/n/a/01d40f": "Dress", "/n/a/01dws": "Bear", "/n/a/01dwsz": "Waffle", "/n/a/01dwwc": "Pancake", "/n/a/01dxs": "Brown bear", "/n/a/01dy8n": "Woodpecker", "/n/a/01f8m5": "Blue jay", "/n/a/01f91_": "Pretzel", "/n/a/01fb_0": "Bagel", "/n/a/01fdzj": "Tower", "/n/a/01fh4r": "Teapot", "/n/a/01g317": "Person", "/n/a/01g3x7": "Bow and arrow", "/n/a/01gkx_": "Swimwear", "/n/a/01gllr": "Beehive", "/n/a/01gmv2": "Brassiere", "/n/a/01h3n": "Bee", "/n/a/01h44": "Bat", "/n/a/01h8tj": "Starfish", "/n/a/01hrv5": "Popcorn", "/n/a/01j3zr": "Burrito", "/n/a/01j4z9": "Chainsaw", "/n/a/01j51": "Balloon", "/n/a/01j5ks": "Wrench", "/n/a/01j61q": "Tent", "/n/a/01jfm_": "Vehicle registration plate", "/n/a/01jfsr": "Lantern", "/n/a/01k6s3": "Toaster", "/n/a/01kb5b": "Flashlight", "/n/a/01knjb": "Billboard", "/n/a/01krhy": "Tiara", "/n/a/01lcw4": "Limousine", "/n/a/01llwg": "Necklace", "/n/a/01lrl": "Carnivore", "/n/a/01lsmm": "Scissors", "/n/a/01lynh": "Stairs", "/n/a/01m2v": "Computer keyboard", "/n/a/01m4t": "Printer", "/n/a/01mqdt": "Traffic sign", "/n/a/01mzpv": "Chair", "/n/a/01n4qj": "Shirt", "/n/a/01n5jq": "Poster", "/n/a/01nkt": "Cheese", "/n/a/01nq26"}

rev = {}
for k,v in vocab.items():
    rev[v.lower()] = k "

模型

现在我们将使用 ImageAI 初始化一个目标检测模型。我们将在此处使用基于 ResNet 的 RetinaNet 模型。一旦模型被初始化并加载了权重，它就可以用于目标检测任务。

from imageai.Detection import ObjectDetection
model_weight_path = "../input/imageairepo/imageai/resnet50_v2.0.1.h5"

execution_path = os.getcwd()
detector = ObjectDetection()
detector.setModelTypeAsRetinaNet()
detector.setModelPath(model_weight_path)
detector.loadModel()

让我们开始目标检测。

for i in range(n_rounds):
    batch = next(generator_img)
    for j, prediction in enumerate(batch):
        image = filenames[i * batch_size + j]
        detections = detector.detectObjectsFromImage(input_image=image_path+image, output_image_path="image_with_box.png", minimum_percentage_probability = 75)        
        pred_str = ""
        labels = ""
        for eachObject in detections:    
            if eachObject["name"] in rev:
                pred_str += rev[eachObject["name"]] + " " + str(float(eachObject["percentage_probability"])/100) + " 0.1 0.1 0.9 0.9"
                pred_str += " "
                labels += eachObject['name'] + ", " + str(round(float(eachObject['percentage_probability'])/100, 1)) 
                labels += " | "
        if labels != "":
            plt.figure(figsize=(12,12))
            plt.imshow(plt.imread("image_with_box.png"))
            plt.show()
            print ("Labels Detected: ")
            print (labels)
            print ()
            print ("Prediction String: ")
            print (pred_str)

    if i == 10:
        break

输出

在这里，我们可以看到在上面的图像中，大多数图像中都有某种正方形。这些是检测点，在这些正方形上，有代码指示了我们之前编码的对象名称。

结论

虽然 **目标检测** 和 **目标分类** 的总体目标都是解释视觉数据，但它们的目的和复杂性却大不相同。目标分类涉及识别和分类图像中出现的各种物体。它只为输入提供一个标签，而该方法依赖于卷积神经网络在分析特征和类别分配时的使用。

而目标检测则超越了分类，需要应用边界框来定位图像中的物体，这项任务比分类更难。它结合了 YOLO、R-CNN 和 SSD 等高级算法，用于实时检测多个物体及其位置，这些算法在自动驾驶汽车和监控系统等应用中得到了广泛应用。

下一个主题媒体中的机器学习应用

← 上一个下一个 →

目标检测 vs. 目标分类

目标检测

目标检测的工作原理

目标检测的应用

目标分类

目标分类的工作原理

目标分类的应用

导入库

加载数据集

Resnet

训练模型

导入库

模型

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

目标检测 vs. 目标分类

目标检测

目标检测的工作原理

目标检测的应用

目标分类

目标分类的工作原理

目标分类的应用

导入库

加载数据集

Resnet

训练模型

导入库

模型

结论

相关帖子

最佳计算机视觉书籍

StandardScaler、MinMaxScaler 和 RobustScaler 技术

Python scikit-learn 中的 fit() vs predict() vs fit_predict()

变分自动编码器

机器学习中的信用卡审批

机器学习中使用的距离类型

金融领域的机器学习

预测建模与机器学习

使用 Teachable Machine 的机器学习模型

机器学习历史

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器