基于神经网络方法的一次性多框检测器 (SSD)

17 Mar 2025 | 6 分钟阅读

引言

单发多框检测器 (SSD) 是一种尖端的深度学习模型，用于在图像和视频中进行实时物体检测。Wei Liu、Dragomir Anguelov、Dumitru Erhan、Christian Szegedy、Scott Reed、Cheng-Yang Fu 和 Alexander C. Berg 在他们 2016 年的论文《SSD: Single Shot MultiBox Detector》中首次提出了该模型。

物体检测介绍

物体检测是计算机视觉的一个问题，它旨在定位和识别图像或视频流中的物体。它可以应用于机器人、监控和自动驾驶等众多领域。过去，物体的定位和分类是通过不同的处理步骤和手工设计的特征来完成的。然而，这些方法通常计算成本高且精度不高。SSD 通过采用统一的策略解决了传统物体检测方法的不足。SSD 不是将物体定位和分类分成单独的步骤，而是在单个神经网络中同时执行这两个任务。这不仅提高了检测精度，还降低了计算复杂度。

SSD 的关键组成部分

1. 基础卷积网络

SSD 的核心是一个基础卷积网络，通常基于 VGG16 或 ResNet 等架构。该网络充当特征提取器，从输入图像中提取分层特征。这些特征对于识别不同尺度和长宽比的物体至关重要。

2. 多尺度特征图

SSD 使用包含多个层的基础卷积网络来提取不同尺度的特征图。这些特征图保留了空间信息，对于识别不同大小的物体至关重要。然后，SSD 将多个卷积神经网络应用于这些特征图，以预测边界框和类别分数。

3. 锚框

SSD 使用锚框来处理不同大小和长宽比的物体。锚框是预先配置好的框，位于特征图上的不同位置，具有各种大小和长宽比。网络的预测偏移会调整每个锚框的位置和大小，以匹配图像中的物体。

4. 物体定位和分类的预测

SSD 为每个锚框生成两种不同的预测：

边界框偏移：这些预测指示了锚框需要调整多少才能精确匹配目标物体。对于每个锚框，SSD 预测四个值：框的顶部、左侧、底部和右侧的偏移量。

类别分数：为了识别物体的类别，SSD 为每个锚框预测类别分数。这些分数针对所有可能的物体类别进行计算，并使用 softmax 激活函数表示类别概率。

5. 非极大值抑制和置信度分数阈值

在从多个特征图和锚框收集预测后，SSD 使用置信度分数阈值来消除低置信度的检测。此外，它还使用一种称为非极大值抑制 (NMS) 的方法来消除重叠和重复的边界框，只保留最确定和最精确的检测。

训练 SSD

训练 SSD 主要包括两个部分：创建训练数据和网络优化。

1. 创建训练数据

训练 SSD 需要带有标注的训练数据，例如带有标注边界框和类别标签的图像。在训练期间，使用这些标注来计算损失，从而促使网络随着时间的推移提高预测能力。

3. 损失函数

SSD 采用包含两个部分的损失函数：

衡量边界框预测与真实地面实况边界框的精度。
衡量每个锚框的类别预测或分类损失的精度。这两部分的总和，通过加权来考虑定位和分类的贡献，代表了总损失。

3. 网络优化

SSD 使用梯度下降和反向传播方法来优化网络的权重。Adam 或随机梯度下降 (SGD) 是两种常用的优化技术，用于最小化损失函数并提高网络效率。

优点

实时物体检测：SSD 具有实时物体检测能力，适用于对延迟要求较低的应用，例如自动驾驶汽车。
高精度：通过结合定位和分类优化，SSD 的统一设计与传统方法相比提高了检测精度。
尺度和长宽比不变性：由于其多尺度特征图和锚框，SSD 有效地处理了不同尺度和长宽比的物体。
易于训练：SSD 将定位和分类合并到一个网络中，使其训练比早期技术更容易。
低内存占用：SSD 由于其单次遍历架构，无需存储中间特征图，因此可以在资源有限的设备上使用。
物体跟踪：通过包含时间信息，SSD 可以扩展到跟踪视频序列中的物体，这是机器人和监控应用中的一项有用功能。
对遮挡的鲁棒性：由于锚框方法，SSD 在物体可能被遮挡时具有鲁棒性，即使物体部分被遮挡，也能保持检测率。
对图像变化的鲁棒性：SSD 的锚框和多尺度特征图使其能够适应照明、视角和物体位置的变化，这提高了其在困难的真实世界场景中的性能。
物体检测挑战：SSD 已成为物体检测挑战的基准，鼓励创新并作为评估最新物体检测模型有效性的标准。
社区和支持：SSD 吸引了一个蓬勃发展的研究人员和程序员社区，他们致力于改进和扩展该框架，并确保其在当前计算机视觉工作负载中的适用性。

代码

import pandas as pd
import numpy as np
import cv2
import json
import os
import matplotlib.pyplot as plt
import random
import seaborn as sns
from keras.models import Sequential
from keras import optimizers
from keras import backend as K
from keras.layers import Dense, Dropout, Activation, Flatten
from keras.layers import Conv2D, MaxPooling2D, BatchNormalization
from sklearn.model_selection import train_test_split
from keras.preprocessing.image import ImageDataGenerator
directory = "/input/face-mask-detection-dataset /annotations"
image_directory = "/input/face-mask-detection-dataset "
df = pd.read_csv("/input/face-mask-detection-dataset/train.csv")
df_test = pd.read_csv("/input/face-mask-detection-dataset/submission.csv")
def getJSON(filePathandName):
    with open(filePathandName,'r') as f:
        return json.load(f)
def adjust_gamma(image, gamma=1.0):
    invGamma = 1.0 / gamma
    table = np.array([((i / 255.0) ** invGamma) * 255 for i in np.arange(0, 256)])
    return cv2.LUT(image.astype(np.uint8), table.astype(np.uint8))
jsonfiles= []
for i in os.listdir(directory):
    jsonfiles.append(getJSON(os.path.join(directory,i)))
jsonfiles[0]
df = pd.read_csv("../input/face-mask-detection-dataset/train.csv")
df.head()
data = []
img_size = 124
mask = ['face_with_mask']
non_mask = ["face_no_mask"]
labels={'mask':0,'without mask':1}
for i in df["name"].unique():
    f = i+".json"
    for j in getJSON(os.path.join(directory,f)).get("Annotations"):
        if j["classname"] in mask:
            x,y,w,h = j["BoundingBox"]
            img = cv2.imread(os.path.join(image_directory,i),1)
            img = img[y:h,x:w]
            img = cv2.resize(img,(img_size,img_size))
            data.append([img,labels["mask"]])
        if j["classname"] in non_mask:
            x,y,w,h = j["BoundingBox"]
            img = cv2.imread(os.path.join(image_directory,i),1)
            img = img[y:h,x:w]
            img = cv2.resize(img,(img_size,img_size))    
            data.append([img,labels["without mask"]])
random.shuffle(data)
len(data)
p = []
for face in data:
    if(face[1] == 0):
        p.append("Mask")
    else:
        p.append("No Mask")
sns.countplot(p)
X = []
Y = []
for features,label in data:
    X.append(features)
    Y.append(label)
X[0].shape
X = np.array(X)/255.0
X = X.reshape(-1,124,124,3)
Y = np.array(Y)
np.unique(Y)
Y.shape
model = Sequential()
model.add(Conv2D(32, (3, 3), padding = "same", activation='relu', input_shape=(124,124,3)))
model.add(Conv2D(64, (3, 3), activation='relu'))
model.add(Conv2D(128, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2,2)))
model.add(Dropout(0.25))
model.add(Flatten())
model.add(Dropout(0.5))
model.add(Dense(50, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(1, activation='sigmoid'))
model.summary()
model.compile(loss='binary_crossentropy', optimizer='adam' ,metrics=['accuracy'])
xtrain,xval,ytrain,yval=train_test_split(X, Y,train_size=0.8,random_state=0)
datagen = ImageDataGenerator(
        featurewise_center=False,  
        samplewise_center=False,  
        featurewise_std_normalization=False,  
        samplewise_std_normalization=False,  
        zca_whitening=False,    
        rotation_range=15,    
        width_shift_range=0.1,
        height_shift_range=0.1,  
        horizontal_flip=True,  
        vertical_flip=False)
datagen.fit(xtrain)
history = model.fit_generator(datagen.flow(xtrain, ytrain, batch_size=32),
                    steps_per_epoch=xtrain.shape[0]//32,
                    epochs=20,
                    verbose=1,
                    validation_data=(xval, yval))
print(len(df_test["name"]),len(df_test["name"].unique()))
test_images = [ '0072.jpg','0353.jpg']
gamma = 2.0
fig = plt.figure(figsize = (14,14))
rows = 3
cols = 2
axes = []
assign = {'0':'Mask','1':"No Mask"}
for j,im in enumerate(test_images):
    image =  cv2.imread(os.path.join(image_directory,im),1)
    image =  adjust_gamma(image, gamma=gamma)
    (h, w) = image.shape[:2]
    blob = cv2.dnn.blobFromImage(cv2.resize(image, (300,300)), 1.0, (300, 300), (104.0, 177.0, 123.0))
    cvNet.setInput(blob)
    detections = cvNet.forward()
    for i in range(0, detections.shape[2]):
        try:
            box = detections[0, 0, i, 3:7] * np.array([w, h, w, h])
            (startX, startY, endX, endY) = box.astype("int")
            frame = image[startY:endY, startX:endX]
            confidence = detections[0, 0, i, 2]
            if confidence > 0.2:
                im = cv2.resize(frame,(img_size,img_size))
im = np.array(im)/255.0
                im = im.reshape(1,124,124,3)
                result = model.predict(im)
                if result>0.5:
                    label_Y = 1
                else:
                    label_Y = 0
                cv2.rectangle(image, (startX, startY), (endX, endY), (0, 0, 255), 2)
                cv2.putText(image,assign[str(label_Y)] , (startX, startY-10), cv2.FONT_HERSHEY_SIMPLEX, 1.5, (36,255,12), 2)
        except:pass
    axes.append(fig.add_subplot(rows, cols, j+1))
    plt.imshow(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))
plt.show()

输出

Single Shot MultiBox Detector (SSD) using Neural Networking Approach

结论

单发多框检测器 (SSD) 是一种有效且强大的基于深度学习的物体检测方法，用于在图像和视频中进行物体检测。SSD 适用于各种应用，包括自动驾驶汽车、跟踪、医学成像、零售和机器人。SSD 可以在单帧内识别和定位多个物体。为了可靠地检测和分类感兴趣的物体，SSD 的关键要素——特征提取、锚框、分类和边界框回归——协同工作。SSD 的显著优点包括实时性能、处理各种尺度物体以及在各种数据集上工作。由于其精度和速度，它已广泛应用于计算机视觉任务。

此外，物体检测是一个至关重要的计算机视觉问题，它超越了物体分类，提供了关于物体位置的精确信息。它在许多不同领域都有应用，并且随着深度学习技术的进步，像 SSD 这样的物体检测技术也得到了发展，从而为实际问题提供了更精确和有效的解决方案。物体检测，包括使用 SSD 进行掩码检测等专业应用，对于使机器能够“看见”并与世界互动至关重要，无论是在自动驾驶汽车、医疗诊断、安全、零售还是任何其他领域。

下一话题机器学习中的逐步预测分析

基于神经网络方法的一次性多框检测器 (SSD)

引言

物体检测介绍

SSD 的关键组成部分