目标检测与识别的评估指标

2024 年 8 月 28 日 | 阅读 6 分钟

引言

计算机视觉应用如今已广泛应用于各个领域，而与计算机视觉相关的图像编辑和检测是开发者最常见和最基础的任务。目标检测和识别在电子商务、闭路电视监控、医学影像和自动驾驶等领域都有应用。上述所有任务都执行主要活动，例如在图像和视频中找出和定位对象。

评估指标

评估指标有助于评估计算机视觉和深度学习任务中目标检测和识别模型的性能。这些指标有助于量化模型的准确性，并为模型提供有价值的见解，说明其优点和缺点。在撰写和研究论文时，许多人会遇到 IOU、AP、MIOU、mAP 等术语，这些是目标检测中常用的指标。在本文中，我们将涵盖所有重要的指标，以帮助识别评估指标的优势和劣势。

常用评估指标

这些是评估每个机器学习和计算机视觉任务的准确性和性能的指标。它们是：

精度
F1 分数
Dice 系数
交并比 (IoU)
平均交并比 (mIOU)
平均精度 (AP)
平均精度均值 (mAP)

现在，让我们深入探讨每个评估指标及其性能。

1. 准确性

准确率是定义模型在目标识别和检测中整体性能和正确性的基本指标。准确率主要用于像“是”或“否”这样的分类任务。然而，准确率也可用于目标检测和识别，因为这些任务也可以进行分类，并且可以使用准确率指标计算它们的正确性。

准确率计算公式如下：

其中

TP (真阳性): 代表正确的阳性预测。

TN (真阴性): 代表正确的阴性预测。

FP (假阳性): 代表错误的阳性预测。

FN (假阴性): 代表错误的阴性预测。

准确率可以简单地计算出模型的整体工作情况，但它不能用于不平衡数据集，因为不同类别的样本权重会误导其他类别。

2. F1 分数

在学习 F1 分数之前，我们需要了解两个重要概念：精确率和召回率。

精确率 (Precision): 它衡量所有阳性预测中真阳性的比例。

召回率 (Recall): 它衡量所有实际阳性中真阳性的比例。

现在，F1 分数将上述两个指标（精确率和召回率）结合成一个单一的指标值。F1 分数的范围在 0 到 1 之间。如果模型的 F1 分数为 1，则模型的性能较高，而接近 0 的 F1 分数则表示性能较差。

F1 分数的公式为：

3. Dice 系数

图像分割任务经常使用 Dice 系数指标来分析图像。该指标表示预测掩模和地面真实掩模之间的相似关系。Dice 系数的范围从 0（无重叠）到 1（完美重叠）。

Dice 系数也称为 Sørensen-Dice 指数。其计算公式如下：

其中

|A ∩ B|: 这是预测掩模 (A) 和地面真实掩模 (B) 之间的交集大小。

|A| 和 |B| 是单个掩模的大小。

4. 交并比 (IoU)

交并比是目标检测和图像分割任务中常用的指标。它表示两个框（分割框和地面真实掩模）之间的重叠相似度。IoU 指数的范围从 0（无重叠）到 1（完美重叠）。

可以通过以下步骤计算 IoU：

计算并集面积
计算交集面积（两个框之间的重叠区域）
将交集面积除以并集面积

公式如下

5. 平均交并比 (mIOU)

mIoU（平均交并比）是评估图像分割任务准确性结果的主要指标。它衡量分割掩模与地面真实掩模的关联程度。mIoU 将估算原始分割和预测分割之间的交叉和重叠程度。mIoU 是两个框之间的重叠。重叠区域越大，mIoU 的值也越大。

计算 mIoU 的步骤如下：

计算 IoU
计算所有 IoU 值的平均值

计算 mIoU 的公式为：

其中，n 是类别的总数。

6. 平均精度 (AP)

平均精度 (AP) 表明模型检索有价值信息的能力。通过生成精确率-召回率曲线（PR 曲线）并分别计算曲线下的面积来计算此指标。

遵循的步骤是：

首先，计算每个类别的不同置信度阈值下的精确率和召回率。这最终将得到一组精确率和召回率点。然后，将上述点绘制在图上。
精确率在 y 轴上，召回率在 x 轴上。将生成 PR 曲线。
现在计算 PR 曲线下的面积。该面积就是特定类别的平均精度。
如果有多个类别，则为每个类别计算 AP，然后计算这些单独 AP 值的平均值以获得最终的 AP。

7. 平均精度均值 (mAP)

在之前的平均精度中，所有单个对象都会被评估，而在平均精度均值中，则评估整个模型的精确率。它主要用于多类别场景。计算 mAP 的步骤如下：

计算所有单独类别的 AP
现在，计算上述所有 AP 值的平均值

Python 实现

代码

# Import all necessary libraries
import numpy as np
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score, average_precision_score, precision_recall_curve

# Simulated ground truth bounding boxes (format: [x1, y1, x2, y2])
ground_truth_boxes = np.array([[50, 50, 200, 200], [300, 300, 450, 450], [100, 100, 250, 250]])

# Simulated predicted bounding boxes (format: [x1, y1, x2, y2])
predicted_boxes = np.array([[60, 60, 190, 190], [310, 310, 440, 440], [90, 90, 240, 240]])

# Function to calculate the metric IoU (Intersection over Union) for a couple of bounding boxes
def calculate_iou(boxA, boxB):
    xA = max(boxA[0], boxB[0])
    yA = max(boxA[1], boxB[1])
    xB = min(boxA[2], boxB[2])
    yB = min(boxA[3], boxB[3])

    intersection_area = max(0, xB - xA + 1) * max(0, yB - yA + 1)
    boxA_area = (boxA[2] - boxA[0] + 1) * (boxA[3] - boxA[1] + 1)
    boxB_area = (boxB[2] - boxB[0] + 1) * (boxB[3] - boxB[1] + 1)

    iou = intersection_area / float(boxA_area + boxB_area - intersection_area)
    return iou

# Evaluating the object detection performance for different classes
iou_scores = []
binary_iou_scores = []

for true_box in ground_truth_boxes:
    iou_scores_for_true_box = [calculate_iou(true_box, pred_box) for pred_box in predicted_boxes]
    iou_scores.append(max(iou_scores_for_true_box))
    binary_iou_scores.append(max(iou_scores_for_true_box) >= 0.5)  # IoU threshold for correct detection

# Calculating other metrics Precision, Recall, and F1 Score
precision = precision_score([1, 1, 1], binary_iou_scores)
recall = recall_score([1, 1, 1], binary_iou_scores)
f1 = f1_score([1, 1, 1], binary_iou_scores)

# Calculating Accuracy
accuracy = accuracy_score([1, 1, 1], binary_iou_scores)

# Calculating Dice Coefficient
dice_coefficient = 2 * np.sum(binary_iou_scores) / (len(binary_iou_scores) + 1e-8)

# Calculating Average Precision (AP) using Precision-Recall Curve
precision_values, recall_values, _ = precision_recall_curve([1, 1, 1], [max(iou_scores_for_true_box) for _ in range(len(predicted_boxes))])
average_precision = average_precision_score([1, 1, 1], [max(iou_scores_for_true_box) for _ in range(len(predicted_boxes))])

# Calculating Mean Average Precision (mAP) by finding the average of AP over many multiple classes
# In this below example, we have a single class so that mAP  will become equal to AP
mAP = average_precision

# Calculating Mean Intersection over Union (mIoU)
mIoU = np.mean(iou_scores)

# Printing the final results of different evaluation metrics
print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1 Score: {f1:.2f}")
print(f"Accuracy: {accuracy:.2f}")
print(f"Dice Coefficient: {dice_coefficient:.2f}")
print(f"Average Precision (AP): {average_precision:.2f}")
print(f"Mean Average Precision (mAP): {mAP:.2f}")
print(f"Mean Intersection over Union (mIoU): {mIoU:.2f}")

输出

Precision: 1.00
Recall: 1.00
F1 Score: 1.00
Accuracy: 1.00
Dice Coefficient: 2.00
Average Precision (AP): 1.00
Mean Average Precision (mAP): 1.00
Mean Intersection over Union (mIoU): 0.76

下一主题图像分割的平均交并比 (mIoU)

目标检测与识别的评估指标

引言

评估指标