医学影像中的目标识别

2025年3月17日 | 阅读16分钟

引言

在本教程中，我们将学习医学影像中的物体识别。在医学领域，检测物体是指对物体进行分类和回归的挑战。由于其在计算机辅助诊断和计算机辅助检测系统中的重要应用，研究人员正越来越多地将计算机检测的目的转移到医学应用中。深度学习物体检测技术在医学领域的不断发展，已被广泛应用于许多诊断应用中，例如检测糖尿病患者的视网膜[1, 2]，早期癌症检测等。在传统的医学检查中，图像上的病灶通常由医生手动检测。这是一项耗时且具有挑战性的任务。同时，由于每天需要查看大量图像，如果医生频繁从事这项工作，很容易导致疲劳、误诊或漏诊。

由于物体将在医学小图像中被检测到，并且机器会过滤掉大部分背景信息。然后，它能准确地识别图像中的小病灶。这仍然是医学领域物体检测的一个重大挑战。

物体识别的方法是什么？

为了解决医学领域低分辨率、噪声和小物体检测的问题。MS Transformer框架旨在通过过滤图像中的背景数据，为待检测物体提供更多权重。该框架由自跟踪、预训练模型、分层 Transformer 模型和 YOLOv5 头跟踪系统组成。首先，本文将输入图像划分为几个规则块，然后对某些块进行掩码。之后，在此基础上对未掩码的图像块进行编码，得到图像特征的基本分布。然后，我们将编码后得到的潜在特征向量和没有面部功能的特征向量输入到切割机中进行自监督学习，以重建检测图像丢失的像素。

因此，模型可以学习像素级的语义特征并去除冗余信息。然后，将得到的图像特征进行分层变换，并使用具有局部自跟踪系统的滑动窗口对其进行加权。为了区分两者，对待检测物体的特征给予更高的权重，对背景数据的特征给予较低的权重。最后，为了提高医学图像的模式检测功能，我们将包含重症监护的向量图像输入到 YOLOv5 单物体测试头中，执行了边界框的回归功能和分布预测，以及产品类别。它提供了一个通用的成本系统，将使个人能够识别出概率最高、边界框和产品标签。

上图显示了 MS Transformer 架构由三部分组成：图像重建层、Swin Transformer 和 YOLOv5。两个 Transformer 块由分层 Transformer 组成。然后，模型和全连接框预测病灶类别，物体检测的头部是边界框。

现在我们来了解 MS Transformer 的这三个部分，如下所示：

1. 图像重建层

图像重建层是 MS Transformer 的第一部分。该层连接到 Swin Transformer。图像重建是使用基于面部识别的自监督学习方法完成的。它使用自动编码器来重建原始信号。与现有方法一样，我们的方法有一个编码器，它对输入数据进行编码并将其映射到高向量。它还有一个解码器，它对高维向量做出决策，以开发待检测物体的特征。图像重建层由三部分组成：掩码、编码器和解码器。

掩码：它类似于 ViT 或 Vision Transformer。在这里，我们首先获取医学图像并将其分割成图像块。之后，我们比较图像并对其进行掩码。随机掩码有助于消除冗余，让模型学习图像的深度特征。

编码器：编码器是图像重建层的一部分。对于编码，我们选择一些不可掩码的图像块。我们嵌入位置向量，将特征向量输入到相应的未掩码图像块中，以反映向量之间的差异。之后，编码器通过块变换处理它们。

解码器：解码器是图像重建层的一部分。它连接着编码器。将包含未掩码数据和掩码标记的整个医学图像序列作为输入输入到编码器中。图像中的每个掩码都是一个可以学习以预测和重建丢失像素的向量特征。我们将所有链接的位置向量放入整个标记的集成数组中，以像编码器一样反映图像中的位置信息。另一组 Transformer 块然后处理重建的图像特征向量。

下图显示了带有掩码机制的自监督模型。

输入图像的区域在图像重建层中被随机掩码。然后，将掩码输入到 ViT 或 Vision Transformer 中进行编码和解码，通过损失函数最小化来重建图像。

2. 自注意力机制

我们引入了自注意力机制来反映图像不同区域向量之间的差异，并为图像中待检测的物体赋予更高的分数。在医学影像中，待检测的目标通常局限于一个小的区域。图像包含大量的噪声信息，由于图像分辨率差，模型很难找到有用的信息。因此，我们使用跟踪技术来捕捉输入特征向量中最重要的信息并赋予它更多的权重。

我们开发了以下自注意力函数来区分医学图像中不同特征向量的重要性。在这里，我们假设输入图像的特征图是 x。对自定义图的特征图进行操作以获得 f、g、h，并获得图像每个区域的向量表示 Zi 如下：

通过线性变换，特征图 x 的特征向量由 f(x)、g(x) 和 h(x) 表示。a_t,i 由第 i 个位置和第 t 个位置之间的相似性表示。W_v 的形状与特征图 x 相同。d_x 参数表示特征图的维度。参数 Z_i 表示最终权重。

3. 局部窗口中的自注意力

为了确保模型专注于检测小物体。在这里，我们创建一个窗口，以便均匀分割图像，并包含自注意力机制，使其不重叠。它还可以检测物体。在大小为 hw 的图像中，假设每个窗口有 MM 个补丁。全局 MSA 与 MSA 的计算复杂度之间的关系与窗口的大小有关。这些计算定义如下：

基于窗口的局部注意力无法跨窗口与其他模块连接，这限制了建模能力。在这里，我们使用窗口变换方法来解决上述问题并控制局部窗口的功率。自注意力窗口变换方法分为两个模块，并在分层 Transformer 块中使用。

第一个模块的窗口划分策略是将 8x8 的特征图划分为两个大的 4x4 窗口（M=4）。同时，第二个模块的窗口划分或分割策略与第一个模块相同。特征图被划分为 [M/2, M/2] 大小的窗口。

4. YOLOv5 架构

YOLOv5 架构在单个阶段检测图像。该架构由三个部分组成：骨干网络、颈部网络和最后一个是预测。在骨干网络中，在自监督学习机制和分层 Transformer 处理之后使用掩码。我们将提取的特征向量通过许多 CBL、SSP 和 BottleneckCSP 模块输入到 Focus 架构中。CBL 模块由卷积方法、BatchNorm 和 LeakyRELU 组成。卷积层涉及一个具有 32 个卷积核的卷积神经网络。其中的滤波器大小为 3x3，步幅为 2。

BottleneckCSP 模块由一个跨阶段部分网络组成，主要用于从特征向量中提取丰富的语义信息。与卷积神经网络不同，该模块减少了模型训练期间返回的梯度信息。SSP 模块具有空间金字塔功能，通常用于提取多特征。网络基础包括集成、支持功能、CBL 模块和 BottleneckCSP 模块。YOLOv5 用于添加 FPN + PAN 模型。多语言信息由 FPN 层从上到下传输。PAN 将语义信息从下到上传输到位置。在预测过程中，模型输出任何疾病的医学图像分布结果以及边界框坐标。

讨论如何训练模型。

在这里，我们将学习如何训练物体识别模型。模型训练可以分三个步骤完成：图像重建、病灶属性分类和边界框预测。现在我们来讨论所有这些步骤：

1. 图像重建

首先，我们来学习图像重建。它是模型训练的一部分。当使用掩码自监督技术过滤医学图像中的高噪声数据时。这里我们将使用均方误差（MSE Loss）来衡量每个像素的差异以及原始图像中的像素重建。这个差异用于指导模型参数的优化。MSE 损失函数定义如下：

在上式中，N 表示每个医学图像中的所有像素，y_i 表示第 i 个像素值的估计值，y ̂_i 表示图像中第 i 个像素的实际值。L_MSE 值越小，表示模型预测的图像像素值与实际图像像素值之间的差异越小。模型可以重建图像。根据 MSE 损失函数，重建图像数据的学习目标是获得所有样本预测值的最低损失。

2. 病灶属性分类

现在我们来学习病灶属性分类。它是模型训练的另一个部分。数据被用作多变量分类问题。为了对病灶类别进行分类，我们使用交叉熵作为损失函数。该损失函数方程如下：

在上式中，θ 表示可以从网络中学习到的参数，p_i^k 表示第 k 个病灶类别的概率，y_i^k 表示病灶类别的真实值，L_i^k (θ) 表示模型通过其较小的值进行的更好预测。

3. 边界框预测

现在，我们来学习边界框预测。它是模型训练的最后一部分。为了完成物体检测边界框的回归功能，我们将交并比（IoU）用作损失函数。它是真实框和预测框之间区域的交集比。边界框预测的公式如下：

在上式中，真实框由参数 box_gt 表示，预测框由参数 box_pre 表示。IoULoss 值越小，表示真实框和预测框之间的关联越紧密。

医学影像中的物体识别实验

在这里，我们对医学影像中的物体识别过程进行实验，该过程通过几个步骤完成，如下所述：

1. 实现细节

我们使用基于 Python 3.7 编程语言和 PyTorch 1.8.0 深度学习的 MS Transformer 模型。在 RTX3090 GPU 硬件模型上，所有网络训练和测试过程都已完成。我们将数据集按照 70%、15% 和 15% 的比例分配给训练、验证和测试过程。然后，我们将批大小设置为 32。

然后，我们随机初始化了网络所有层的权重。为了优化网络权重，我们使用了 Adam [38]。学习率设置为 1e-4。我们将网络的训练次数设置为最大 500 次，以便模型能够完全训练。同时，为了提高模型的整体实验系统能力。我们将输出和 L2 权重分别调整为 0.5 和 0.0005。

2. 使用的数据集

在本教程中，我们使用了 DeepLesion。NIHCC 团队创建了世界上最大的 CT 成像数据集和临床病史，用于记录医院收集的数据。这些信息为医学领域计算机辅助诊断技术和计算机辅助检测技术的发展提供了支持。该数据库包含 4,427 名患者的 10,594 次 CT 研究，以及 32,735 个在 32,730 张轴向切片上的标注。与大多数现有数据库不同，DeepLesion 数据集包含多种疾病类型。它还包括肺结节、骨骼病变、肾脏疾病等。

它们的直径范围从 0.21 毫米到 342.5 毫米不等。在这种情况下，待检测物体的小直径和需要识别的大类别使得病灶检测变得困难。在本文中，我们在该数据上评估模型的性能。训练方法和验证的分布在此基准测试数据集中指定，以及要定义的类别数量和评估指标如下表所示：

数据集	训练 (%)	验证 (%)	测试 (%)	类	评估指标
DeepLesion	70	15	15	8	IoU/mAP/ AP₅₀
BCDD	70	15	15	3	IoU/mAP/ AP₅₀

BCDD 是一个包含 4,888 个血细胞的血液样本数据集。BCDD 数据分为三类：WBC 或白细胞、RBC 或红细胞和血小板，每个图像都有一个标签。该数据包括 4,155 个白细胞、372 个红细胞和 361 个血小板的图像。每个图像的大小为 416 x 416。本文将使用 BCDD 数据集作为我们实验的另一个测试数据。此测试文件中的训练方法、测试方法和验证的分布以及要分析和测量的组数量。所有这些都显示在上表中。

3. 模型基线

对于物体识别，我们使用了模型的四种基线：Faster R-CNN、Mask R-CNN、Fast R-CNN、DETR 和 Swin Transformer。现在我们来了解它们：

a. Fast R-CNN

Fast R-CNN 模型由 Girshick 等人提出。它使用空间金字塔池化从候选框中提取特征。然后将得到的特征映射到固定长度的特征向量。然而，该模型存在局限性，且检测速度较慢，因为它在选择候选框时使用了与 R-CNN 相同的方法。

b. Faster R-CNN

Faster R-CNN 模型由 Ren 等人提出。该模型与 Fast R-CNN 模型不同。它使用 RPN 网络提取候选框，然后使用 ROI 池化过程合并对应于候选框的图的大小。最后，对候选框进行分类和回归。该模型提高了检测率，是一个端到端的模型。

c. Mask R-CNN

Mask R-CNN 模型由 He 等人提出。它用于检测不同大小的物体。该模型使用 RPN 网络提取各种特征。ROI Alignment 变换特征图，以减小物体和候选框之间的差异。该模型因其良好的结果而比以上两个模型更受欢迎。

d. DETR

DETR 模型由 Carion 等人提出。它将物体搜索功能视为组合的预测功能。DETR 使用 Transformer 架构对输入图进行编码和解码，并输出预测的限制位置的组合。该模型不需要在候选框之前进行返回。DETR 的性能得到了极大的提升。

e. Swin Transformer

基线的最后一个方法是 Swin Transformer。该模型由 Liu 等人提出。它可以作为物体检测的骨干网络。该模型将自注意力引入滑动窗口，并将其限制在局部窗口内。这使得模型能够为需要检测的物体分配更高的权重分数。

4. 指标评估

为了验证 DeepLesion 数据集和 MS Transformer 模型的有效性，我们必须使用准确率、AP50 和 mAP 来评估指标。

a. 准确率

准确率检查是指标评估过程之一。准确率的公式如下：

这里 δ₁ 和 δ₂ 分别代表测试数据集中样本的数量和校正样本的数量。第 i 个病灶样本由 x_i 参数表示。第 j 个病灶样本的正确预测由 A_j^T 表示。如果准确率值较大，则表示模型性能良好。

b. AP₅₀

AP₅₀ 检查是指标评估过程之一。AP₅₀ 的公式如下：

在上式中，我们学习了计算 AP₅₀ 的公式。该公式依赖于几个参数，如 1/101 和 P_smooth i。这里的 101 表示 [0, 1] 的区间范围除以水平轴上的 100 个等点。参数 P_smooth i 表示第 i 个点的平滑 PR 曲线精度。0.5 的 IoU 阈值由参数 AP₅₀ 表示。AP50 值越高，表示模型预测的边界框在最准确的坐标位置。

c. mAP

mAP 检查是指标评估过程之一。mAP 的公式如下：

在上式中，我们学习了计算 mAP 的公式。该公式依赖于几个参数，如 AP₅₀、AP₇₅、AP_S、AP_M 和 AP_L。当 IoU 阈值值为 0.5 时，由参数 AP₅₀ 表示。当 IoU 阈值值为 0.75 时，由参数 AP₇₅ 表示。像素面积小于 32² 的目标框的 AP 值表示参数 APS。参数 AP_M 表示像素面积在 32² 到 96² 之间目标框的 AP 值。参数 AP_L 表示像素面积大于 96² 的目标框的 AP 值。

医学影像中的物体识别实验

现在我们来了解物体识别的实验结果，如下所示：

a. 基线与最先进技术之间的差异

本教程将提出的 MS Transformer 模型与现有的主流和当前最先进的 DETR 模型进行了比较。在实验结果表明，本文提出的模型提高了 DeepLesion 基准数据集上预测框的性能和疾病群体的识别准确率。

在 DeepLesion 数据集中，该模型的识别准确率为 90.3%，比 DETR 高 3.6%；映射值为 89.6%，比 DETR 高 1.8%。这里的实验结果证明了我们模型的有效性。MS Transformer 和其他模型在 DeepLesion 数据集上的病灶类型识别准确率和边界框预测 AP 值分别列在表 2 和表 3 中。

表 2

这里，我们给出了 DeepLesion 的数据集。

病灶类型	LU	ME	LV	ST	PV	AB	KD	BN	平均数
评估指标	准确率	准确率	准确率	准确率	准确率	准确率	准确率	准确率	准确率
Faster R-CNN	85.9	85.2	88.2	83.0	93.5	81.2	78.3	85.6	83.5
Yolov5	87.2	85.6	86.6	85.4	93.6	84.3	76.5	87.3	85.6
Swin transformer	74.8	84.5	85.6	84.4	93.3	78.2	80.3	88.2	81.2
DETR	89.8	80.7	88.6	87.4	92.3	76.7	75.2	77.3	87.3
MS Transformer	90.7	86.3	94.6	92.9	93.4	72.8	79.7	92.2	91.2

表 3

这里，我们给出了 MS Transformer 的数据集。

我们还在 BCDD 测试数据上测试了 MS Transformer 和其他测试模型。实验结果表明，MS Transformer 成功提高了细胞位置预测和细胞类别识别的性能。

从 BCDD 数据集的表 4 和表 5 可以看出，MS Transformer 的平均识别准确率为 96.15%，达到了平均识别准确率。然后表 4 和表 5 如下：

表 4

这里，我们给出了 BCDD 的数据集。

表 5

与基线模型相比，MS Transformer 在 DeepLesion 和 BCDD 数据分析中可以取得更好的性能，这归功于模型不同的实现。本文提到的模型主要关注医学领域物体检测的目的。对于医学图像的分辨率低、需要检测的元素多、信息不准确以及对小物体给予更多权重的问题。当前最先进的 DETR 模型忽略了图像分辨率问题，尽管它是在现有的主流 Transformer 框架中开发的，并可以获得数据集结果。

b. 消融研究

我们 MS Transformer 模型的创新之处在于结合了掩码过程和 Transformer 分层模型。我们在 DeepLesion 基准数据集上进行了消融实验，通过逐个移除一个模块来检查其影响。消融测试结果如表 6 所示：

掩码	分层 Transformer	精度	mAP
+	-	74.3	73.5
-	+	81.7	80.6
+	+	90.3	89.6

实验结果表明，分层 Transformer 对模型的影响比掩码更大；仅使用掩码进行物体检测会使模型准确率降低 15.6% 和 16.1%，mAP 率降低百分比。在分层 Transformer 中使用局部自注意力窗口有助于模型为待检测的小物体提供更多权重，从而有助于准确识别物体。

我们还对不同掩码级别进行了消融实验，并测试了从 10% 到 80% 的掩码。在下图，我们展示了当掩码值在 10% 到 30% 之间时，模型的识别准确率非常接近，BCDD 和 DeepLesion 基准数据时钟的准确率分别约为 86% 和 82%。当标称值达到 40% 时，识别模型开始提高准确率，准确率分别为 94.3% 和 87.1%。

结论

在本教程中，我们正在学习医学影像中的物体识别。与现有研究不同的是，所提出的模型通过考虑医学领域中低分辨率、噪声和小物体等问题，提供了更好的结果。与现有工作相比，所提出的模型在 DeepLesion 基准数据集上取得了性能提升。

下一主题图像分割的区域级评估指标

医学影像中的目标识别

引言