图像分割中的 V-Net17 Mar 2025 | 6 分钟阅读 引言在本教程中,我们将学习 V-Net 在图像分割中的应用。V 代表虚拟网络。V-Net 得到了回顾。临床实践中最常见的临床数据是 3D 体积,例如显示前列腺的 MRI 体积。然而,大多数方法只能生成 2D 图像。 医学图像标注非常困难。专业人士必须进行标注,这非常昂贵。然而,自动分割有助于降低成本。 什么是图像分割?图像分割主要用于检测任何对象。在这里,我们可以通过为图像中的每个对象创建的像素级掩码来标记对象的存在。这个过程不仅仅是盒子生成之间的区别。因为它帮助我们识别图像中所有对象的形状。分割有助于识别构成该对象的像素,而不是绘制边界框。这种细节水平有助于我们处理从图像处理到卫星图像的各种任务。最近,提出了许多图像分割方法。但其中最受欢迎的是 Mask R-CNN。它由 K He 等人在 2017 年提出。图像分割主要分为两部分,如下所示 - 1. 实例分割 实例分割是图像分割的一部分。实例分割意味着同一类的多个实例被单独分割。这意味着属于同一类的对象被视为不同。因此,即使在同一类中,所有对象也具有不同的颜色。 2. 语义分割 语义分割是图像分割的一部分。在语义分割中,所有类型的对象都属于同一分类。所以,同一类的所有对象都用相同的颜色着色。 U-Net 和 V-Net 之间有什么区别?在这里,我们将学习 V-Net 和 U-Net 之间的区别。U-Net 和 V-Net 的构造方法相似。它提供了两种不同的连接方法:收缩方法,逐渐去除目标的特征,并将提取的特征扩展到原始图像中的特定位置。构建的主要思想是时钟,然后两条收缩和扩张的道路在中途相遇形成一个时钟。这种模型类型提供了基于输出的精确分割,并且仍然是当今计算机视觉中应用最广泛的方法之一。 描述 V-Net 的架构。在这里,我们将简要了解 V-Net 的架构。V-Net 架构如下图所示。网络的左侧有一个压缩路径,而右侧则在信号恢复正常大小之前对其进行解压缩。 ![]() 1. 左侧V-Net 的左侧由执行各种任务的各个部分组成。每个级别都有一个到三个卷积层。在每个阶段都会检查一个残差函数。每个级别的输入用于非线性卷积层,然后该级别可以学习其函数以及最后一个卷积层的输出。与 U-Net 等非残差学习相比,该模型提供了集成。 使用体素核,可以在每个阶段执行卷积。体素的大小为 5*5*5。根据压缩方法,通过使用 2 × 2 × 2 体素宽的核进行卷积来减小分辨率。因此,生成的特征图大小减半,其作用类似于池化层。V-Net 压缩方法的每个阶段,通道数都翻倍。 池化操作被卷积函数替换。它有助于在训练期间减少内存占用,因为反向传播不需要将池化层的输出映射回其输入的开关。 通过下采样可以增加感受野。基本上,下采样是我们通过降低样本位数来减小数字信号的过程。 这里,PreLU 用于非线性激活函数。 2. 右侧V-Net 的右侧由执行各种任务的各个部分组成。网络提取特征并扩展低分辨率特征图的支持,以收集和聚合显示双通道体积分割所需的信息。每个阶段都执行反卷积操作以增加输入大小。此输入之后是一个到三个卷积层。它由前一层使用的 5×5×5 核的一半组成。 ![]() 与网络左侧类似,学习了一个残差函数。最后一个卷积层计算两个特征图。它具有 1×1×1 的核大小,并产生与输入相同大小的输出。 创建的两个输出图是使用 softmax 体素的前景和背景的概率分割。基本上,右侧执行上采样(up convolution)。 3. 水平连接在 V-net 架构中,我们看到了一些水平连接。在压缩路径中,可能会丢失位置信息或数据。这与 U-Net 类似。因此,通过 CNN 的左侧提取的特征,可以使用水平连接将其转发到 V-Net 的左侧。V-Net 右侧的水平连接可以提供位置信息。通过这种水平连接可以改进最终轮廓预测。使用这种水平连接还可以改进模型的收敛时间。 4. Dice Lossdice loss 公式 D 可以表示如下 - ![]() 公式中,Dice 系数 D 位于两个二值体积之间。它的范围是 0 - 1。 这里,N 代表体素,pi 代表预测,gi 代表体素和地面真实体素。 如前所述,我们在网络的末端通过 SoftMax 获得输出。这里,网络的每个体素都属于前景和背景。Dice 系数 D 是可微分的,如下所示 - ![]() 当进行 Dice 系数计算时,无需对不同类的样本进行加权,即可生成相同数量的前景和背景体素。 5. 结果结果分为两部分:训练和测试。现在,我们将在下面的部分中学习这两部分 - a. 训练 网络处理的所有体积大小为 128 × 128 × 64 体素。其分辨率为 1 × 1 × 1.5 毫米。数据集很小,因为需要一到多位专家来跟踪准确的位置信息并承担相关的成本。使用 PROMISE 2012 活动数据集中的 50 个 MRI 体积以及现实的指令对受试者进行了训练。 这里需要进行数据增强。通过使用从 2x2x2 控制点和 B 样条插值获得的密集变形场,为每次迭代生成训练图像的随机变形版本。由于内存要求高,mini-batch 只包含 2 个体积。通过直方图匹配来改变数据的密度,以将每次迭代使用的学习体积的密度替换为另一个随机选择的数据集。 b. 测试 这里处理的未见过(unseen)的体积数量是 30。在 SoftMax 之后,具有最高概率的体素被分配给前景,否则分配给背景。这被认为是解剖部分。 在测试部分,我们主要测量了 Hausdorff 距离和 Dice 系数 D。通过 Hausdorff 距离,我们可以测量两个或多个图像之间的距离。
![]() 上表显示 V-Net 结合 Dice Loss 比 V-Net 结合逻辑损失效果更好。V-Net 的表现优于现有技术,不仅是 Imorphics。 结论因此,通过本教程,我们学习了 V-Net 在图像分割中的应用。图像分割主要用于检测任何对象。V-Net 基本上是一种卷积神经网络。它用于 3D 图像分割。在这里,我们学习了图像分割、V-Net 和 V-Net 架构。V-Net 架构由两部分组成,即左侧和右侧。在这里我们也学习了这些部分。 下一主题使用机器学习预测森林覆盖类型 |
我们请求您订阅我们的新闻通讯以获取最新更新。