用于计算机视觉的深度度量学习

2025年2月26日 | 阅读 7 分钟

引言

在计算机视觉和机器学习领域,深度度量学习 (DML) 专注于以一种使比较样本相似性或差异性更容易测量的方式来学习数据表示。DML 尝试将数据点放置到一个无限空间中,其中点之间的分离代表它们的语义相似性,这与传统的回归和分类任务(目标是预测标签或连续值)形成对比。

DML 近来引起了人们的极大兴趣,因为它适用于许多领域,最值得注意的是计算机视觉。评估图片相似度的传统方法依赖于手动创建的特征或表面学习策略,这些方法通常缺乏可扩展性和泛化能力。但自从深度学习成为现实以来,DML 取得了显著进展。深度神经网络通过从原始数据中自动学习高度有偏见的特征,从而可以创建更有效和高效的相似度度量。

DML 已被大规模数据集和复杂的网络拓扑利用,以转变诸如对象识别、图片检索和聚类等任务。它的一些应用可以在许多不同的领域中找到,例如无人驾驶汽车、监控系统、医学成像和图像搜索引擎。此外,在理论研究和实际应用的双重推动下,DML 方法的不断发展表明,计算机视觉系统的性能和弹性只会变得更好。

计算机视觉基础

  • 视觉描述: 掌握数字图像描述的基本概念,包括像素、色彩空间和图像组织等术语。
  • 图像处理: 图像形态学操作、边缘检测、图像平滑和滤波等基本的图像控制和增强技术。
  • 特征提取: 识别照片中明显的模式或元素,例如角点、边界、纹理和关键点,这些对于进一步评估至关重要。
  • 图像分割: 根据颜色、纹理或强度相似性,将图像隔离为有用的区域或事物。
  • 卷积神经网络 (CNN): 模板匹配或 Haar 级联都是基于深度学习的技术,用于识别和检测照片中的物体。
  • 运动分析: 跟踪事物随时间推移的运动,并利用运动识别和光流评估技术,解开视频剪辑中的运动模式。

计算机视觉的深度学习方法

  • 卷积神经网络 (CNN): CNN 专门用于分析网格结构化的数据,例如照片。它们由多个卷积层、池化层和完全互连的层组成,这些层经过训练,可以识别视觉特征的分层描述。由于 CNN 可以从原始像素输入中自动提取重要特征,因此它是许多最先进的计算机视觉模型的基础。
  • 迁移学习: 使用已经在大型数据集(例如 ImageNet)上学习过的预训练 CNN 模型,并使用较小的数据集来改进它们,以用于特定的计算机视觉应用,这被称为迁移学习。这种方法使模型训练更快、更有效,尤其是在标记数据的数量受到限制的情况下。
  • 循环神经网络 (RNN): RNN 已被用于包括动作识别、字幕和视频分类在内的应用,因为它们可以很好地处理连续数据。擅长捕获视频数据中时间关系的流行 RNN 变体包括 LSTM(长短期记忆)和门控循环单元 (GRU) 架构。
  • 生成对抗网络 (GAN): 网络生成器以及鉴别器(两个同时以竞争方式训练的神经网络)构成了 GAN。图像生成、图像到图像的翻译、高分辨率和风格迁移等多个计算机视觉任务已通过 GAN 得到解决。
  • 注意力机制: 注意力方法通过允许模型专注于图片或序列的特定区域,从而提供更有效的特征提取和上下文建模。CNN 和 RNN 的设计目的是通过包含注意力过程,在诸如对象识别、字幕图像和回答视觉问题等任务上表现更好。

在应用程序中利用深度度量学习

  • 图像采集: DML 使从大型图像库中高效检索视觉上相似的照片成为可能。反向照片搜索引擎和基于内容的图像检索系统等应用由 DML 模型实现,这些模型可以通过学习有偏见的嵌入空间来根据内容相似性恢复相关图片。
  • 人脸检测: 通过获得面部图片的紧凑且具有区分性的描述,DML 在人脸识别系统中发挥着至关重要的作用。通过使用这些表示,可以准确匹配各种姿势、照明场景和情感中的面部,从而为监控、生物识别和身份验证开辟了新的可能性。
  • 人员重新识别: DML 用于监控网络中的人员重新识别系统,以跨非重叠相机视图匹配人员。DML 模型可以通过开发稳健的特征表示,即使在存在视角、遮挡和外观变化的情况下,也能有效地区分不同的人员。
  • 对象跟踪: 为了在视频排序中保存事物在渐进式画框之间的区分性证明,对象跟踪需求使用 DML 算法。通过对对象入口之间的比较知识度量,DML 副本可以准确地将事物随时间推移连接。这使它们因不相似的需求而受到重视,包括增加的真实感大纲、视频评论和自我领先的汽车视觉结果。

详细度量评估的框架

  • 别致的合作: Siamese 系统包括恰好两个相同的权重交换子网络。每个子网络处理输入数据的一个观点。然后基于它们彼此之间相似或不同来对子网络作物进行计数。Siamese 网络广泛用于一轮学习、验证和比较评估。
  • 三网络网络: 三元组网络可以通过优化其锚定、有利和不利环境的接近度来学习嵌入。假设数据 (安全、有利和消极) 的三元组会议,网络学习减少锚点和有利示例之间差异,并提高重心和消极实例之间的分裂。人脸识别、图片检索和人脸识别等需求从三重网络演示中获得了大量收益。
  • 对比教育: 通过膨胀正样本对之间的相似性并降低不良样本对之间的相似性,不兼容的学习试图学习嵌入。使用互补的损失函数(包括冲突损失和 InfoNCE( InfoNCE: 噪声对比估计))来定期训练不兼容的学习模型。对比知识的需求包括小样本教育、图片学习和自我监督学习。
  • 四对网络: 通过添加更多有害样本,四元组网格超越了三重网络,为每个运动实例创建了四个数据点(锚点、正点、负点和负点)。四元组系统试图通过考虑到多个负面示例来提高预测对异常和嘈杂数据的弹性,以及学习嵌入的司法能力。
  • 使用注意力机制学习深度度量: 为了增强受过教育的嵌入和quintessence对努力数据有价值领域的判别能力,考虑方法已纳入深度学习的最新进展。通过使模型接近选择性地支付相关特征,注意力工具提高了比较措施表示学习的效率和效率。
  • 元学习的架构: 诸如匹配网络和原型网络之类的元学习架构的目标是学习非常适合需要少量标记数据或新类别的应用程序的嵌入。这些设计使用诸如小样本知识和情节性练习之类的元学习策略来迅速适应不相似的数据传递。

深入度量分析的损失函数

  • 收缩损失: 在嵌入空间中,对比损失倾向于不同的样本相距较远,而相似的品酒师彼此靠近。它通常被标记为具有津贴阈值的基于边界的损失目的,该阈值可最大程度地提高负面耦合之间的冷度,并最大程度地减少自信对之间的距离。在对比学习方法和 Siamese 网络中,损失的差异通常被采用。
  • 三元组的损失: 锚点、正样本和负样本之间的相对长度控制着三元组损失。通过边界阈值,它可以最大程度地提高插件点与负样本之间的分离度,并最大程度地减少新闻播音员与正样本之间的距离。三重网络经常服务于三重损失,这是用于诸如人脸信用和图片恢复之类的请求的全部内容。
  • 边距减少: 乐观和负面组合之间的最小期望分离受到边距参数的控制,该参数由基于边距的损坏方程(例如 MarginSoftmaxLoss、MarginRankingLoss 和 MarginTripletLoss)呈现。这些损失的目的通过惩罚边距限制的开口来鼓励针对具有乐观和消极值的样本,对根深蒂固的数据进行充分分离。
  • N-Pair赤字: N-Pair 损失通过扩展到考虑每个锚点-正样本对的多个负样本来扩展三元组损失。其公正性是最小化负样本与新闻播音员之间的差异,并最大化锚定与正样本之间的稳定性。诸如图像组织和表达式验证之类的应用程序已利用 N-Pair 损失,这对于大规模编目作业特别有用。
  • 角位置损失: 为了赞同在语义上链接的样本彼此相邻放置,同时让不同的实例以显着的角度距离分隔开,骨损失旨在对嵌入空间执行角度限制。已经确定,角度损失程序(例如 ArcFace 和 CosFace)会增加受过教育的嵌入的司法强度,并且通常在人脸信用任务中起作用。
  • InfoNCE减少: 自我监督学习以及对比学习方法中的一种流行的对比损失版本是 InfoNCE(噪声对比估计)损失。为了有效地开发反映语义相似性的表示,它最大程度地提高了样本对之间的共享知识,并最小化了负对之间的相互知识。