什么是 ImageNet 挑战 (ILSVRC)2025年6月24日 | 阅读 4 分钟 引言计算机视觉领域一个极其强大的挑战是 ImageNet 大型视觉识别挑战赛,简称 ILSVRC。ILSVRC 于 2010 年首次亮相,并在改进 深度学习 和人工智能研究方面发挥了重要作用。ILSVRC 的目标是利用 ImageNet 数据库来提高物体识别和类别判断能力,该数据库包含数十万张经过分类的照片,涵盖大量类别。竞赛的进步促使了神经网络架构的核心改进,包括 AlexNet、VGG、GoogLeNet 和 ResNet,最终塑造了人工智能格局。 ILSVRC 的起源ImageNet 数据集由 Fei-Fei Li、Olga Russakovsky 及其斯坦福大学的团队于 2009 年协助创建。它包含超过 1400 万张已标注图像,涵盖 1000 个物体类别,这使其成为计算机视觉任务中最重要的数据集之一。 在 ILSVRC 之前,计算机视觉研究受到 MNIST、CIFAR-10 和 PASCAL VOC 等较小数据集的限制。这些数据集的复杂性和多样性不足以满足现实世界物体识别的需求。ILSVRC 于 2010 年的推出建立了一个基准,用于大规模比较物体检测和分类模型,挑战研究人员开发更好的 算法。 2017 年的主要挑战1. 物体定位来自 ILSVRC 2012 的分类和定位任务数据将保持不变。150,000 张从 Flickr 和其他 搜索引擎 收集的图像将构成验证集和测试集。每张图像都将被手动标注,说明 1000 种物体类型是否存在。尽管它们不重叠,但这 1000 个物体类别包含了 ImageNet 的内部节点和叶节点。作为验证数据,开发工具包将包含 1000 个类别的列表以及 50,000 张随机选择的已标注照片。在测试时,剩余图像将在用于评估后以无标签形式发布。训练数据(ImageNet 中包含 120 万张图像和 1000 个类别的部分)将被打包以便下载。此竞赛的验证集和测试集 数据 不包含在 ImageNet 训练数据中。 给定一张图像,此任务中的算法将为每个类标签生成五个边界框 (bi,i=1,…5) 和五个类标签 (ci,i=1,…5),按置信度递减排序。最接近图像地面真相标签的标签以及与地面真相重叠的边界框将用于评估定位标注的质量。目标是让算法识别图像中的多个物体,而不会因地面真相遗漏了某个实际存在的物体而受到惩罚。 对于 n 个类标签,图像的地面真相标签为 Ck,k=1,…n。对于每个地面真相类标签 Ck,地面真相边界框为 Bkm,m=1…Mk,其中 Mk 是第 k 个物体在当前图像中出现的次数。 如果 ci=Ck,则 d(ci,Ck)=0;否则,d=1。如果 bi 和 Bk 的重叠超过 50%,则 f(bi,Bk)=0;否则,f(bi,Bk)=1。算法在特定图像上的不准确度将使用以下公式计算: ![]() 在所有测试图像上平均误差最低的团队将赢得物体定位挑战赛。 2. 物体检测ILSVRC 2014 的物体检测任务训练集和验证集将保持不变。去年比赛的新图像将用于 更新 部分测试数据(ILSVRC 2016)。对于此任务,200 个基础级别的类别在测试数据上进行了完整标注,这意味着每个类别的边界框在图像中都包含标签。这些类别是根据平均物体实例数、物体尺度、视觉混乱程度以及其他几个参数精心选择的。并非所有 200 个类别都会出现在某些测试图像中。在此处查看带有标注的所有检测图像。 算法将为每张图像生成一组标注 (ci, si, bi),包括边界框 bi、类标签 ci 和置信度 si。此集合应包含 200 个物体类别中每个类别的每个实例。重复检测(同一物体实例的两个标注)和未标注物体都将受到惩罚。检测挑战赛的获胜者将是拥有在最多物体类别上最佳准确度的团队。 3. 使用视频进行物体检测物体检测任务的风格类似。今年的比赛的测试集和验证集将进行部分更新。该任务的 30 个基础级别类别是物体检测任务 200 个基础级别类别的一个子集。这些类别是根据平均物体实例数、运动类型、视频混乱程度以及许多其他特征精心选择的。每个类别在每个视频剪辑上都有完整的标签。在此处查看所有带有标注的训练/验证剪辑。 算法为每个视频剪辑生成标注 (fi, ci, si, bi),包括帧号 fi、类标签 ci、置信度 si 和边界框 bi。此集合应包含每个视频剪辑中每个类别的每个实例。重复检测(同一物体实例的两个标注)和未标注物体都将受到惩罚,因为评估指标与物体检测任务相同。视频竞赛的获胜团队将是在最多物体类别上拥有最佳准确度的团队。 下一个主题机器学习中的隐马尔可夫模型 |
我们请求您订阅我们的新闻通讯以获取最新更新。