PyTorch中的图像识别MNIST数据集2025年3月17日 | 阅读 3 分钟 在本主题中,我们将讨论一种新的数据集,我们将用于图像识别。这个数据集被称为MNIST数据集。 MNIST数据集可以在线找到,它本质上只是各种手写数字的数据库。 MNIST数据集包含大量数据,通常用于展示深度神经网络的真正力量。 假设我们有下图 ![]() 当我们看这张图片时,我们的大脑和眼睛协同工作,将这张图片识别为数字八。 我们的大脑是一个非常强大的工具,能够非常快速地将这张图片归类为八。数字的形状有很多种,我们的头脑可以很容易地识别这些形状并确定它是什么数字,但是对于计算机来说,完成这项任务并不简单。 只有一种方法可以做到这一点,那就是使用深度神经网络,它允许我们训练计算机有效地对**手写数字**进行分类。 到目前为止,我们只处理了包含笛卡尔坐标系上的简单数据点的数据。 从开始到现在,我们一直在处理二元类数据集。 现在,我们将使用多类数据集,当我们使用多类数据集时,我们将在输出层中使用Softmax激活函数而不是sigmoid函数。 sigmoid激活函数对于对二元数据集进行分类非常有用,并且在排列0到1之间的概率值方面非常有效。 sigmoid函数对多类数据集无效,为此,我们使用能够处理它的Softmax激活函数。 MNIST数据集是一个多类数据集,由10个类组成,我们可以将数字从0到9进行分类。 我们之前使用的数据集和MNIST数据集之间的主要区别在于将MNIST数据输入到神经网络中的方法。 在感知器模型和线性回归模型中,每个数据点都由简单的X和Y坐标定义。 这意味着输入层需要两个节点来输入单个数据点。 在MNIST数据集中,单个数据点以图像的形式出现。 这些图像,包含在MNIST数据集中,通常是28*28像素,即水平轴上遍历28个像素,垂直轴上遍历28个像素。 这意味着来自MNIST数据库的单个图像总共有784个像素需要分析。 我们的神经网络的输入层有784个节点来分析这些图像之一。 ![]() 由于增加了输入节点,并且可以对数字进行分类的类的数量从0增加到9。 显然,我们的数据集比我们之前分析的任何数据集都更复杂。 为了对这个数据集进行分类,需要一个深度神经网络,并具有一些隐藏层的有效性。 在我们的深度神经网络中,输入层中有784个节点,一些隐藏层向前馈送输入值,最后输出层中有十个节点,分别对应每个手写数字。 这些值通过网络馈送,输出层中输出最高激活值的节点标识字母或数字。 下一主题图像识别中的图像转换 |
我们请求您订阅我们的新闻通讯以获取最新更新。