深度学习定义

2025年3月17日 | 阅读30分钟

深度学习属于机器学习技术的一个更大家族，它建立在人工神经网络和表征学习之上。学习的类型有三种：监督学习、半监督学习和无监督学习。

深度神经网络、深度信念网络、深度强化学习、循环神经网络、卷积神经网络和Transformer等深度学习架构已被应用于计算机视觉、语音识别、自然语言处理、机器翻译、生物信息学、药物设计、医学图像分析、气候科学、材料检测和棋盘游戏程序等领域。这些应用取得了与人类水平相当的成果。

人工神经网络（ANNs）是受生物系统分散通信和信息处理节点的启发而开发的。生物大脑和ANNs在许多方面存在差异。与趋于静态和符号化的人工神经网络不同，大多数生物物种的生物大脑是动态的（可塑的）和模拟的。

深度学习中的“深度”一词表示使用了多个网络层。早期研究表明，一个具有无限宽度的单隐藏层和非多项式激活函数的网络可以是一个通用分类器，但线性感知机不能。一种称为深度学习的现代形式专注于具有有限大小的无限数量层，从而在良性条件下保持理论上的普遍性，同时实现实际应用和优化实现。为了提高效率、可训练性和可理解性，深度学习还允许层多样化并显著偏离受生物学启发的连接主义模型。

定义

深度学习是一类机器学习算法[8]: 199-200，它使用多个层逐渐从输入中提取更高层次的信息。例如，在图像处理中，较低的层可以识别边缘，而较高的层可以识别对人类重要的物体，例如数字、字母或人脸。

看待深度学习的另一种方式是，将其视为从源（例如狗的图像）到已学习对象（狗）的人类学习过程的“计算机化”或“自动化”。因此，“更深层次”或“最深层次”学习的概念是有道理的。当从源到最终学习对象的学习完全自动化时，这被认为是“最深层次学习”。因此，“更深层次学习”一词指的是一种混合学习过程，它首先涉及人类从源到学习的半对象进行学习，然后计算机从半对象到最终学习对象进行学习。

概述

大多数现代深度学习模型都建立在人工神经网络之上，特别是卷积神经网络（CNN），尽管它们也可以包含命题公式或在深度生成模型中分层组织的潜在变量，例如深度信念网络和深度玻尔兹曼机中的节点。

在深度学习中，每个级别都掌握了以复合表示形式表达其输入数据的能力，这种表示形式更加抽象。在图像识别应用中，初始输入可能是一个像素矩阵；第一表示层可以抽象像素并编码边缘；第二层可以组合和编码边缘排列；第三层可以编码鼻子和眼睛；第四层可以识别图像包含一张脸。此外，深度学习过程可以自行确定哪些特征最适合哪个级别。这并不否定手动调整的必要性；例如，调整层数和层大小可以提供不同级别的抽象。

“深度学习”中的“深度”一词指的是数据转换所经过的层数。深度学习系统特别具有显著的信用分配路径（CAP）深度。从输入到输出的一系列转换构成了CAP。CAP描述了可能具有因果关系的输入和输出之间的关系。对于前馈神经网络，CAP的深度由隐藏层数加一（因为输出层也是参数化的）决定。对于循环神经网络，其中信号可以多次通过一个层，CAP的深度可能无限。虽然没有一个深度截止值可以在所有情况下区分深度学习和浅层学习，但大多数研究人员都同意深度学习需要CAP深度大于2。已经证明，深度为2的CAP是一个通用逼近器，因为它能够模拟任何函数。除此之外，添加层并不能提高网络逼近函数的能力。额外的层有助于有效地学习特征，因为深度模型（CAP > 2）能够比浅层模型提取更好的特征。

可以使用激进的逐层方法来创建深度学习结构。深度学习可以解开这些抽象并识别能够提高性能的属性。

深度学习技术通过将数据转换为紧凑的中间表示（类似于主成分）并生成分层结构以最大限度地减少冗余表示，从而减少了在执行监督学习任务时对特征工程的需求。

为了执行无监督学习任务，可以使用深度学习算法。鉴于未标记数据多于标记数据，这是一个显著的优势。深度信念网络是可以通过无监督学习的深度结构的一个示例。

解释

深度神经网络通常以概率推理或通用逼近定理来解释。

根据标准通用逼近定理，具有有限大小的单隐藏层的前馈神经网络可以估计连续函数。George Cybenko于1989年发表了关于sigmoid激活函数的第一个证据，Kurt Hornik于1991年将其推广到前馈多层结构。此外，最近的研究表明，通用逼近也适用于非有界激活函数，例如Kunihiko Fukushima的修正线性单元。

深度神经网络的通用逼近理论解决了具有有限宽度但无限深度的深度神经网络的能力。根据Lu等人的研究，如果带有ReLU激活的深度神经网络的宽度严格大于输入维度，则该网络可以逼近任何勒贝格可积函数；但是，如果宽度小于或等于输入维度，则深度神经网络不是通用逼近器。

概率解释来自机器学习研究。它包括推理概念以及训练和测试优化技术，它们分别与拟合和泛化相关。累积分布函数在激活非线性的概率解释中明确考虑。在神经网络中，Dropout最初是作为正则化器引入的，这是概率解释的结果。Hopfield、Widrow和Narendra等研究人员提出了概率解释，Bishop等人的调查有助于其普及。

历史

循环神经网络（RNN）和前馈神经网络（FNN）是两种神经网络。RNN的连接结构中存在循环，而FNN则没有。Ising模型本质上是一个由类似神经元的阈值元素组成的非学习RNN架构，由Wilhelm Lenz和Ernst Ising在1920年代开发和研究。该架构于1972年由Shun'ichi Amari进行了调整。John Hopfield在1982年使其学习RNN广为人知。语音识别和语言处理现在严重依赖RNN。Frank Rosenblatt在他的1962年著作中引入了多层感知机（MLP），它有三层：一个输入层，一个具有随机权重且不学习的隐藏层，以及一个输出层。根据Charles Tappert的说法，Rosenblatt开发并研究了当今使用的深度学习系统的所有基本组件。然而，这并不是真正的深度学习，因为只有输出层包含学习连接。它是一种后来被称为极端学习器的机器。

1967年，Alexey Ivakhnenko和Lapa发表了第一个用于监督式、深度、前馈、多层感知机的通用功能学习算法。1971年的一篇文章描述了一个使用数据处理的组方法训练的八层深度网络。使用随机梯度下降，Shun'ichi Amari于1967年开发了第一个用于深度学习的多层感知机。Amari的学生Saito在计算机研究中使用了具有五个层和两个可变层次的MLP，该MLP开发了内部表示以对非线性可分离的模式类别进行分类。

1970年，Seppo Linnainmaa发表了嵌套可微分函数离散连接网络的自动微分逆向方法。这被称为反向传播。它是1673年由Gottfried Wilhelm Leibniz推导出的链式法则在可微分节点网络上的有效应用。尽管Henry J. Kelley早在1960年就在控制理论中提出了反向传播的连续先例，但Rosenblatt实际上在1962年创造了“反向传播误差”一词，但他不知道如何将其付诸实践。

Paul Werbos于1982年首次以现在被认为是标准的方式将反向传播引入MLP。David E. Rumelhart等人于1985年发表了该方法的实验研究。

从Kunihiko Fukushima于1980年揭示的Neocognitron开始，开发了用于卷积神经网络（CNN）的深度学习架构，该架构具有卷积层和下采样层。他还于1969年创建了ReLU（修正线性单元）激活函数。整流器现在是CNN和一般深度学习最广泛使用的激活函数。CNN已发展成为一种重要的计算机视觉技术。

在布尔阈值神经元的背景下，Igor Aizenberg及其同事于1986年将“深度学习”一词引入机器学习社区，Rina Dechter在2000年对人工神经网络也做了同样的事情。

Wei Zhang等人于1988年使用反向传播算法通过卷积神经网络（一种在图像特征层和最终全连接层之间具有卷积连接的卷积Neocognitron）识别字母。此外，他们建议将光学计算系统与CNN结合使用。为了识别邮件上的手写邮政编码，Yann LeCun等人于1989年在CNN上使用了反向传播。该算法有效，尽管训练过程耗时三天。随后，Wei Zhang等人去除了最后一个完全连接的层，然后调整了模型，并于1994年将其用于乳腺X线照片中的乳腺癌诊断，以及1991年用于医学图像中的物体分割。几家银行已经使用LeNet-5（1998），一个七层CNN，对数字进行分类，以识别经过数字增强为32x32像素图像的支票上的手写数字。

在1980年代，当信用分配通道很长时，反向传播在深度学习中表现不佳。Juergen Schmidhuber（1992）提出了一种RNN层次结构，通过自监督学习逐层预训练以解决这个问题。它使用预测编码来学习跨一系列自组织时间尺度的内部表示。这有可能极大地帮助下游深度学习。通过将更高层次的块网络压缩为更低层次的自动化网络，RNN层次结构可以分解为单个RNN。1993年使用块解决了深度超过1000的深度学习挑战。

Juergen Schmidhuber在1992年还报告了一种称为线性Transformer或具有线性化自注意力的Transformer的RNN替代方案，除了一个归一化算子。一个慢速前馈神经网络通过梯度下降学习控制另一个神经网络的快速权重，使用自生成的激活模式FROM和TO的外积（现在被称为自注意力的键和值）。这种方法教授内部注意力焦点。这种快速权重注意力映射应用于查询模式。

Ashish Vaswani等人在其2017年的论文《Attention Is All You Need》中首次描述了现代Transformer。这与投影矩阵、softmax算子和两者结合在一起。Transformer作为自然语言处理模型越来越受欢迎。GPT-4、BERT和ChatGPT只是利用它的现代大型语言模型中的几个例子。Transformer也越来越多地应用于计算机视觉。

Juergen Schmidhuber还在1991年发布了对抗性神经网络，它们以零和博弈的方式相互竞争，其中获胜者输给失败者。第一个网络对输出模式的概率分布进行建模，它是一个生成模型。第二个网络使用梯度下降学习预测环境将如何响应这些模式。这被称为“人工好奇心”。Ian Goodfellow及其同事在2014年在一个生成对抗网络（GAN）中应用了这一想法。如果第一个网络的输出包含在指定集合中，则在这种情况下环境响应将为1或0。这可以用来制作逼真的深度伪造。Nvidia的StyleGAN（2018），它基于Tero Karras等人提出的Progressive GAN，产生了出色的图像质量。在这种情况下，GAN生成器从微小到巨大呈金字塔状放大。

根据Sepp Hochreiter的导师Schmidhuber的说法，他1991年的毕业论文是“机器学习史上最重要的记录之一”。除了测试神经网络历史压缩器之外，它还找到了并检查了梯度消失问题。Hochreiter提出了循环残差连接作为此问题的解决方案。长短期记忆（LSTM）作为一种深度学习技术由此发展而来，并于1997年首次发表。

具有长信用分配路径的循环神经网络，需要数千个离散时间步之前的历史事件记忆，可以使用LSTM学习“非常深度学习”任务。1999年，Felix Gers、Schmidhuber和Fred Cummins发布了带有遗忘门的“普通LSTM”。LSTM是20世纪最常用的神经网络。2015年，Rupesh Kumar Srivastava、Klaus Greff和Schmidhuber使用LSTM原理开发了Highway网络，这是一个拥有数百层且深度远超早期网络的前馈神经网络。七个月后，Kaiming He、Xiangyu Zhang、Shaoqing Ren和Jian Sun使用一种称为Residual神经网络的Highway网络变体（开放门或无门）赢得了ImageNet 2015竞赛。这个神经网络现在是21世纪最常被引用的神经网络。

1994年，André de Carvalho、Mike Fairhurst和David Bisset发表了一个多层布尔神经网络（也称为无权神经网络）的实验结果。该网络由三层自组织特征提取神经网络模块（SOFT）组成，随后是多层分类神经网络模块（GSN），两者都独立训练。相对于前一层，特征提取模块的后续层提取了更复杂的特征。

Brendan Frey于1995年展示了醒眠方法（他与Peter Dayan和Hinton共同开发），该方法可以在两天内训练一个具有六个全连接层和数百个隐藏单元的网络。自1997年以来，Sven Behnke在神经抽象金字塔中为前馈分层卷积技术添加了横向和向后连接，以更容易地将上下文纳入决策并迭代地消除局部歧义。

在1990年代和2000年代，由于人工神经网络（ANN）的计算成本高昂，并且当时对大脑生物网络连接的知识不足，因此具有任务特定手工特征的更简单模型，如Gabor滤波器和支持向量机（SVM），成为首选。

多年来，循环网络和其他具有浅层和深度学习的ANN都已用于语音识别。这些技术从未能够与基于语音生成模型并经过判别训练的非均匀内部手工高斯混合模型/隐马尔可夫模型（GMM-HMM）技术相匹配。神经预测模型中弱时间相关结构和梯度下降已被确定为主要挑战。训练数据不足和处理能力不足是进一步的挑战。

为了专注于生成建模，大多数语音识别研究人员放弃了神经网络。一个显著的例外发生在1990年代后期，在SRI International。SRI在美国政府NSA和DARPA的资助下探索了用于语音和说话人识别的深度神经网络。在1998年美国国家标准与技术研究院说话人识别评估中，由Larry Heck领导的说话人识别团队报告了深度神经网络在语音处理方面取得了显著成功。作为深度学习的第一个重要工业应用，SRI深度神经网络随后在Nuance Verifier中实施。

在1990年代后期，“原始”语谱图或线性滤波器组特征上的深度自动编码器架构中，首次成功探索了提升“原始”特征而不是手工优化的原理，证明其优于包含固定转换阶段的Mel-倒谱特征。语音的基本组成部分——波形——后来在更大范围内取得了出色的成果。

LSTM在该过程中取代了语音识别。在2003年，LSTM在多项测试中开始与传统语音识别器相匹配。2006年，Alex Graves、Santiago Fernández、Faustino Gomez和Schmidhuber将其与连接主义时间分类（CTC）集成到LSTM RNN堆栈中。据报道，2015年，Google的语音识别性能大幅提升49%，这得益于CTC训练的LSTM，他们通过Google语音搜索提供了这项技术。

据Yann LeCun称，2000年代初期，深度学习开始对商业世界产生影响时，CNN开始处理所有美国支票的10%到20%。大型深度学习语音识别工业应用首次出现在2010年左右。

Geoff Hinton、Ruslan Salakhutdinov、Osindero和Teh在2006年的出版物中展示了如何通过将每个层视为一个无监督受限玻尔兹曼机，然后使用监督反向传播对其进行微调，从而有效地逐层预训练多层前馈神经网络。这些出版物讨论了深度信念网络的学习发展。

2009年NIPS深度学习语音识别研讨会受到深度语音生成模型缺陷以及深度神经网络（DNN）在更好硬件和更大数据集下实际应用潜力的启发。人们认为，神经网络的主要问题可以通过使用生成模型深度信念网络（DBN）预训练DNN来解决。然而，发现使用具有大型上下文相关输出层的DNN进行简单反向传播而不是预训练，其错误率显著低于当时最先进的高斯混合模型（GMM）/隐马尔可夫模型（HMM）以及更高级的基于生成模型的系统。

两种系统产生的识别错误性质截然不同，这为如何将深度学习整合到所有主要语音识别系统使用的当前、非常有效的运行时语音解码系统中提供了技术见解。2009-2010年进行的分析比较了GMM（和其他生成语音模型）与DNN模型，激发了工业界对语音识别深度学习的早期兴趣。研究是在判别式DNN和生成模型之间进行的，性能相当（错误率小于1.5%）。2010年，研究人员将TIMIT的深度学习应用于识别具有大量词汇的语音，方法是采用基于决策树创建的上下文相关HMM状态的DNN的广泛输出层。

现代计算机视觉和自动语音识别（ASR）系统，特别是，将深度学习作为其架构的一部分。在许多大型词汇语音识别任务以及TIMIT（ASR）和MNIST（图像分类）等广泛使用的评估集上，结果已逐渐提高。卷积神经网络（CNN）被CTC用于LSTM取代了卷积神经网络（ASR），但它们在计算机视觉中表现更好。

由于硬件的改进，深度学习现在比以往任何时候都更受欢迎。Nvidia是2009年被称为深度学习“大爆炸”的一部分，“因为深度学习神经网络是用Nvidia图形处理单元（GPU）训练的。”那一年，Andrew Ng发现GPU可以将深度学习系统的速度提高大约100倍。GPU特别适合机器学习所需的矩阵/向量计算。GPU以数量级加速了训练方法，将它们的运行时间从数周缩短。深度学习模型可以有效地使用专业技术和算法优化等进行处理。

深度学习的革命

在2000年代后期的机器学习竞赛中，深度学习开始超越其他方法。作为第一个在模式识别竞赛中获胜的RNN，通过连接主义时间分类训练的长短期记忆（Alex Graves、Santiago Fernández、Faustino Gomez和Juergen Schmidhuber，2006）在2009年的连接手写识别中赢得了三项竞赛。后来，Google将经过CTC训练的LSTM用于智能手机上的语音识别。

2011年至2012年间，图像或物体识别产生了重大影响。尽管使用反向传播训练的CNN已经存在多年，并且CNN已在GPU上实现多年，但需要更快的GPU上的CNN实现才能推动计算机视觉的发展。Dan Ciresan、Ueli Meier、Jonathan Masci、Luca Maria Gambardella和Juergen Schmidhuber的DanNet在2011年的一项视觉模式识别竞赛中以三倍的优势击败了传统技术。这是首次达到超人表现。2012年5月，DanNet在ISBI图像分割竞赛中获胜，此前它在2011年赢得了ICDAR中文手写识别竞赛。

2012年6月，Ciresan等人在著名会议CVPR上发表的一项研究表明，GPU上的最大池化CNN可以显著提高多项视觉基准记录，这与此前CNN在计算机视觉会议上不常被讨论的情况发生了重大变化。DanNet还在2012年9月赢得了ICPR关于癌症检测大型医学图像分析的竞赛，次年该公司赢得了MICCAI关于同一问题的重大挑战。Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton开发的类似AlexNet在2012年10月的大规模ImageNet竞赛中击败了浅层机器学习方法。

在大规模语音识别中遵循类似模式，Karen Simonyan和Andrew Zisserman开发的VGG-16网络显著降低了错误率并赢得了ImageNet 2014竞赛。

此后，图像分类扩展到更具挑战性的为图像创建字幕的任务，通常使用CNN和LSTM的组合。

2012年，由George E. Dahl领导的团队使用多任务深度神经网络预测一种药物的生物分子靶点，赢得了“默克分子活性挑战赛”。2014年，Sepp Hochreiter的团队赢得了NIH、FDA和NCATS的“Tox21数据挑战赛”，他们使用深度学习来识别食品、家居产品和药物中环境化学品的脱靶和有害影响。

Roger Parloff在2016年描述了一场“深度学习革命”，它改变了人工智能行业。

Yoshua Bengio、Geoffrey Hinton和Yann LeCun于2019年3月获得图灵奖，以表彰他们在概念和技术上的创新，使深度神经网络成为计算不可或缺的一部分。

神经网络

人工神经网络（ANN）或连接主义系统是模仿动物大脑中生物神经网络的计算机系统。这些系统通常缺乏任务特定的编程，通过考虑示例来学习（逐渐更好地执行）任务。例如，在图像识别中，它们可能会研究手动标记为“猫”或“非猫”的样本图片，然后对其进行分析，利用分析结果在其他图片中找到猫。利用基于规则的编程，它们在难以用传统计算机算法表达的应用中最有用。

由相互连接的人工神经元（与生物大脑中的生物神经元相似）网络构成了ANN的基础。在任何两个神经元连接的点（突触）处，信号可以从一个神经元发送到另一个神经元。为了向与其连接的下游神经元发送信号，接收（突触后）神经元可以处理信号。一般来说，0到1之间的实数用于表示神经元的状态，其范围从“0”到“1”。此外，随着学习的进行，神经元和突触的权重可能会改变，影响它们向下游神经元发送信号的强度。

层是神经元的典型结构。对几层输入的更改可能采用各种形式。信号在从第一层（输入）到最后一层（输出）移动时可能会多次穿过这些层。

神经网络策略的最初目的是以类似于人脑的方式解决问题。随着时间的推移，重点从一般的心理能力转移到匹配特定的心理能力，导致生物学上的偏差，例如反向传播，或向后传递信息并改变网络以反映该信息。

计算机视觉、语音识别、机器翻译、社交网络过滤、玩棋盘和视频游戏以及医学诊断只是神经网络应用的一些领域。

截至2017年，神经网络通常非常庞大，拥有数百万个连接和数千到数百万个单元。这些网络中的神经元数量比人脑中的神经元总数少几个数量级，尽管它们仍然能够执行许多超出人类能力的任务，例如下“围棋”或识别面孔。

深度神经网络

在输入层和输出层之间，深度神经网络（DNN）是一种具有多个层的人工神经网络（ANN）。无论存在何种不同的种类，所有神经网络的神经元、突触、权重、偏差和函数都是恒定的组成部分。所有这些部分都像人脑一样作为一个整体工作，并且可以像任何其他机器学习算法一样进行训练。例如，训练用于识别狗品种的DNN将检查提供的图像并确定图像中的狗属于特定品种的可能性。在审查结果时，用户可以选择网络应显示哪些概率（高于某个阈值的概率等）并返回建议的标签。每个单独的数学运算都被视为一个层，复杂的DNN有多个层，因此得名“深层”网络。

DNN可以建模复杂的非线性关系。DNN架构产生的组合模型将对象表示为原始对象的层状组合。额外的层允许编译较低层的特征，可能允许使用比执行类似任务的浅层网络更少的单元来建模复杂数据。例如，已经证明，使用DNN而不是浅层网络可以显著更容易地逼近稀疏多元多项式。

深度架构中存在一些关键策略的众多变体。在特定领域，每种架构都取得了成功。当不同的架构未在相同数据集上进行测试时，通常无法比较它们的性能。

在前馈网络中，数据从输入层流向输出层，没有回环，这是DNN最常见的形式。DNN首先创建虚拟神经元的映射，然后为其连接赋予随机权重。通过将输入和权重相乘，会产生一个介于0和1之间的结果。如果网络未能充分识别特定模式，将使用权重调整方法。只要它能找出适当的数学运算来彻底处理输入，算法就可以增加某些参数的权重。

语言建模是循环神经网络（RNN）的应用之一，它允许输入双向流动。此应用充分利用了长短期记忆。

在计算机视觉中，使用具有卷积架构的CNN。在自动语音识别（ASR）的声学建模中，CNN也已得到应用。

挑战

与ANN一样，天真训练的DNN可能会出现许多问题。过拟合和计算时间是两个常见问题。DNN由于额外的抽象层而容易过拟合，这些抽象层使其能够建模训练集中不常见的依赖关系。为了防止过拟合，在训练期间可以使用正则化技术，例如Ivakhnenko的单元修剪、权重衰减（l2-正则化）或稀疏性（l1-正则化）。另一方面，dropout正则化在训练期间随机省略隐藏层中的单元。通过这样做，消除了不常见的依赖关系。最后但同样重要的是，可以通过裁剪和旋转等技术改进数据，以增加较小训练集的大小并减少过拟合的可能性。

DNN必须考虑的训练参数包括大小（层数和每层单元数）、学习率和初始权重。由于所需的时间和处理资源，可能无法在参数空间中搜索最佳参数。各种方法可以加速计算，包括批处理（同时计算多个训练实例的梯度而不是单独计算）。由于多核架构具有强大的处理能力，并且适用于矩阵和向量计算，因此这些架构（例如GPU或Intel Xeon Phi）的强大处理能力已显著加快了训练速度。

工程师还可以寻求其他类型的神经网络，它们具有更简单、更收敛的训练方法。这种神经网络称为CMAC（小脑模型关节控制器）。对于CMAC，既不需要随机化初始权重，也不需要随机化学习率。可以使用一组新数据来确保训练过程一步收敛，并且训练过程的计算复杂度与使用的神经元数量呈线性关系。

硬件

由于2010年代机器学习算法和计算机硬件的发展，具有多层非线性隐藏单元和非常大的输出层的深度神经网络可以更有效地训练。到2019年，图形处理单元（GPU），通常带有AI特定升级，已取代CPU成为大规模商业云AI训练的主要工具。从AlexNet（2012）到AlphaZero（2017），OpenAI评估了主要深度学习项目中使用的硬件计算。他们发现所需的计算量增加了30万倍，倍增时间趋势线为3.4个月。

深度学习处理器是专门用于加速深度学习算法的电子电路。华为智能手机中的神经处理单元（NPU）和Google Cloud Platform上的张量处理单元（TPU）等云计算服务器都是深度学习处理器的示例。由Cerebras Systems开发的CS-2是一个专门设计用于处理大型深度学习模型的系统。它基于第二代晶圆级引擎（WSE-2），这是市场上最大的处理器。

原子级薄的半导体被认为在开发节能深度学习硬件方面具有潜力，该硬件使用相同的基本器件结构进行逻辑操作和数据存储。对于基于浮栅场效应晶体管（FGFET）的逻辑内存器件和电路的创建，Marega等人于2020年发表了使用大面积有源通道材料的测试。

J. Feldmann等人于2021年提出了一种用于并发卷积处理的内置光子硬件加速器。与电气同行相比，集成光子学有两个主要优势，作者认为：（1）通过波分复用结合频率梳实现大规模并行数据传输，以及（2）极快的数据调制速度。他们的系统能够每秒执行数十亿次乘加运算，证明了集成光子学在数据密集型AI应用中的前景。

应用

自动语音识别

深度学习工作最有力、最引人注目的例子是大规模自动语音识别。LSTM RNN能够学习“非常深度学习”任务，这些任务需要将语音事件分隔开数千个离散时间步，每个时间步大约持续10毫秒。在某些任务上，带有遗忘门的传统语音识别器和LSTM具有竞争力。

使用TIMIT的小规模识别任务是该领域语音识别早期成功的基础。每个说话者从数据集中读取十个句子，该数据集包含来自八种主要美式英语方言的630位说话者。由于其规模小，可以尝试多种配置。更重要的是，TIMIT任务处理音素序列识别，与单词序列识别相比，它允许使用不精确的音素二元语言模型。

这使得更容易评估语音识别系统的声学建模组件的有效性。自1991年以来，已编制了用于计算以下所示错误率的音素错误率（PER）百分比。

1990年代后期用于说话人识别的DNN、2009年至2011年用于语音识别的DNN以及2003年至2007年用于LSTM的引入，促进了八个关键领域的进步。

通过扩展/外扩加速DNN训练和解码。
序列判别训练。
彻底了解底层机制的深度模型，可处理特征。
DNN和相关深度模型的适应。
DNN和相关深度模型可以学习多项任务并迁移知识。
CNN以及如何在设计中有效利用语音的领域知识。
丰富的RNN LSTM变体。
集成深度生成/判别模型和基于张量的深度模型是深度模型的另外两个子类型。

所有重要的商业语音识别系统（例如Microsoft Cortana、Xbox、Skype Translator、Amazon Alexa、Google Now、Apple Siri、百度和科大讯飞语音搜索、各种Nuance语音产品等）都以深度学习为基础。

图像识别

来自MNIST数据库的数据集是用于图像分类的典型评估集。MNIST由手写数字组成，包含60,000个训练样本和10,000个测试实例。与TIMIT一样，其紧凑的尺寸允许客户测试各种配置。在该数据集上，有一个详细的结果列表。

由深度学习驱动的图像识别已发展到“超人”水平，在准确性方面超越了人类竞争对手。这首次发生在2011年的交通标志识别中，以及2014年的人脸识别中。

经过深度学习训练的车辆现在可以理解360度摄像头画面。另一个例子是面部畸形新分析（FDNA），它检查与大量遗传疾病相关的畸形病例。

视觉艺术处理

深度学习方法在各种视觉艺术应用中日益普及，这与图像识别方面的进步密切相关。例如，DNN已经证明了它们的能力，可以：

确定绘画的风格时期
神经风格迁移是一种将艺术作品的美学应用于随机图像或视频，并使其看起来美观的过程。
使用任意视觉输入字段生成强大的视觉效果。

自然语言处理

自21世纪第一个十年以来，神经网络已被用于实现语言模型。机器翻译和语言建模都受益于LSTM。

负采样和词嵌入是该领域的其他重要方法。词嵌入，例如word2vec，可以被视为深度学习架构中的一个表示层，它将原子词转换为词相对于数据集中其他词的位置表示；该位置表示为向量空间中的一个点。当词嵌入用作RNN的输入层时，网络可以使用高效的组合向量语法来解析句子和短语。RNN实现的概率上下文无关文法（PCFG）是一种组合向量文法。

基于词嵌入的递归自动编码器具有评估短语相似性和发现释义的能力。对于各种任务，包括句法分析、情感分析、信息检索、口语理解、机器翻译、上下文实体链接、写作风格识别、文本分类等，深度神经网络架构取得了最准确的结果。

词嵌入在最近的进展中更广泛地应用于句子嵌入。

谷歌翻译（GT）使用的长短期记忆（LSTM）网络非常庞大。该系统使用谷歌神经机器翻译（GNMT）采用的基于示例的机器翻译技术，“从数百万个示例中学习”，“一次翻译整个句子，而不是部分”。谷歌翻译支持的语言超过100种。该网络不仅记忆从一个短语到另一个短语的翻译；它还编码“句子的语义”。GT中的大多数语言对都翻译成英语。

毒理学和药物发现

大部分潜在药物都被监管机构拒绝。这些失败是由不良相互作用（脱靶效应）、疗效不足（靶向效应）或意外有害影响引起的。深度学习在预测生物分子靶点、脱靶和食品、家居用品和药物中环境化学品的有害后果方面的应用已得到深入研究。

AtomNet是一个基于结构合理设计药物的深度学习系统。AtomNet被用于预测埃博拉病毒和多发性硬化症等疾病的新候选生物分子。

2017年，首次使用大量毒理学数据集，利用图神经网络预测化合物的各种特征。2019年，生成神经网络被用于创造化合物，这些化合物一直被实验测试到小鼠身上。

客户关系管理

已使用深度强化学习近似了潜在直销行动的价值，该价值以RFM变量表示。结果表明，客户生命周期价值是对估计价值函数的一种逻辑解释。

推荐机制

推荐系统已利用深度学习为基于内容的音乐和期刊推荐的潜在因子模型提取重要特征。已使用多视图深度学习来学习跨不同领域的用户偏好。该方法通过结合协作和基于内容的方法来改进各种任务的推荐。

生物信息学

在生物信息学中，自动编码器ANN被用于预测基因本体注释和基因功能关联。深度学习已应用于医学信息学领域，用于根据电子健康记录数据和可穿戴设备数据预测健康问题和睡眠质量。

医学影像分析

医学应用，如癌细胞分类、病变检测、器官分割和图像增强，已证明深度学习具有竞争性的有效性。现代深度学习技术展示了它们在诊断各种疾病方面的有效性，以及专家如何利用它们来提高诊断过程的速度。

移动营销

为移动广告找到合适的移动受众绝非易事，因为在任何广告服务器开发和使用目标细分之前，需要考虑和检查许多不同的数据点。深度学习已被应用于理解大型多维广告数据集。

与人类认知和大脑发展的关系

深度学习与20世纪90年代初认知神经科学家提出的关于大脑如何发展（更具体地说，新皮层如何发展）的一组假设密切相关。这些发展理论转化为的计算模型是深度学习系统的前身。这些发展模型相似之处在于它们以某种程度上类似于深度学习模型中使用的神经网络的方式促进自组织。这归因于大脑中许多建议的学习动态（例如神经生长因子波）。与新皮层类似，神经网络使用分层过滤器层次结构，其中每一层都考虑来自下一层（或操作环境）的数据，然后将其输出（可能还有初始输入）传输到后续层。

这种方法产生了一堆自组织传感器，这些传感器针对其操作环境进行了优化。1995年的一项解释称：“……婴儿的大脑似乎在所谓的营养因子波的影响下自行组织……大脑的不同区域依次连接，一层组织在另一层之前成熟，依此类推，直到整个大脑成熟。”

已经使用了许多方法来研究深度学习模型的神经生物学可行性。一方面，已经提出了对反向传播算法的各种修改，以使其处理更具现实性。其他专家认为，无监督深度学习技术，例如基于分层生成模型和深度信念网络的技术，可能在生物学上更准确。

Google的DeepMind Technologies开发了一个系统，可以使用像素作为输入来学习玩Atari视频游戏。他们于2015年展示了他们的AlphaGo系统，该系统已掌握围棋并能够击败专家。谷歌翻译使用神经网络在100多种语言之间进行翻译。

Covariant.ai于2017年推出，专注于将深度学习集成到工厂中。

截至2008年，德克萨斯大学奥斯汀分校（UT）的研究人员创建了一个名为“通过评估强化手动训练代理”（TAMER）的机器学习框架，该框架提出了机器人或计算机程序通过与人类教师交互来学习执行任务的新技术。在最初创建为TAMER之后，美国陆军研究实验室（ARL）和德克萨斯大学（UT）的研究人员随后于2018年推出了一个名为Deep TAMER的新算法。为了让机器人通过观察学习新任务，Deep TAMER使用了深度学习。通过使用Deep TAMER，机器人通过视频广播或实际观察人类执行任务来学习任务。后来，机器人在教练的一些指导下练习任务，教练会提供“做得好”和“做得不好”之类的评论。

网络空间威胁

研究和经验表明，当深度学习走出实验室进入现实世界时，人工神经网络容易受到黑客攻击和欺骗。攻击者可以通过发现这些系统用来操作的模式，以人类观察者无法识别的方式改变ANN的输入，从而使ANN找到一个匹配。例如，尽管图像对人类来说似乎与搜索目标完全无关，但攻击者可以对图像进行微小修改，从而使ANN仍然检测到匹配。这种欺骗被称为“对抗性攻击”。

2016年，研究人员利用一个ANN以迭代方式操纵照片，找到另一个ANN的焦点，并生成欺骗性图像。修改后的照片在人类看来是相同的。另一组展示了经过修改的照片的打印副本如何在被拍摄后成功欺骗图像分类系统。

一种防御方法是反向图像搜索，即将虚假图像提交给TinEye等网站，以便它查找相似图像。为了找到可能从中获取该片段的照片，可以通过仅使用原始图像的一部分来限制搜索。

另一组展示了一些迷幻眼镜如何欺骗面部识别系统，使其认为普通人是名人，从而可能实现冒充。2017年，科学家用贴纸改变了停车标志的外观，导致ANN错误地识别了它们。

然而，ANN可以进一步训练以识别欺骗行为，这可能会引发攻击者和防御者之间的军备竞赛，类似于已经描述了恶意软件防御业务的军备竞赛。

下一主题外键定义

深度学习定义

定义

概述

解释

历史

深度学习的革命

神经网络

深度神经网络

挑战

硬件

应用

与人类认知和大脑发展的关系

网络空间威胁

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

定义

定义2

深度学习定义

定义

概述

解释

历史

深度学习的革命

神经网络

深度神经网络

挑战

硬件

应用

与人类认知和大脑发展的关系

网络空间威胁

相关帖子

解决方案定义

机器定义

项目管理定义

现在完成时定义

基础定义

体积模量定义

比尔-朗伯定律定义

英语定义

回声定义

圆周定义

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器