神经网络的分类

2024年11月18日 | 阅读 6 分钟

引言

神经网络是机器学习和人工智能 (AI) 中的一个关键思想，它通过模仿人脑的结构和运作来分析和预测。神经网络基本上由相互连接的节点或神经元层组成。每个神经元接收信息、处理信息，然后输出发送到上一层的信息。神经网络可以通过一种称为训练的过程，根据输入修改其内部参数，从而学习并随着时间的推移变得更好。

神经网络的输入层是原始数据（例如文本、图片或数值）输入的地方。虽然输出层根据学习到的模式创建分类或预测，但随后的隐藏层逐渐从输入数据中收集模式和特征。神经网络可以执行各种任务，从时间序列预测和决策制定到图像识别和自然语言处理，这要归功于它们的层次结构。

激活函数（为模型添加非线性）、偏差和权重（在训练期间修改以减少错误）以及优化算法（修改模型参数以提高性能）是神经网络的重要组成部分。具有多个隐藏层（也称为深度神经网络）的神经网络在深度学习诞生以来在各个领域取得了非凡的成功，彻底改变了自动驾驶、医疗保健和金融等行业。

TensorFlow 概述

为了创建、完善和实施机器学习模型，Google Brain 开发了开源 TensorFlow 框架。它为程序员和研究人员提供了广泛的工具、通用库和资源环境，因此他们可以构建各种人工智能程序。

TensorFlow 的基本思想是计算网络，其中节点代表数学运算，边代表节点之间的数据流（张量）。这种基于图的方法可以实现高效计算、分布式训练以及在多个硬件平台（包括 CPU、GPU 和 TPU 或（张量处理单元））上的优化。

TensorFlow 的主要特点包括：

适应性： TensorFlow 具有很高的灵活性，允许用户使用 Keras 等高级 API 进行快速原型设计，或使用低级编程接口进行精细控制来创建模型。
可扩展性： TensorFlow 可以轻松地从在一台机器上运行扩展到分布式计算环境，从而可以在 CPU 或 GPU 集群上进行大规模模型训练。
适应性： 由于 TensorFlow 的模块化架构，添加新操作、层、优化技术和其他功能很简单，并且可以轻松实现功能定制。
多平台支持： TensorFlow 促进了机器学习算法在桌面、移动、Web 和云等多个平台上的部署，从而简化了它们在实际应用中的集成。
蓬勃发展的生态系统： TensorFlow 通过提供强大的工具和库生态系统来简化端到端人工智能工作流程，用于数据准备、模型调试、可视化和部署等活动。
支持和社区： TensorFlow 拥有一个蓬勃发展的开发、研究和从业者社区，以及广泛的文档、资源和支持。这些包括教程、讨论和预训练模型。

神经网络类型

前馈神经网络 (FNN)

最基本的神经网络是前馈神经网络，其中信息仅以单个方向从输入流向输出。
它们由一个输出层、一个输入层和一个或多个隐藏层组成。每一层都与其上一层完全连接。
当输入-输出映射简单时（例如在分类和回归中），FNN 通常被采用。

CNN 或卷积神经网络

卷积神经网络专门用于处理类似于网格的输入，例如图片。
它们使用卷积层，通过对输入数据应用多个滤波器来捕获特征的空间层次。
由于 CNN 可以自动从原始像素数据中提取有用的特征，因此它们在对象识别、图像分割和图像识别等任务中非常高效。

循环神经网络 (RNN)

循环神经网络旨在通过在隐藏状态中存储有关先前输入的信息来处理序列数据。
它们有向连接的循环使它们能够显示时间模式并捕获随时间变化的关系。
当输入数据的上下文和序列很重要时，RNN 通常用于时间序列预测、语音识别和自然语言处理 (NLP) 等任务。

长短期记忆 (LSTM) 网络

长短期记忆网络是一种 RNN，旨在解决梯度消失问题并捕获长期依赖关系。
为了控制信息流，它们使用门控机制（遗忘门、输出门和输入门）和记忆单元。
语言建模、情感分析和机器翻译是 LSTM 表现最佳的应用之一，因为它们需要跨长序列的信息保存。

门控循环单元 (GRU) 网络

门控循环单元网络类似于 LSTM，但设计更简单，参数更少。
它们的内部结构与 LSTM 不同，但它们也采用门控技术来控制信息流。
GRU 通常用作语音识别、NLP 和序列到序列学习等应用中 LSTM 的替代品，因为它们的计算效率更高。

自编码器网络

自编码器网络由一个编码器网络（使用压缩以较低维度格式表示输入数据（编码））和一个解码器网络（使用编码恢复原始输入）组成。
它们的主要应用是特征学习、降维、数据去噪和无监督学习。

生成对抗网络 (GAN)

两个神经网络（判别器和生成器）使用对抗训练同时进行训练，以形成生成对抗网络。
判别器学习区分生成数据和真实数据，而生成器学习生成与真实数据相同的数据样本。
GAN 用于图像创建、数据增强、图像到图像的转换（包括风格迁移）等任务。

变压器网络

变压器网络是一类神经网络架构，其中输入和输出之间的全局关系仅通过自注意力技术捕获。
它们高度并行化且高效，因为它们避免重复并一次处理整个输入序列。
由于其有效地处理长程关系，变压器在自然语言处理 (NLP) 活动（如文本生成、语言翻译和摘要）中变得越来越普遍。

神经网络分组

选择神经网络架构： 根据输入数据的参数和分类问题的具体细节，选择最佳神经网络设计。循环神经网络 (RNN)、卷积神经网络 (CNN) 和前馈神经网络 (FNN) 是常见设计的示例。
准备数据： 应对数据集进行预处理并准备好进行训练和评估。这包括导入数据、将其分为测试集和训练集，以及根据需要增强或标准化数据等活动。
构建神经网络模型： 使用 Keras 等高级 TensorFlow API 来指定神经网络的模型。通过分配层、指定激活函数、神经元数量以及任何进一步的架构特征来组装模型。例如，在 Keras 中，您可以使用函数式或顺序式 API 来构建模型。
编译模型： 在构建神经网络模型时提供优化器、评估指标和损失函数。根据分类问题的类型，选择合适的损失函数（多类分类的分类交叉熵，二元分类的二元交叉熵）。在训练期间，使用优化器（例如 SGD、Adam 或 RMSprop）来最小化损失函数。为了跟踪训练和评估期间模型的有效性，提供评估指标（例如准确率、精确率和召回率）。
训练模型： 使用 fit() 函数在训练数据集上训练构建的模型。指示批次大小（每个梯度更新处理的样本总数）和时期数（遍历整个数据集的迭代次数）。使用梯度下降和反向传播，算法通过修改其使用的参数（权重和偏差）来学习最小化给定的损失函数。在训练阶段定期验证测试数据上的模型，以防止过拟合和欠拟合。
评估模型： 使用 evaluate() 函数评估训练模型在测试数据上的表现。计算评估指标以评估模型的分类性能，例如精确率、召回率、精确率和 F1 分数。为了更多地了解该方法的优点和缺点，检查混淆矩阵和额外的诊断措施。
形成预测： 使用 predict() 函数将训练好的模型应用于新的未知数据并生成预测。通过使用 argmax 操作或预设阈值，从模型返回的概率或 logits 生成类别标签或预测。
调整和简化： 为了提高分类性能，根据评估结果和特定领域的需求，调整模型的架构、超参数和训练方案。

下一主题层次建模简介

神经网络的分类

引言

TensorFlow 概述

TensorFlow 的主要特点包括：