反向传播 - 算法

2025年3月17日 | 阅读11分钟

反向传播是训练人工神经网络的一个至关重要的算法，它使得神经网络能够学习数据中复杂的模式和关系。该系统首先进行前向传播，输入数据通过网络，在每一层经历加权求和和激活函数。然后将计算出的输出与实际目标值进行比较，生成一个量化差异的损失。在随后的反向传播过程中，利用微积分链式法则计算损失函数对网络权重和偏差的梯度。这些梯度指导着在梯度相反方向上调整权重和偏差，以最小化损失。通过使用优化算法（通常是梯度下降），模型会迭代地优化其参数。这种前向传播和反向传播的迭代循环一直持续到网络收敛到可以根据给定输入集预测输出的状态。反向传播是神经网络训练的基础，它使它们能够从训练数据中泛化模式，从而对新的、未见过的数据进行预测。

神经网络，就像所有其他监督学习算法一样，通过使用作为训练数据提供的（输入，输出）对集合来学习将输入映射到输出。特别是，神经网络通过对输入应用一系列变换来执行这种映射。神经网络由多个层组成，每一层都由单元（也称为神经元）组成，如下所示：

在上图中，输入首先通过第一个隐藏层进行转换，然后是第二个隐藏层，最后才预测输出。每次转换都由一组权重（和偏差）指导。为了学习东西，网络必须在训练过程中修改这些权重，以最小化预测输出与它从输入映射出的输出之间的误差（也称为损失函数）。使用梯度下降优化技术，权重在每次迭代中按如下方式调整：

反向传播 - 算法，其中 L 是损失函数，ϵ 是学习率。

如上所示，损失函数关于权重的梯度在每次迭代中从权重中减去。这就是所谓的梯度下降。梯度反向传播 - 算法衡量了权重对损失的贡献。因此，梯度越大（绝对值），权重在每次梯度下降循环中的修改就越多。

损失函数最小化任务最终与上述梯度的评估相关联。为了进行此评估，我们将分析三个提案：

梯度的解析计算
反向传播或反向模式自动微分。
梯度的近似值为：

为了简化我们的理解，我们将假设网络的每一层由一个单元组成，并且只有一个隐藏层。网络现在看起来像这样：

让我们来谈谈输入是如何被转换以创建隐藏层表示的。在神经网络中，通过执行前面一层两个操作来创建一层：

首先，前面的层通过线性运算进行转换：其值乘以权重，并加上偏差。结果是：z=xw+b，其中 x 是前面一层单元的值，w 和 b 是上面提到的权重和偏差。
其次，单元的激活函数接收前面线性运算的输入。这种激活通常用于引入非线性，以解决复杂问题。这里，我们将简单地假设这个激活函数是 sigmoid 函数：。因此，一层的值 y 可以表示为 y=σ(z)=σ(xw+b)，其中 x、w 和 b 的定义如上。

因此，在我们的场景中，有一个输入层、一个隐藏层和一个输出层，所有这些都由一个单元组成，并命名为 x、h 和 y，我们可以写出：

h=σ(xw_(1 )+b_1)，其中 w_1 和 b_1 分别是用于从输入计算隐藏单元的权重和偏差。
y=σ(hw_2+b_2)，其中 w_2 和 b_2 分别是用于从隐藏单元计算输出的权重和偏差。

现在，我们可以通过应用一系列变换来确定输出 y 相对于输入 x 的值。这被称为前向传播，因为计算沿着网络向前移动。

接下来，我们需要将预测结果与实际结果 (yT) 进行比较。如前所述，我们使用损失函数来评估网络在预测时犯的错误。在本节中，我们将使用平方误差作为损失函数，如下所示：反向传播 - 算法

如前所述，权重（和偏差）必须根据该损失函数 L 相对于这些权重（和偏差）的梯度进行更新。这里的问题是评估这些梯度。第一个选项是手动推导它们。

解析微分

尽管这种方法费时且容易出错，但为了更好地理解问题，值得进行研究。由于只有一个隐藏层和一个单元，我们在这里大大简化了问题。然而，解析推导需要非常小心。

我们已经计算了相对于 w_2 的梯度，而计算相对于 w_1 的梯度将更加困难。因此，这种解析技术很难应用于复杂网络。此外，这种技术在计算上会相当浪费，因为我们无法利用梯度具有通用定义的事实，我们很快就会证明这一点。为了获得这些梯度，数值近似将是一个更简单的选择。

数值微分

为了简单起见，我们可以通过以下方法确定梯度：

如前所述，虽然比解析推导简单，但这种数值微分的精度也较低。此外，为了评估每个梯度，我们必须至少计算一次损失函数。一个拥有 100 万个权重参数的神经网络将需要 100 万次前向传播，这显然效率低下。现在让我们探索反向传播策略，以找到一个更好的解决方案，这也是本文的重点。

反向传播

在深入研究反向传播之前，让我们先描述一下导致损失函数评估的计算图。

此图中的节点表示为计算损失 L 而获得的所有值。如果一个变量是通过对另一个变量执行操作而计算出来的，则在两个变量节点之间形成一条边。查看此图并应用微积分链式法则，我们可以将 L 相对于权重（或偏差）的梯度描述为：

这里一个非常重要的事情是，梯度反向传播 - 算法的评估可以重用梯度评估期间进行的一些计算。如果我们评估梯度，情况会更清楚。

方程右侧的前四项与反向传播 - 算法中的项相同。

如上面的方程所示，我们从计算图的末端开始计算梯度，然后向后工作，以获得损失相对于权重（或偏差）的梯度。由于其反向评估，该算法被称为反向传播。下图说明了反向传播算法：

实际上，现在一次梯度下降迭代只需要一次前向传播和一次反向传播就可以计算从输出节点开始的所有偏导数。因此，它比早期技术效率高得多。在 1986 年发表的第一篇关于反向传播的文章中，作者（包括 Geoffrey Hinton）使用反向传播来使内部隐藏单元学习领域属性。

现在，为了更好地理解，我们将使用 MNIST 数据集来实现反向传播。

代码

导入库

import numpy as np
import pandas as pd
import math
import matplotlib.cm as cm 
import matplotlib.pyplot as plt
import os
print(os.listdir("../input"))

读取数据集

train_data = pd.read_csv("../input/train.csv")
test_data= pd.read_csv("../input/test.csv")

#separating labels and pixels
train_labels=np.array(train_data.loc[:,'label'])
train_data=np.array(train_data.loc[:,train_data.columns!='label'])
#train_data=train_data/train_data.max()

分析数据

我们将可视化某个索引点的数据，并通过更改索引来查看其他元素。创建一个图表来显示数据集中特定元素出现的频率。

#Visualize the input data. Change the index value to visualize the particular index data.
index=7;
plt.title((train_labels[index]))
plt.imshow(train_data[index].reshape(28,28), cmap=cm.binary)

输出

print("train data")
y_value=np.zeros((1,10))
for i in range (10):
    print("occurance of ",i,"=",np.count_nonzero(train_labels==i))
    y_value[0,i-1]= np.count_nonzero(train_labels==i)

输出

y_value=y_value.ravel()
x_value=[0,1,2,3,4,5,6,7,8,9]
plt.xlabel('label')
plt.ylabel('count')
plt.bar(x_value,y_value,0.7,color='g')

输出

#converting train_label in one hot encoder representation 
train_data=np.reshape(train_data,[784,42000])
train_label=np.zeros((10,42000))
for col in range (42000):
    val=train_labels[col]
    for row in range (10):
        if (val==row):
            train_label[val,col]=1
print("train_data shape="+str(np.shape(train_data)))
print("train_label shape="+str(np.shape(train_label)))

输出

激活函数

激活函数是人工神经网络的重要组成部分，用于引入非线性，使其能够学习复杂的模式。两个常用的激活函数是 ReLU（整流线性单元）和 Softmax。

ReLU（整流线性单元）： ReLU 是一个简单但广泛使用的激活函数。它将输入中的所有负值替换为 0，并保持正值不变。ReLU 在模型中引入非线性，使神经网络能够学习和适应数据中的复杂模式。它计算效率高，并且在许多深度学习应用中已被证明表现良好。
Softmax： Softmax 通常用于神经网络的输出层，用于处理多类别分类问题。它将网络的原始评分（logits）转换为概率。Softmax 函数接受一个实数向量作为输入，并输出一个介于零和一之间的值向量，使得这些值的总和为一。每个输出代表该中心属于特定类别的可能性。
Sigmoid： Sigmoid 函数，也称为 logistic 函数，是人工神经网络中另一种常用的激活函数。它主要用于二元分类模型的输出层，有时也用于隐藏层。Sigmoid 函数将任何实数值转换为零到一之间的范围。

#activation functions sigmoid relu and softmax
def sigmoid(Z):
    A = 1/(1+np.exp(-Z))
    cache = Z
    return A, cache

def relu(Z):
    A = np.maximum(0,Z)    
    cache = Z 
    return A, cache

def softmax(Z):
    e_x = np.exp(Z)
    A= e_x / np.sum(np.exp(Z))  
    cache=Z
    return A,cache   

激活函数的导数

激活函数的导数在反向传播算法中至关重要，尤其是在反向传播过程中，用于计算梯度并更新神经网络的权重。

ReLU（整流线性单元）的导数： 这个导数用于反向传播，以确定基于网络预测中的误差应该如何调整权重。
Sigmoid 的导数： 这个导数在反向传播中对于计算梯度和更新权重至关重要。它具有一个很好的特性，使其适合于类概率的输出。
Softmax 的导数： Softmax 激活函数通常用于多类别分类的输出层。它更复杂，并且取决于其在反向传播中使用时的具体上下文。

#derivative of activation function
def relu_backward(dA, cache):
    Z = cache
    dZ = np.array(dA, copy=True)
    dZ[Z <= 0] = 0
    assert (dZ.shape == Z.shape)
    return dZ

def sigmoid_backward(dA, cache):    
    Z = cache
    s = 1/(1+np.exp(-Z))
    dZ = dA * s * (1-s)
    assert (dZ.shape == Z.shape)
    return dZ

def softmax_backward(Z,cache):
    Z=cache
    length=10  
    dZ=np.zeros((42000,10))
    Z=np.transpose(Z)
    for row in range (0,42000):
            den=(np.sum(np.exp(Z[row,:])))*(np.sum(np.exp(Z[row,:])))
            for col in range (0,10):
                sums=0
                for j in range (0,10):
                    if (j!=col):
                        sums=sums+(math.exp(Z[row,j]))
                
                dZ[row,col]=(math.exp(Z[row,col])*sums)/den           
    dZ=np.transpose(dZ)
    Z=np.transpose(Z)

    assert (dZ.shape == Z.shape)
    return dZ

#initializing the parameters weights and bias
def initialize_parameters_deep(layer_dims):
    #np.random.seed(1)
    parameters = {}
    L = len(layer_dims)            # number of layers in the network
    
    for l in range(1, L):
        parameters['W' + str(l)] = np.random.randn(layer_dims[l], layer_dims[l-1]) / np.sqrt(layer_dims[l-1]) #*0.01
        parameters['b' + str(l)] = np.zeros((layer_dims[l], 1))
    
    return parameters

前向传播

前向传播用于确定特定节点的激活输出。`linear_forward` 函数用于确定 Z 值（z=wa+b）。然后将其通过激活函数（g(z)）进行处理，以获得激活后的输出或下一层的输入。N 个隐藏层使用 ReLU，而输出层使用 Softmax 来提供十个类别的输出（0-9）。

#forward propagation
def linear_forward(A, W, b):
    Z = np.dot(W,A) +b
    cache = (A, W, b)
    assert(Z.shape == (W.shape[0], A.shape[1]))
    return Z, cache

def linear_activation_forward(A_prev, W, b, activation):
    if activation == "sigmoid":
        # Inputs: "A_prev, W, b". Outputs: "A, activation_cache".
        Z, linear_cache = linear_forward(A_prev, W, b)
        A, activation_cache = sigmoid(Z)
    elif activation == "relu":
        # Inputs: "A_prev, W, b". Outputs: "A, activation_cache".
        Z, linear_cache = linear_forward(A_prev, W, b)
        #print("Z="+str(Z))
        A, activation_cache = relu(Z) 
    elif activation == "softmax":
        # Inputs: "A_prev, W, b". Outputs: "A, activation_cache".
        Z, linear_cache = linear_forward(A_prev, W, b)
        A, activation_cache = softmax(Z)
    cache = (linear_cache, activation_cache)
    return A, cache

def L_model_forward(X, parameters):
    caches = []
    A = X
    L = len(parameters) // 2                  # number of layers in the neural network
    for l in range(1, L):
        A_prev = A 
        A, cache = linear_activation_forward(A_prev, parameters['W' + str(l)], parameters['b' + str(l)], activation = "relu")
        caches.append(cache)
    AL, cache = linear_activation_forward(A, parameters['W' + str(L)], parameters['b' + str(L)], activation = "softmax")
    caches.append(cache)               
    return AL, caches

成本计算

值（也称为损失或目标函数）是神经网络的预测输出与实际目标值（地面实况）之间的差异度量。在使用 Softmax 激活函数作为输出层时，用于分类的成本函数通常是分类交叉熵。

#cost function
def compute_cost(AL, Y):
    
    m = Y.shape[1]
    cost = (-1 / m) * np.sum(np.multiply(Y, np.log(AL)) + np.multiply(1 - Y, np.log(1 - AL)))
    #print("cost="+str(cost))
    return cost

反向传播

#backward propagation
def linear_backward(dZ, cache):
    A_prev, W, b = cache
    m = A_prev.shape[1]
    dW = 1./m * np.dot(dZ,A_prev.T)  
    db = (1/m)*np.sum(dZ, axis=1, keepdims=True);
    dA_prev = np.dot(W.T,dZ)
    return dA_prev, dW, db

def linear_activation_backward(dA, cache, activation):
    linear_cache, activation_cache = cache
    if activation == "relu":
        dZ = relu_backward(dA, activation_cache)
        dA_prev, dW, db = linear_backward(dZ, linear_cache)  
    elif activation == "sigmoid":
        dZ = sigmoid_backward(dA, activation_cache)
        dA_prev, dW, db = linear_backward(dZ, linear_cache)
    elif activation == "softmax":
        dZ = softmax_backward(dA, activation_cache)
        dA_prev, dW, db = linear_backward(dZ, linear_cache)
    return dA_prev, dW, db

def L_model_backward(AL, Y, caches):
    grads = {}
    L = len(caches) # the number of layers
    dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL))
    M=len(layers_dims)
    current_cache = caches[M-2]
    grads["dA"+str(M-1)], grads["dW"+str(M-1)], grads["db"+str(M-1)] = linear_activation_backward(dAL, current_cache, activation = "softmax")#M-1
    for l in reversed(range(L-1)):
        current_cache = caches[l]
        dA_prev_temp, dW_temp, db_temp = linear_activation_backward(grads["dA" + str(l + 2)], current_cache, activation = "relu")
        grads["dA" + str(l + 1)] = dA_prev_temp
        grads["dW" + str(l + 1)] = dW_temp
        grads["db" + str(l + 1)] = db_temp
    
    return grads

现在我们将更新参数。

#W=W-(learning_rate* dW)
#B=B-(learning_rate* db)

#upgrade function for weights and bias
def update_parameters(parameters, grads, learning_rate):
    for l in range(len_update-1):
        parameters["W" + str(l+1)] =parameters["W" + str(l+1)] - (learning_rate*grads["dW" + str(l+1)])
        parameters["b" + str(l+1)] = parameters["b" + str(l+1)] - (learning_rate*grads["db" + str(l+1)])
    return parameters

# Function for plotting graph
def plot_graph(cost_plot):
       
    x_value=list(range(1,len(cost_plot)+1))
    #print(x_value)
    #print(cost_plot)
    plt.xlabel('iteration')
    plt.ylabel('cost')
    plt.plot(x_value,cost_plot,0.,color='g')

定义架构

定义 `layers_dim` 来指定所需的神经网络设计。第一个元素是输入层，像素值为 28*28=784。最后一个部分是十类输出层（0 到 9）。其他元素包括具有指定节点数的隐藏层。（例如，第一个隐藏层包含 500 个节点，第二个隐藏层有 400 个节点，依此类推）。

#defining the structure of the neural network
layers_dims = [784,500,400,300,100,10] #  n-layer model (n=6 including input and output layer)
len_update=len(layers_dims)
#function to call sub_functions
def L_layer_model(X, Y, layers_dims, learning_rate , num_iterations , print_cost=False):#lr was 0.009
    print("training...")
    costs = []  
    cost_plot=np.zeros(num_iterations)
    parameters = initialize_parameters_deep(layers_dims)
    for i in range(0, num_iterations):
        AL, caches = L_model_forward(X, parameters)
        cost =compute_cost(AL, Y)
        grads = L_model_backward(AL, Y, caches)
        parameters = update_parameters(parameters, grads, learning_rate) 
        cost_plot[i]=cost;
    
    plot_graph(cost_plot)
    return parameters

#variable parameter in network learning_rate, iterations 
parameters = L_layer_model(train_data, train_label, layers_dims,learning_rate = 0.0005, num_iterations =35 , print_cost = True) 
print("training done")

输出

正如我们所见，随着迭代次数的增加，成本有所降低。这表明它工作良好。理解激活函数的操作知识，以及前向传播和后向传播，将为用户提供更大的灵活性和对该概念的理解。它提供了对网络的更深入的洞察。

下一个主题VGGNet-16 架构

反向传播 - 算法

解析微分

数值微分

反向传播

导入库

读取数据集

分析数据

激活函数

激活函数的导数

前向传播

成本计算

反向传播

定义架构

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

反向传播 - 算法

解析微分

数值微分

反向传播

导入库

读取数据集

分析数据

激活函数

激活函数的导数

前向传播

成本计算

反向传播

定义架构

相关帖子

微分和积分微积分

机器学习中的持续学习

线性回归的假设

图机器学习

Transformer 注意力机制

自然语言处理中的词嵌入

机器学习中的嵌入是什么？

TF-IDF

K-Means 聚类算法

SIFT (尺度不变特征变换) 简介

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器