机器学习中的网络钓鱼网站检测

2025年6月24日 | 阅读 6 分钟

Detecting Phishing Websites using Machine Learning

网络钓鱼是一种网络犯罪，通过使用欺诈性的电子邮件、消息和网站来窃取敏感信息，如密码、信用卡详细信息和其他个人数据。随着互联网和在线交易的增长，网络钓鱼攻击变得越来越复杂，使得个人难以检测和避免它们。

网络钓鱼仍然是黑客欺骗我们的金钱并窃取我们的个人和财务信息的最佳且最成功的方式之一。

当今的网络钓鱼攻击非常复杂，并且越来越难以检测。根据 Intel 的一项调查，97% 的安全专家无法区分合法电子邮件和网络钓鱼电子邮件。

机器学习可以成为检测网络钓鱼网站的强大工具。通过在大量合法的和欺诈性的网站数据集上训练机器学习算法，算法可以学会区分两者。这可以导致开发有效的网络钓鱼检测系统，该系统可以自动识别潜在危险网站并向用户发出警告。

有几种类型的机器学习算法可用于网络钓鱼检测，包括监督学习、无监督学习和深度学习。监督学习算法在标记数据上进行训练，其中每个网站的特征用于将其分类为合法或网络钓鱼。另一方面，无监督学习算法根据其特征对网站进行聚类，从而可以检测出可能是网络钓鱼网站的异常值。

深度学习算法，如卷积神经网络 (CNN)，使用复杂的神经网络架构来分析网站特征并做出预测。

在为网络钓鱼检测训练机器学习算法时，使用大型且多样化的网站数据集非常重要。这将有助于确保算法能够学习和检测代表各种网络钓鱼攻击类型的网络钓鱼网站。此外，必须仔细选择算法用来区分合法网站和网络钓鱼网站的特征。网络钓鱼检测中常用的特征包括 URL 结构、网站内容以及视觉线索，例如官方徽标或安全证书的使用。

使用机器学习进行网络钓鱼检测的一个优点是，它比传统的黑名单或基于启发式的方法更准确、更有效。这是因为机器学习算法可以根据其特征识别网络钓鱼网站，而不是依赖于预定义的规则或签名。这使得它们更加健壮，并且不太容易出现误报或漏报。

使用机器学习进行网络钓鱼检测的另一个优点是，它可以轻松集成到现有的安全系统和工作流程中。例如，机器学习算法可用于自动扫描收到的电子邮件，并标记任何包含指向网络钓鱼网站链接的消息。它们还可以集成到浏览器扩展中，使用户在访问潜在危险网站之前就能收到警告。

尽管使用机器学习进行网络钓鱼检测有很多好处，但也存在一些必须解决的限制和挑战。主要挑战之一是确保算法能够检测到新的和不断演变的网络钓鱼攻击类型。这需要不断更新算法使用的训练数据和特征。此外，机器学习算法容易受到对抗性攻击，攻击者会操纵网络钓鱼网站的特征来逃避检测。为了解决这个问题，使用健壮且安全的、能够抵抗这些攻击的机器学习模型非常重要。

使用 Python 实现网络钓鱼检测 ML 模型

数据集详情

提供的数据集包含 11430 个 URL，具有 89 个检索到的特征。该数据集旨在作为使用机器学习的网络钓鱼检测系统的基准。特征来自三个不同的类别：七个通过联系其他服务提取，而其余 56 个则取自 URL 的结构和语法。集合分布均匀；它包含正好 50% 的真实 URL 和 50% 的网络钓鱼 URL。

现在我们需要在代码中实现它。

导入库

import warnings
warnings.filterwarnings("ignore")

import pandas as pd
pd.set_option("display.max_columns",None)
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

import torch
import torch.nn as nn
from torch.utils.data import TensorDataset,DataLoader

加载数据集

EDA（探索性数据分析）

输出

数据集中共有 11430 行和 89 列。

输出

# removing url features
dataframe=dataframe.drop(labels="url",axis=1)
dataframe.head()

输出

# checking object dtype features
object_features=[col for col in dataframe.columns if dataframe[col].dtype=="O"]
print(object_features)

输出

# checking unique values and counts from the collected object features
dataframe['status'].value_counts()

输出

我们可以解释为合法网站和网络钓鱼网站的数量相同（5715）。

with plt.style.context(style="bmh"):
    fig=dataframe['status'].value_counts().plot.bar(figsize=(6,5),
                                             fontsize=15,
                                             title='Analysing status feature using bar-chart',
                                            xlabel='class labels',
                                            ylabel='number of records')
    plt.show()

输出

with plt.style.context(style="fivethirtyeight"):
    plt.pie(x=dict(dataframe['status'].value_counts()).values(),
           labels=dict(dataframe['status'].value_counts()).keys(),
           autopct="%.2f%%",
           colors=['red','orangered'],
           startangle=90,
           explode=[0,0.05])
    centre_circle=plt.Circle((0,0),0.70,fc='white')
    fig=plt.gcf()
    fig.gca().add_artist(centre_circle)
    plt.title(label="Analysing status feature using donut-chart")
    plt.show()

输出

class_labels=dataframe['status'].unique().tolist()
class_labels.sort()
print(class_labels)

输出

class_dict={}
for idx,label in enumerate(class_labels):
    class_dict[label]=idx
print(class_dict)

输出

然后，我们将状态列编码，合法为 0，网络钓鱼为 1。

# label encoding
dataframe['status']=dataframe['status'].map(class_dict)
dataframe.head()

输出

X=dataframe.iloc[:,:-1]
y=dataframe.iloc[:,-1:]

X.head()

输出

# data normalizationnormalization using MinMaxScaler
scaler=MinMaxScaler()
scaler.fit(X.values)
X_scaled=scaler.transform(X.values)
print(X_scaled)

输出

我们对数据集进行归一化，因为值将在 0 到 1 的范围内。

import pickle
with open(file="scaler.pkl",mode="wb") as file:
    pickle.dump(obj=scaler,file=file)


new_X=pd.DataFrame(data=X_scaled,columns=X.columns)
new_X.head()

输出

分割数据集

我们将数据集划分为训练集和测试集。

X_train,X_test,y_train,y_test=train_test_split(new_X,y,test_size=0.2,random_state=42,shuffle=True,stratify=y)
print(X_train.shape,y_train.shape,X_test.shape,y_test.shape)

输出

然后，我们从 numpy 数组创建张量。

train_input_tensor=torch.from_numpy(X_train.values).float()
train_label_tensor=torch.from_numpy(y_train['status'].values).float()
val_input_tensor=torch.from_numpy(X_test.values).float()
val_label_tensor=torch.from_numpy(y_test['status'].values).float()


train_input_tensor

输出

train_label_tensor=train_label_tensor.unsqueeze(1)
train_label_tensor

输出

val_label_tensor=val_label_tensor.unsqueeze(1)
val_label_tensor

输出

# wrapping training tensors and validation tensors
train_dataset=TensorDataset(train_input_tensor,train_label_tensor)
val_dataset=TensorDataset(val_input_tensor,val_label_tensor)

# performing splitting tensors into batches and shuffling the data, and making wrapped tensors as iterative
train_loader=DataLoader(dataset=train_dataset,batch_size=32,shuffle=True)
val_loader=DataLoader(dataset=val_dataset,batch_size=32,shuffle=True)


print(f"number of batches in train_loader: {len(train_loader)}")
print(f"number of records in train_loader: {len(train_loader.dataset)}")
print(f"number of batches in val_loader: {len(val_loader)}")
print(f"number of records in val_loader: {len(val_loader.dataset)}")

输出

device=torch.device("cuda" if torch.cuda.is_available() else "cpu")
device

输出

class MLP(nn.Module):
    def __init__(self,dropout=0.4):
        super(MLP,self).__init__()
        self.network=nn.Sequential(
            nn.Linear(in_features=87,out_features=300), # in_feature value is 87. because this dataset has 87 independent features
            nn.ReLU(),
            nn.BatchNorm1d(num_features=300),
            nn.Dropout(p=dropout),
           
            nn.Linear(in_features=300,out_features=100),
            nn.ReLU(),
            nn.BatchNorm1d(num_features=100),
           
            nn.Linear(in_features=100,out_features=1),
            nn.Sigmoid()
        )
    def forward(self,x):
        x=self.network(x)
        return x


model=MLP(dropout=0.4)
print(model)

输出

创建一个 train_loop 函数，使用此函数，我们将循环训练我们的模型。

optimizer=torch.optim.Adam(params=model.parameters(),lr=0.001)
criterion=nn.BCELoss()


def train_loop(model,train_loader,val_loader,device,optimizer,criterion,batch_size,epochs):
    model=model.to(device)
    train_batch_size=len(train_loader)
    val_batch_size=len(val_loader)
   
    history={"train_accuracy":[],"train_loss":[],"val_accuracy":[],"val_loss":[]}
   
    for epoch in range(epochs):
        model.train() # training mode
       
        train_accuracy=0
        train_loss=0
        val_accuracy=0
        val_loss=0
       
        for X,y in train_loader:
            X=X.to(device)
            y=y.to(device)
           
            # forward propagation
            outputs=model(X)
            pred=torch.round(outputs)
           
            # loss computation
            loss=criterion(outputs,y)
           
            # backward propagation
            optimizeroptimizer.zero_grad()
            loss.backward()
            optimizer.step()
           
            cur_train_loss=loss.item()
            cur_train_accuracy=(pred==y).sum().item()/batch_size
           
            train_accuracy+=cur_train_accuracy
            train_loss+=cur_train_loss
        model.eval()
        with torch.no_grad():
            for X,y in val_loader:
                X=X.to(device)
                y=y.to(device)
               
                outputs=model(X)
                pred=torch.round(outputs)
               
                loss=criterion(outputs,y)
               
                cur_val_loss=loss.item()
                cur_val_accuracy=(pred==y).sum().item()/batch_size
               
                val_accuracy+=cur_val_accuracy
                val_loss+=cur_val_loss
        train_accuracy=train_accuracy/train_batch_size
        train_loss=train_loss/train_batch_size
        val_accuracy=val_accuracy/val_batch_size
        val_loss=val_loss/val_batch_size
       
        print(f"[{epoch+1:>3d}/{epochs:>3d}], train_accuracy:{train_accuracy:>5f}, train_loss:{train_loss:>5f}, val_accuracy:{val_accuracy:>5f}, val_loss:{val_loss:>5f}")
       
        history['train_accuracy'].append(train_accuracy)
        history['train_loss'].append(train_loss)
        history['val_accuracy'].append(val_accuracy)
        history['val_loss'].append(val_loss)
    PATH="/kaggle/working/trained_model.pt"
    torch.save(model.state_dict(),PATH)
    return history

现在，我们将在 100 个 epoch 上在训练集上训练我们的模型。

history=train_loop(model,train_loader,val_loader,device,optimizer,criterion,batch_size=32,epochs=100)

输出

现在我们将绘制准确性图。

with plt.style.context(style="fivethirtyeight"):
    plt.figure(figsize=(18,8))
    plt.plot(history['train_accuracy'],label="train accuracy")
    plt.plot(history['val_accuracy'],label="val accuracy")
    plt.title(label="Accuracy plots")
    plt.xlabel(xlabel='epochs')
    plt.ylabel(ylabel='accuracy')
    plt.show()
   
    plt.figure(figsize=(18,8))
    plt.plot(history['train_loss'],label="train loss")
    plt.plot(history['val_loss'],label="val loss")
    plt.title(label="loss plots")
    plt.xlabel(xlabel='epochs')
    plt.ylabel(ylabel='loss')
    plt.show()

输出

训练准确性（值为 accuracy）为蓝线，训练损失（值为 loss）为红线。

大多数预测数据点的准确性在 95% 到 99% 之间，

总之，机器学习可以成为检测网络钓鱼网站的强大工具。通过在大量合法的和欺诈性的网站数据集上训练算法，可以开发出能够自动识别潜在危险网站并向用户发出警告的准确有效的系统。然而，必须解决与网络钓鱼检测相关的机器学习的限制和挑战，以确保这些系统保持有效和安全。

下一个主题为什么你不应该使用 pandas get_dummies 进行机器学习

机器学习中的网络钓鱼网站检测

使用 Python 实现网络钓鱼检测 ML 模型

数据集详情

导入库

加载数据集

EDA（探索性数据分析）

分割数据集

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

机器学习中的网络钓鱼网站检测

使用 Python 实现网络钓鱼检测 ML 模型

数据集详情

导入库

加载数据集

EDA（探索性数据分析）

分割数据集

相关帖子

餐厅行业机器学习

ML | 主动学习

OneVsRestClassifier

机器学习历史

机器学习线性代数

如何去除时间序列中的非平稳性

卷积神经网络的主要商业应用

机器学习中的漂移

机器学习在设计中的应用

机器学习中的信用评分预测

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器