机器学习中的虚假新闻检测

2025年8月21日 | 阅读9分钟

Fake News Detection Using Machine Learning

在这个数字时代，假新闻是一个巨大的问题，因为它通过传播错误信息、破坏声誉和煽动社会动荡来伤害现实世界中的社区。

假新闻可能源于错误信息，也可能是故意误导他人的企图。如今，随着社交媒体的飞速发展，要辨别新闻是真实的新闻还是假新闻变得越来越困难。

与此同时，识别和纠正假新闻对于任何新闻机构来说都是一个重要的关注点，这时机器学习就派上用场了，它可以帮助实现这一目标。

机器学习技术通过分析大量数据，在检测假新闻方面显示出有希望的结果，它能识别出其中的模式并提供基于这些模式的结果。机器学习可以以各种方式和领域应用于检测虚假信息。

应用机器学习检测假新闻的策略

一种策略是利用自然语言处理（NLP）方法检查新闻报道中使用的语言。NLP算法可以识别在假新闻报道中经常出现的语言模式。例如，假新闻报道经常歪曲事实，使用耸人听闻的标题，并使用更多煽动性的语言。机器学习算法可以通过检查文章的语言来确定该文章是真实的还是欺诈性的。

利用网络分析是另一种检测假新闻的方法。在这种方法中，机器学习算法分析传播新闻的社交媒体账户网络。一个由虚假账户或自动化程序组成的网络经常传播假新闻报道。机器学习算法可以通过检查传播新闻的账户网络来识别假新闻网络中经常出现的模式。

最后，机器学习算法还可以利用事实核查数据库来检测虚假新闻报道。数据库中包含已证实的事实数据，可以通过这些数据库交叉核查新闻报道中的陈述。机器学习算法可以通过将数据库中的事实与新闻报道进行比较来评估新闻陈述的可信度。

要训练机器学习算法进行假新闻识别，需要大量的真实和虚假新闻报道数据集。这些数据集用于训练算法，使其能够识别假新闻中的模式。通过根据用户提供的反馈进行调整，可以提高机器学习算法的准确性和精度。

机器学习在检测假新闻方面的应用仍处于早期阶段。

尽管假新闻会造成严重后果，但机器学习有潜力与之作斗争并解决这个问题。通过在假信息传播之前进行检测，机器学习可以减轻假新闻的影响。

用于检测假新闻的机器学习算法主要可分为两类：监督学习和无监督学习。

监督学习算法在已标记的数据集上进行训练，其中每个新闻报道都被标记为真实或虚假。算法从标记的数据集中学习，然后用于将新的新闻报道分类为真实或虚假。监督学习算法包括逻辑回归、决策树、支持向量机和神经网络。

另一方面，无监督学习算法不需要标记的数据集。相反，它们使用聚类技术根据新闻报道的相似性将它们分组到不同的簇中。然后，算法识别包含假新闻报道的簇的特征。无监督学习算法包括 k-means 聚类、层次聚类和关联规则学习。

使用机器学习检测假新闻的优点

使用机器学习检测假新闻有几个优点。

机器学习算法能够快速有效地分析海量数据。由于每天发布的新闻报道数量巨大，人类无法手动分析每一篇报道。新闻媒体和社交媒体平台可以轻松识别假新闻，因为机器学习算法能够快速处理海量数据。
机器学习算法可以发现数据中可能不为人类所察觉的联系和模式。机器学习算法通过检查新闻报道的措辞、来源以及与之相关的社交媒体网络，可以准确地识别假新闻报道。
得益于机器学习算法能够实时识别假新闻报道，社交媒体平台和新闻机构可以立即采取行动，以阻止错误信息的传播。
机器学习算法能够学习新信息并进行适应。随着假新闻策略的不断演变，机器学习算法可以被训练来识别新趋势并发现新型假新闻报道。
可以使用机器学习算法来自动化识别假新闻报道的过程。这将减少人工工作量，使人们能够专注于事实核查和调查性新闻报道等工作。
使用机器学习算法可以以合理的成本检测假新闻报道。一旦训练完成，算法就可以广泛应用，而无需产生高昂的费用。

使用机器学习检测假新闻的局限性

使用机器学习检测假新闻存在其局限性。

机器学习算法仅基于其训练的数据。如果数据集存在偏差，算法也会存在偏差。因此，我们需要牢记，必须考虑包含来自各种来源的新闻报道的数据集的随机性。

机器学习技术能够识别假新闻，但并非完全可靠，因为总有可能将真实新闻误识别为假新闻，反之亦然。因此，我们需要考虑多种策略，例如事实核查，这些策略对于评估新闻的真实性是必要的。

代码

现在，我们将尝试实现机器学习方法来检测假新闻。这里我们将有两个数据集：“Fake.csv”和“True.csv”。

一个包含假新闻，另一个包含真实新闻。

导入库

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
import re
import string

导入数据集

dataframe_fake = pd.read_csv("Fake.csv")
dataframe_true = pd.read_csv("True.csv")

dataframe_fake.head()

输出

现在，我们将在这两个数据集中添加一个名为“class”的列，它将是目标特征。在 fake 数据框中，我们将 class 的值设置为 1，而在 true 数据框中，我们将其值设置为 0。

注意：0 表示真实新闻，1 表示假新闻

dataframe_true["class"] = 0
dataframe_true["class"] = 1

# Now, we will look at the shape of both the dataset
dataframe_fake.shape, dataframe_true.shape

输出

dataframe_fake 数据集包含 23481 行和 5 列。

dataframe_true 数据集包含 21417 行和 5 列。

让我们进行一些手动测试

# We will remove the last 10 rows for manual testing
dataframe_fake_manual_testing = dataframe_fake.tail(10)
for i in range(23480,23470,-1):
    dataframe_fake.drop([i], axis = 0, inplace = True)
   
   
dataframe_true_manual_testing = dataframe_true.tail(10)
for i in range(21416,21406,-1):
    dataframe_true.drop([i], axis = 0, inplace = True)
# Let's have a look at the change in the shape of both the dataset
dataframe_fake.shape, dataframe_true.shape

输出

如果看这里，行数有所减少。这是因为我们从每个数据集中取了 10 行用于手动测试。

#Inserting the class column in both of the manual testing datasets
dataframe_fake_manual_testing["class"] = 0
dataframe_true_manual_testing["class"] = 1

dataframe_fake_manual_testing.head(10)

输出

合并真实和虚假数据框

在这里，我们将合并“dataframe_fake”和“dataframe_true”以形成一个新数据集，以便我们对其执行机器学习操作。

dataframe_merge = pd.concat([dataframe_fake, dataframe_true], axis =0 )
dataframe_merge.head(10)

输出

当我们连接数据集时，行没有随机性。

# We will remove the columns that are required for us
dataframe = dataframe_merge.drop(["title", "subject","date"], axis = 1)

# Let's check if there are any null values in the dataset
dataframe.isnull().sum()

输出

幸运的是，我们的数据集中没有缺失值。

由于我们只是连接了两个数据集，因此真实和虚假数据集会一个接一个地排列。所以我们需要在数据集中创建随机性。我们可以打乱数据集的行。

# Here is the random shuffling of the rows in dataset 
dataframe = dataframe.sample(frac = 1)
dataframe.head()

输出

在这里，我们通过打乱行来创建了数据集中的随机性。

如果您注意到索引被弄乱了，我们将对此进行处理。

dataframe.reset_index(inplace = True)
dataframe.drop(["index"], axis = 1, inplace = True)
dataframe.head()

输出

我们已经修复了数据集中被弄乱的索引。

处理文本的函数

在这里，我们将创建一个函数来处理新闻中的文本，以便算法可以理解。

def wordopt(t):
    t = t.lower()
    t = re.sub('\[.*?\]', '', t)
    t = re.sub("\\W"," ",t)
    t = re.sub('https?://\S+|www\.\S+', '', t)
    t = re.sub('<.*?>+', '', t)
    t = re.sub('[%s]' % re.escape(string.punctuation), '', t)
    t = re.sub('\n', '', t)
    t = re.sub('\w*\d\w*', '', t)    
    return t





dataframe["text"] = dataframe["text"].apply(wordopt)

#Now we will define the dependent variable and independent variables
x = dataframe["text"]
y = dataframe["class"]

# Splitting the Dataset into a Training and Testing Set
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

将文本转换为向量

文本到向量是一种将文本数据转换为适合机器学习算法使用的数值格式的技术。这很重要，因为机器学习算法只能处理数值输入，通过将文本转换为向量，我们可以以一种易于使用这些算法进行分析和处理的方式来表示文本数据。

from sklearn.feature_extraction.text import TfidfVectorizer


vectorization = TfidfVectorizer()
xv_train = vectorization.fit_transform(x_train)
xv_test = vectorization.transform(x_test)

建模

利用各种技术和算法来创建系统或数据集的数学模型。当给定新数据时，模型可以根据其从输入数据中学习到的模式和相关性进行预测或采取行动。

在这里，我们将使用不同的机器学习算法在数据集上进行训练，然后用于预测假新闻。

1. 逻辑回归

from sklearn.linear_model import LogisticRegression


LR = LogisticRegression()
LR.fit(xv_train,y_train)

输出

pred_lr=LR.predict(xv_test)
LR.score(xv_test, y_test)

输出

模型的准确率相当高，大约为 99%。

2. 决策树分类器

from sklearn.tree import DecisionTreeClassifier


DT = DecisionTreeClassifier()
DT.fit(xv_train, y_train)

输出

pred_dt = DT.predict(xv_test)
DT.score(xv_test, y_test)

输出

决策树分类器的准确率约为 99%，接近完美。

3. 梯度提升分类器

from sklearn.ensemble import GradientBoostingClassifier


GBC = GradientBoostingClassifier(random_state=0)
GBC.fit(xv_train, y_train)

输出

pred_gbc = GBC.predict(xv_test)
GBC.score(xv_test, y_test)

输出

梯度提升分类器的情况也是如此。

4. 随机森林分类器

from sklearn.ensemble import RandomForestClassifier


RFC = RandomForestClassifier(random_state=0)
RFC.fit(xv_train, y_train)

输出

pred_rfc = RFC.predict(xv_test)
RFC.score(xv_test, y_test)

输出

随机森林分类器的准确率也很高。

所有机器学习模型的准确率几乎相同，均为 99%。

模型测试

在这里，我们将使用所有四个模型来检查它们是否能够检测假新闻。我们需要手动检查。

def output_lable(n):
    if n == 0:
        return "Fake News"
    elif n == 1:
        return "Not A Fake News"
   
def manual_testing(news):
    testing_news = {"text":[news]}
    new_def_test = pd.DataFrame(testing_news)
    new_def_test["text"] = new_def_test["text"].apply(wordopt)
    new_x_test = new_def_test["text"]
    new_xv_test = vectorization.transform(new_x_test)
    pred_LR = LR.predict(new_xv_test)
    pred_DT = DT.predict(new_xv_test)
    pred_GBC = GBC.predict(new_xv_test)
    pred_RFC = RFC.predict(new_xv_test)


    return print("\n\nLR Prediction: {} \nDT Prediction: {} \nGBC Prediction: {} \nRFC Prediction: {}".format(output_lable(pred_LR[0]),                                                                                                       output_lable(pred_DT[0]),
                                                                                                              output_lable(pred_GBC[0]),
                                                                                                              output_lable(pred_RFC[0])))

news = str(input())
manual_testing(news)

输出

完全正确，预测是正确的。

news = str(input())
manual_testing(news)

输出

完全正确，预测是正确的。

dataframe_true.head()
news = str(input())
manual_testing(news)

输出

完全正确，预测是正确的。

我们构建的模型正在产生准确的结果，考虑到所有模型的准确率几乎为 99%，因此我们可以说机器学习可以作为检测假新闻的工具。

结论

使用机器学习算法检测假新闻是打击假新闻的一种有前途的方法。机器学习算法可以分析大型数据集并识别假新闻报道中常见的模式。通过在假新闻广泛传播之前进行检测，机器学习算法可以防止假新闻造成的危害。然而，重要的是使用多样化的数据集和其他技术（如事实核查）来验证新闻报道的真实性。

下一个主题神经网络的数学

机器学习中的虚假新闻检测

应用机器学习检测假新闻的策略

使用机器学习检测假新闻的优点

使用机器学习检测假新闻的局限性

导入库

导入数据集

注意：0 表示真实新闻，1 表示假新闻

合并真实和虚假数据框

处理文本的函数

将文本转换为向量

建模

1. 逻辑回归

2. 决策树分类器

3. 梯度提升分类器

4. 随机森林分类器

模型测试

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

机器学习中的虚假新闻检测

应用机器学习检测假新闻的策略

使用机器学习检测假新闻的优点

使用机器学习检测假新闻的局限性

导入库

导入数据集

注意：0 表示真实新闻，1 表示假新闻

合并真实和虚假数据框

处理文本的函数

将文本转换为向量

建模

1. 逻辑回归

2. 决策树分类器

3. 梯度提升分类器

4. 随机森林分类器

模型测试

结论

相关帖子

机器学习中的元学习

如何去除时间序列中的非平稳性

机器学习架构

如何在 Matlab 中加载多个图像？

梯度提升算法

理解 Keras 中的指标

使用机器学习在数据中查找模式

遗传编程 vs 机器学习

机器学习中的向量空间模型

机器学习的 A/B 测试

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器