机器学习中的学生辍学预测

2025年3月17日 | 阅读 12 分钟

Predicting Student Dropout Using Machine Learning

在现代教育领域，学生辍学问题是一个严峻的挑战，影响着个人和教育机构。高辍学率的后果不仅仅局限于学业成就，还会延伸到未来的职业前景和整体福祉。然而，在早期阶段检测和解决这个问题可以显著减轻其负面影响。机器学习，作为人工智能领域的一项创新技术，应运而生。机器学习算法通过利用海量数据和先进的分析技术，能够准确预测学生辍学。通过检查各种因素和复杂模式，这些模型可以识别更容易辍学的学生。本文深入探讨了机器学习在预测学生辍学方面的应用，强调了其为教育部门带来的优势、挑战和潜在影响。

要理解学生辍学的复杂局面，必须认识到导致这一现象的众多因素。学生辍学是一个多层面的事件，受到个人、社会和制度等多种因素的影响。学业困难、参与度低、社会经济限制、家庭环境和支持不足是导致辍学的常见催化剂。通过深入了解这些根本原因，教育工作者和政策制定者可以制定有针对性的干预措施和全面的战略来应对辍学挑战。在此背景下，机器学习成为一个宝贵的盟友，为解决学生辍学问题提供了独特的见解和创新的方法。

最先进的机器学习算法能够剖析海量且异构的数据集，从而能够识别复杂的模式并做出可靠的预测。在预测学生辍学方面，这些机器学习模型可以有效地利用各种数据点。人口统计信息、学业成就、出勤记录、参与度水平、社会经济指标以及一系列相关因素都发挥着作用。通过对这些丰富的数据集进行仔细分析，机器学习算法有可能揭示人类分析师可能忽略的隐藏模式和相互依赖关系。通过利用历史数据，这些算法可以学会准确评估学生辍学的可能性，利用学生的独特特征和个人情况作为其预测的关键输入。

预测学生辍学的好处

在教育机构、政策制定者和学生本身方面，利用机器学习预测学生辍学带来了许多优势。首先，早期识别有辍学风险的学生可以及时采取干预措施并建立支持系统。教育工作者可以提供个性化帮助，提供补充资源，并实施有针对性的措施，以提高学生成功的可能性。这种积极主动的方法可以显著降低辍学率并提高学生留存率。

其次，预测能力有助于机构资源的有效分配。通过 pinpoint 学生辍学倾向，教育机构可以集中精力，将资源用于为这些学生提供必要支持。这种有针对性的方法可确保干预措施能够精确地应用于最能产生影响的地方，从而优化资源利用。

此外，将机器学习纳入辍学预测有助于制定基于证据的政策和战略。通过审查导致辍学的根本原因，政策制定者可以制定解决核心问题的干预措施，并营造一个更具支持性且有利于学习的环境。这种数据驱动的方法能够做出明智的决策，并有助于制定旨在提高学生成绩的有效政策。

使用机器学习预测学生辍学的挑战

虽然利用机器学习预测学生辍学显示出巨大的潜力，但必须认识并解决相关的挑战和道德影响。一个关键的挑战围绕着数据的可访问性和质量。构建准确的预测模型需要充分可靠的数据。教育机构必须建立健全的数据收集、存储和隐私协议，以维护学生信息的机密性和完整性。

另一个障碍是机器学习模型中潜在的偏差。如果用于开发模型的训练数据存在偏差或不完整，预测可能会变得有偏差或不公平。解决偏差需要有意识地努力在多样化和代表性的数据集上训练模型，以促进可靠和公正的预测。

在部署机器学习来预测学生辍学时，道德考量起着至关重要的作用。预测模型的负责任使用应优先考虑学生隐私、同意和透明度。应告知学生数据收集的目的以及将如何用于预测辍学。此外，必须建立机制来解决有关隐私和数据保护的担忧，确保负责任和可问责的方法来保障学生权利。

关于数据集

该数据集提供了在高等教育机构提供的各种本科课程注册学生情况的全面视图。它包括人口统计数据、社会经济因素和学业成绩信息，可用于分析学生辍学和学业成功的可能预测因素。该数据集包含多个不相关的数据库，其中包含入学时可用的相关信息，例如申请模式、婚姻状况、选择的课程等。此外，此数据还可以通过评估每学期学分的/注册的/评估的/通过的课程单位及其各自的成绩来估算学生在每学期末的总体学业成绩。最后，我们还提供了该地区的失业率、通货膨胀率和国内生产总值，这有助于我们进一步了解经济因素如何影响学生辍学率或学业成功结果。这个强大的分析工具将为激励学生继续学业或放弃学业提供宝贵的见解，涉及农学、设计、教育、护理、新闻学、管理、社会服务或技术等广泛学科。

列

婚姻状况：学生的婚姻状况。（分类）
申请模式：学生使用的申请方式。（分类）
申请顺序：学生申请的顺序。（数值）
课程：学生选修的课程。（分类）
日间/夜间出勤：学生白天或晚上上课。（分类）
先前的学历：学生在高等教育入学前获得的学历。（分类）
国籍：学生的国籍。（分类）
母亲学历：学生母亲的学历。（分类）
父亲学历：学生父亲的学历。（分类）
母亲职业：学生母亲的职业。（分类）
父亲职业：学生父亲的职业。（分类）
流离失所：学生是否为流离失所者。（分类）
特殊教育需求：学生是否有任何特殊教育需求。（分类）
债务人：学生是否为债务人。（分类）
学费是否按时缴纳：学生的学费是否按时缴纳。（分类）
性别：学生的性别。（分类）
奖学金持有者：学生是否为奖学金获得者。（分类）
入学年龄：学生入学时的年龄。（数值）
国际生：学生是否为国际学生。（分类）
课程单位第一学期（已获得学分）：学生第一学期已获得学分的课程单位数量。（数值）
课程单位第一学期（已注册）：学生第一学期已注册的课程单位数量。（数值）
课程单位第一学期（已评估）：学生第一学期已评估的课程单位数量。（数值）
课程单位第一学期（已通过）：学生第一学期已通过的课程单位数量。（数值）

现在我们将在代码中实现它。我们将尝试找到最佳准确率的模型来预测学生辍学率。

代码

导入库

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
%matplotlib inline
import plotly.express as px
from plotly.offline import init_notebook_mode, iplot
init_notebook_mode(connected=True)

import seaborn as sns

from sklearn.decomposition import PCA

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score, recall_score, f1_score

import pickle 

import warnings
warnings.filterwarnings('ignore')

读取数据集

了解数据集

# check the shape of the dataset in student DataFrame
student.shape

输出

# See which are the 35 columns
student.columns

输出

# How the data looks
student.sample(4)

输出

# Check info about all the columns 
student.info()

输出

看起来没有缺失值或重复值，但我们仍然可以检查并按需处理。

输出

只有目标列是非数字的，我们可以将其转换为数字。目标列是输出列，因此我们需要以数字形式表示它，以便找到它与其他列的相关性。

输出

所以目标列中有 3 个唯一值，我们可以将其替换为

辍学 -> 0
在读 -> 1
毕业 -> 2

student['Target'] = student['Target'].map({
    'Dropout':0,
    'Enrolled':1,
    'Graduate':2
})

# Check the Target column. It must have filled with 0, 1 & 2
student

输出

student.dtypes
# Target column is an integer now

输出

# Learn the data mathematically
student.describe()

输出

最后，找到目标与所有其他数值列的相关性。

输出

fig = px.imshow(student)
fig.show()

输出

这是考虑了相关输入和输出列的新 DataFrame。

# This is the new Df considering relevant input and output columns
student_df = student.iloc[:,[1,11,13,14,15,16,17,20,22,23,26,28,29,34]]
student_df.head()

输出

EDA（探索性数据分析）

在我们对学生辍学数据集的探索中，我们将进行一个名为探索性数据分析（EDA）的过程。您可以将其视为我们了解和更好地认识数据的方式。这就像剥洋葱一样，揭示其真实本质。通过使用不同的工具和技术，我们将仔细检查数据集，寻找有趣的模式和见解。EDA 帮助我们了解学生辍学背后的因素，并使我们能够做出明智的决定来解决这个问题。

# How many dropouts, enrolled & graduates are there in Target column
student_df['Target'].value_counts()

输出

# Plot the above values
x = student_df['Target'].value_counts().index
y = student_df['Target'].value_counts().values

df = pd.DataFrame({
    'Target': x,
    'Count_T' : y
})

fig = px.pie(df,
             names ='Target', 
             values ='Count_T',
            title='How many dropouts, enrolled & graduates are there in Target column')

fig.update_traces(labels=['Graduate','Dropout','Enrolled'], hole=0.4,textinfo='value+label', pull=[0,0.2,0.1])
fig.show()

输出

# Now see the correlation of Target with the rest
student_df.corr()['Target']

输出

fig = px.scatter(student_df, 
             x = 'Curricular units 1st sem (approved)',
             y = 'Curricular units 2nd sem (approved)',
             color = 'Target')
fig.show()

输出

让我们绘制“课程单位第一学期（成绩）”列与“课程单位第一学期（成绩）”的图，并按颜色区分目标。

fig = px.scatter(student_df, 
             x = 'Curricular units 1st sem (grade)',
             y = 'Curricular units 2nd sem (grade)',
             color = 'Target')
fig.show()

输出

fig = px.scatter(student_df, 
             x = 'Curricular units 1st sem (grade)',
             y = 'Curricular units 2nd sem (grade)',
             color = 'Target')
fig.show()

输出

fig = px.box(student_df, y='Age at enrollment')
fig.show()

输出

# Distribution of age of students at the time of enrollment
sns.histplot(data=student_df['Age at enrollment'], kde=True)

输出

# Let's try a plotly histogram for interactive figure
px.histogram(student_df['Age at enrollment'], x='Age at enrollment',color_discrete_sequence=['red'])

输出

提取输入和输出列

X = student_df.iloc[:,0:13]
y = student_df.iloc[:,-1]
X

输出

将数据集拆分为训练集和测试集

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2)
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

输出

建模

建模是预测分析过程中的关键步骤。它涉及训练和测试各种机器学习模型，以确定其在预测学生辍学方面的准确性和性能。在此阶段，将不同的算法应用于数据集，每种算法都有其优点和缺点。

在这里，我们将训练各种模型，然后查看它们的准确性。

逻辑回归

from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()

# Without Scaling 
clf.fit(X_train,y_train) 
y_pred = clf.predict(X_test)
print("Without Scaling and without CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)
print("Without Scaling and With CV: ",scores.mean())

输出

随机梯度分类器

from sklearn.linear_model import SGDClassifier
clf = SGDClassifier(max_iter=1000, tol=1e-3)

# Without Scaling
clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without Scaling and without CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)
print("Without Scaling and With CV: ",scores.mean())

输出

感知器

from sklearn.linear_model import Perceptron
# this is same as SGDClassifier(loss="perceptron", eta0=1, learning_rate="constant", penalty=None)

clf = Perceptron(tol=1e-3, random_state=0)
# Without Scaling
clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without Scaling and without CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)
print("Without Scaling and With CV: ",scores.mean())

输出

逻辑回归 CV

from sklearn.linear_model import LogisticRegressionCV
clf = LogisticRegressionCV(cv=5, random_state=0)

# Without Scaling
clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without Scaling and without CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)
print("Without Scaling and With CV: ",scores.mean())

输出

决策树分类器

# Using DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(random_state=0)

#without scaling
clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without Scaling and without CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)
print("Without Scaling and With CV: ",scores.mean())

输出

随机森林分类器

from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(max_depth=10, random_state=0)

clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without Scaling and without CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)
print("Without Scaling and With CV: ",scores.mean())

输出

支持向量机

from sklearn.svm import SVC
#clf = SVC(gamma='auto')

svc = SVC()
parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]}
clf = GridSearchCV(svc, parameters)

clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without Scaling and without CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)
print("Without Scaling and With CV: ",scores.mean())

输出

NuSVC

from sklearn.svm import NuSVC
clf = NuSVC()

clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without Scaling and without CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)
print("Without Scaling and With CV: ",scores.mean())

输出

线性 SVC

from sklearn.svm import LinearSVC
clf = LinearSVC(random_state=0, tol=1e-5)

clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without Scaling and CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)
print("Without Scaling and With CV: ",scores.mean())

输出

朴素贝叶斯

from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()

#y_pred = gnb.fit(X_train, y_train).predict(X_test)
#print("Number of mislabeled points out of a total %d points : %d" % (X_test.shape[0], (y_test != y_pred).sum()))

clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without Scaling and CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)
print("Without Scaling and With CV: ",scores.mean())

输出

from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()

clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without Scaling and without CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)
print("Without Scaling and With CV: ",scores.mean())

输出

from sklearn.naive_bayes import BernoulliNB
clf = BernoulliNB()

clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without Scaling and without CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)
print("Without Scaling and With CV: ",scores.mean())

输出

from sklearn.naive_bayes import CategoricalNB
clf = CategoricalNB()

clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without Scaling and without CV: ",accuracy_score(y_test,y_pred))

输出

from sklearn.neighbors import KNeighborsClassifier
clf = KNeighborsClassifier(n_neighbors=3)

clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without Scaling and without CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)
print("Without Scaling and With CV: ",scores.mean())

输出

在评估和比较了用于预测学生辍学的多个机器学习模型之后，随机森林模型成为表现最佳的模型，其准确率为 76.94%，交叉验证准确率为 77.08%，因为随机森林算法以其处理复杂数据集和捕捉变量之间复杂关系的能力而闻名。

模型选择

选择准确率最高的模型。因此，我们选择随机森林，准确率为 76.94% 和 77.08%（带交叉验证）。

clf = RandomForestClassifier(max_depth=10, random_state=0)
clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)

print("With CV: ",scores.mean())
print("Precision Score: ", precision_score(y_test, y_pred,average='macro'))
print("Recall Score: ", recall_score(y_test, y_pred,average='macro'))
print("F1 Score: ", f1_score(y_test, y_pred,average='macro'))

输出

我们将使用 GridSearchCV 对随机森林分类器模型进行超参数调优。

param_grid = {
    'bootstrap': [False,True],
    'max_depth': [5,8,10, 20],
    'max_features': [3, 4, 5, None],
    'min_samples_split': [2, 10, 12],
    'n_estimators': [100, 200, 300]
}

rfc = RandomForestClassifier()

clf = GridSearchCV(estimator = rfc, param_grid = param_grid, cv = 5, n_jobs = -1, verbose = 1)

clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Accuracy: ",accuracy_score(y_test,y_pred))
print(clf.best_params_)
print(clf.best_estimator_)

输出

在这里，模型的准确率有所提高。

clf = RandomForestClassifier(bootstrap=False, max_depth=10,max_features=3,
                             min_samples_split=12,
                             n_estimators=100, random_state=0)
clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Without CV: ",accuracy_score(y_test,y_pred))
scores = cross_val_score(clf, X_train, y_train, cv=10)
print("With CV: ",scores.mean())

print("Precision Score: ", precision_score(y_test, y_pred,average='micro'))
print("Recall Score: ", recall_score(y_test, y_pred,average='micro'))
print("F1 Score: ", f1_score(y_test, y_pred,average='micro'))

输出

模型在测试数据集上的准确率（不带交叉验证）约为 0.7898，即 78.98%。这表明模型在测试数据集的近 78.98% 的实例中正确预测了目标变量。
模型在训练数据集上的交叉验证准确率约为 0.7655，即 76.55%。此分数代表了多个交叉验证折叠的平均准确率。
准确率分数约为 0.7898，表明模型相对于总的阳性预测，实现了高比例的真阳性预测。这表明当模型预测学生辍学时，其准确率约为 78.98%。
召回率分数约为 0.7898，表明模型相对于数据集中所有实际阳性实例，捕获了高比例的真阳性预测。这意味着模型能够识别出大约 78.98% 的实际学生辍学。
F1 分数约为 0.7898，是精确率和召回率的调和平均值。它提供了一个单一指标，结合了精确率和召回率，同时考虑了假阳性和假阴性。

综合以上所有观点，随机森林分类器可用作预测学生辍学的模型。

结论

总之，机器学习在预测学生辍学方面的应用为教育机构提供了变革性的机会，能够有效地应对这一普遍问题。通过利用机器学习算法的能力，教育工作者、政策制定者和机构可以采取积极措施，提供有针对性的支持，并营造有利于学生成功的环境。尽管如此，为了确保这些预测模型的负责任和公平使用，务必应对数据质量、偏差和道德考量方面的挑战。随着机器学习和数据分析的不断发展，我们有潜力在减少学生辍学、提高教育成果以及培养包容和支持性的教育体系方面取得重大进展，该体系能够满足所有学生的需求。

下一个主题使用机器学习进行图像处理

← 上一个下一个 →

机器学习中的学生辍学预测

预测学生辍学的好处

使用机器学习预测学生辍学的挑战

关于数据集

列

导入库

读取数据集

了解数据集

EDA（探索性数据分析）

将数据集拆分为训练集和测试集

建模

随机梯度分类器

感知器

逻辑回归 CV

决策树分类器

随机森林分类器

支持向量机

NuSVC

线性 SVC

朴素贝叶斯

模型选择

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

机器学习中的学生辍学预测

预测学生辍学的好处

使用机器学习预测学生辍学的挑战

关于数据集

列

导入库

读取数据集

了解数据集

EDA（探索性数据分析）

将数据集拆分为训练集和测试集

建模

随机梯度分类器

感知器

逻辑回归 CV

决策树分类器

随机森林分类器

支持向量机

NuSVC

线性 SVC

朴素贝叶斯

模型选择

结论

相关帖子

归纳学习与转导学习的区别

解释相关系数

使用 VGG16 和 Keras 进行迁移学习

10 个生成对抗网络 (GAN) 项目创意

机器学习模型

机器学习中的单次学习

机器学习中的 NPS

使用 Python 和 Pandas 访问 SQLite 数据库

联合概率分布

使用机器学习在数据中查找模式

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器