机器学习中的信用卡审批

2025年3月17日 | 阅读13分钟

Credit Card Approval Using Machine Learning

信用评分卡在金融行业被广泛用作风险控制措施。这些评分卡利用信用卡申请人提供的个人信息和数据来评估未来潜在违约和信用卡债务的可能性。基于此评估，银行可以就是否批准信用卡申请做出明智的决定。信用评分提供了一种客观的方式来衡量和量化所涉及的风险水平。

信用卡审批是银行业的一个关键流程。传统上，银行依赖人工评估信用度，这既耗时又容易出错。然而，随着机器学习（ML）算法的出现，信用卡审批流程得到了显著简化。

机器学习算法能够分析大量数据并提取模式，这使其在信用卡审批中具有无价的价值。通过使用包含申请人信息、其财务行为和信用历史的过往数据训练机器学习模型，银行可以更准确、更高效地预测信用度。

使用机器学习进行信用卡审批的优势

增强准确性：机器学习算法能够分析大量数据并识别人类分析师可能不明显的模式。通过整合各种数据点，包括信用历史、收入、就业和消费模式，机器学习模型可以对个人信用度做出更准确的预测。这有助于做出更明智的信用卡审批决策，降低违约风险并提高整体投资组合绩效。
更快的处理速度：传统的信用卡审批流程可能耗时，涉及人工审查、文书工作和大量文档。机器学习通过自动化许多任务来简化此流程。通过利用算法和预测模型，金融机构可以加快信用卡审批，为客户提供更快获得信贷设施的途径。
个性化产品：机器学习使贷方能够根据个人资料和偏好个性化信用卡产品。通过分析客户数据和行为，机器学习算法可以识别特定需求、消费模式和风险概况。这使得贷方能够根据每个客户的独特要求量身定制信用卡功能，例如利率、信用额度、奖励计划和促销优惠。
风险缓解：在信用卡审批中使用机器学习算法有助于缓解与贷款相关的风险。通过准确评估信用度并识别高风险申请人，金融机构可以就利率、信用额度和还款条款做出明智的决定。这不仅保护了贷方免受潜在损失，而且还确保了负责任的贷款实践并保障了客户的财务福祉。

使用机器学习进行信用卡审批的挑战

数据隐私和安全：在信用卡审批中使用机器学习需要访问大量敏感的客户数据。金融机构必须实施强大的数据隐私和安全措施，以保护此信息免遭未经授权的访问或滥用。严格遵守数据保护法规和加密技术对于确保客户数据的机密性和完整性至关重要。
模型可解释性和透明度：机器学习算法可能很复杂，这使得解释和说明其决策具有挑战性。这种缺乏可解释性可能会在监管合规性和消费者信任方面带来挑战。必须努力开发透明模型，为信用卡审批决策提供清晰的解释，确保公平性和问责制。
偏差和公平性：机器学习算法容易受到偏差的影响，因为它们从可能包含固有偏差的历史数据中学习。这可能导致信用卡审批中的歧视性做法，不公平地影响某些人口群体。持续监控和评估机器学习模型以确保公平性并减轻可能出现的任何偏差非常重要。

为了更好地理解，我们将尝试在代码中实现它，这里将尝试找出申请人是“好”客户还是“坏”客户。

数据定义

有两个 .csv 文件，例如

1. application_record.csv

ID：每个客户端的唯一标识符。
CODE_GENDER：客户的性别。
FLAG_OWN_CAR：指示客户是否拥有汽车。
FLAG_OWN_REALTY：指示客户是否拥有任何财产。
CNT_CHILDREN：客户拥有的孩子数量。
AMT_INCOME_TOTAL：客户的年收入。
NAME_INCOME_TYPE：客户的收入类别。
NAME_EDUCATION_TYPE：客户的教育水平。
NAME_FAMILY_STATUS：客户的婚姻状况。
NAME_HOUSING_TYPE：客户的居住方式。
DAYS_BIRTH：客户的生日，表示从当前日期往前回溯的天数。（0 表示当前日期，-1 表示昨天）
DAYS_EMPLOYED：就业开始日期，表示从当前日期往前回溯的天数。如果值为正，则表示此人目前失业。
FLAG_MOBIL：指示客户是否拥有手机。
FLAG_WORK_PHONE：指示客户是否拥有工作电话。
FLAG_PHONE：指示客户是否拥有个人电话。
FLAG_EMAIL：指示客户是否拥有电子邮件。
OCCUPATION_TYPE：客户的职业。
CNT_FAM_MEMBERS：客户的家庭规模。

2. credit_record.csv

ID：每个客户端的唯一标识符。
MONTHS_BALANCE：记录月份，表示从当前月份往前回溯的计数。（0 表示当前月份，-1 表示上个月，依此类推）
STATUS：客户在特定月份的信用状况。值范围从 0 到 5，其中 0 表示逾期 1-29 天，1 表示逾期 30-59 天，2 表示逾期 60-89 天，3 表示逾期 90-119 天，4 表示逾期 120-149 天，5 表示逾期或坏账超过 150 天，C 表示该月已还清，X 表示该月无贷款。

代码

导入库

%matplotlib inline
%config InlineBackend.figure_format = 'svg'

import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd   
import matplotlib.pyplot as plt
import seaborn as sns
from imblearn.over_sampling import SMOTE
import itertools

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier

from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from catboost import CatBoostClassifier
from sklearn import svm
from sklearn.ensemble import RandomForestClassifier

读取数据集

data = pd.read_csv("application_record.csv", encoding = 'utf-8') 
record = pd.read_csv("credit_record.csv", encoding = 'utf-8')  

特征工程

在此，我们将旨在从可用数据中提取最相关的信息，并以机器学习算法可以有效学习的方式表示它。

begin_month=pd.DataFrame(record.groupby(["ID"])["MONTHS_BALANCE"].agg(min))
begin_month=begin_month.rename(columns={'MONTHS_BALANCE':'begin_month'}) 
new_data=pd.merge(data,begin_month,how="left",on="ID") #merge to record data

这里，我们将根据“ID”列，合并来自两个 DataFrame（data 和 begin_month）的信息。它向数据 DataFrame 添加了一个新列“begin_month”，表示来自 record DataFrame 的每个唯一“ID”的“MONTHS_BALANCE”的最小值。

目标变量

通常，目标风险用户预计占所有用户的约 3%。在这种情况下，我们已将逾期付款超过 60 天的用户识别为目标风险用户。这些特定样本标记为“1”，而其余样本标记为“0”。

现在我们将创建目标变量。

# Creating a new column 'dep_value' in the record dataframe.
record['dep_value'] = None
record['dep_value'][record['STATUS'] =='2']='Yes' 
record['dep_value'][record['STATUS'] =='3']='Yes' 
record['dep_value'][record['STATUS'] =='4']='Yes' 
record['dep_value'][record['STATUS'] =='5']='Yes' 

cpunt=record.groupby('ID').count()
cpunt['dep_value'][cpunt['dep_value'] > 0]='Yes' 
cpunt['dep_value'][cpunt['dep_value'] == 0]='No' 
cpunt = cpunt[['dep_value']]
new_data=pd.merge(new_data,cpunt,how='inner',on='ID')
new_data['target']=new_data['dep_value']
new_data.loc[new_data['target']=='Yes','target']=1
new_data.loc[new_data['target']=='No','target']=0

print(cpunt['dep_value'].value_counts())
cpunt['dep_value'].value_counts(normalize=True)

“否”出现 45,318 次，约占总值的 98.55%。

“是”出现 667 次，约占总值的 1.45%。

特点

现在我们将对特征进行探索性数据分析，在此我们将检查、分析并对特征进行各种操作。

# Renaming the columns
new_data.rename(columns={'CODE_GENDER':'Gender','FLAG_OWN_CAR':'Car','FLAG_OWN_REALTY':'Reality',
                         'CNT_CHILDREN':'ChldNo','AMT_INCOME_TOTAL':'inc',
                         'NAME_EDUCATION_TYPE':'edutp','NAME_FAMILY_STATUS':'famtp',
                        'NAME_HOUSING_TYPE':'houtp','FLAG_EMAIL':'email',
                         'NAME_INCOME_TYPE':'inctp','FLAG_WORK_PHONE':'wkphone',
                         'FLAG_PHONE':'phone','CNT_FAM_MEMBERS':'famsize',
                        'OCCUPATION_TYPE':'occyp'
                        },inplace=True)

# Dropping missing values
new_data.dropna()
new_data = new_data.mask(new_data == 'NULL').dropna()

ivtable=pd.DataFrame(new_data.columns,columns=['variable'])
ivtable['IV']=None
namelist = ['FLAG_MOBIL','begin_month','dep_value','target','ID']

for i in namelist:
    ivtable.drop(ivtable[ivtable['variable'] == i].index, inplace=True)

ivtable DataFrame 将包含原始 DataFrame 中除 namelist 中指定的列之外的其余列。

定义 calc_iv 函数来计算信息值和 WOE 值

# Calculate information value
def calc_iv(df, feature, target, pr=False):
    lst = []
    df[feature] = df[feature].fillna("NULL")

    for i in range(df[feature].nunique()):
        val = list(df[feature].unique())[i]
        lst.append([feature,                                                        # Variable
                    val,                                                            # Value
                    df[df[feature] == val].count()[feature],                        # All
                    df[(df[feature] == val) & (df[target] == 0)].count()[feature],  # Good (think: Fraud == 0)
                    df[(df[feature] == val) & (df[target] == 1)].count()[feature]]) # Bad (think: Fraud == 1)

    data = pd.DataFrame(lst, columns=['Variable', 'Value', 'All', 'Good', 'Bad'])
    data['Share'] = data['All'] / data['All'].sum()
    data['Bad Rate'] = data['Bad'] / data['All']
    data['Distribution Good'] = (data['All'] - data['Bad']) / (data['All'].sum() - data['Bad'].sum())
    data['Distribution Bad'] = data['Bad'] / data['Bad'].sum()
    data['WoE'] = np.log(data['Distribution Good'] / data['Distribution Bad'])
    
    data = data.replace({'WoE': {np.inf: 0, -np.inf: 0}})

    data['IV'] = data['WoE'] * (data['Distribution Good'] - data['Distribution Bad'])

    data = data.sort_values(by=['Variable', 'Value'], ascending=[True, True])
    data.index = range(len(data.index))

    if pr:
        print(data)
        print('IV = ', data['IV'].sum())

    iv = data['IV'].sum()
    print('This variable\'s IV is:',iv)
    print(df[feature].value_counts())
    return iv, data

def convert_dummy(df, feature,rank=0):
    pos = pd.get_dummies(df[feature], prefix=feature)
    mode = df[feature].value_counts().index[rank]
    biggest = feature + '_' + str(mode)
    pos.drop([biggest],axis=1,inplace=True)
    df.drop([feature],axis=1,inplace=True)
    df=df.join(pos)
    return df

它将 DataFrame 中的分类特征转换为哑变量。

def get_category(df, col, binsnum, labels, qcut = False):
    if qcut:
        localdf = pd.qcut(df[col], q = binsnum, labels = labels) # quantile cut
    else:
        localdf = pd.cut(df[col], bins = binsnum, labels = labels) # equal-length cut
        
    localdf = pd.DataFrame(localdf)
    name = 'gp' + '_' + col
    localdf[name] = localdf[col]
    df = df.join(localdf[name])
    df[name] = df[name].astype(object)
    return df

它根据 DataFrame 中的数值列创建分类箱。

def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        
    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')

二元特征

二元特征，也称为二元变量或二元指标，是只能取两个不同值（通常表示为 0 和 1）的分类变量。这些特征用于指示数据集中是否存在特定特征或属性。

我们将寻找各种二元特征及其各种属性。

性别 (Gender)

new_data['Gender'] = new_data['Gender'].replace(['F','M'],[0,1])
print(new_data['Gender'].value_counts())
iv, data = calc_iv(new_data,'Gender','target')
ivtable.loc[ivtable['variable']=='Gender','IV']=iv
data.head()

输出

有车或无车

new_data['Car'] = new_data['Car'].replace(['N','Y'],[0,1])
print(new_data['Car'].value_counts())
iv, data=calc_iv(new_data,'Car','target')
ivtable.loc[ivtable['variable']=='Car','IV']=iv
data.head()

输出

有房产或无房产

new_data['Reality'] = new_data['Reality'].replace(['N','Y'],[0,1])
print(new_data['Reality'].value_counts())
iv, data=calc_iv(new_data,'Reality','target')
ivtable.loc[ivtable['variable']=='Reality','IV']=iv
data.head()

输出

有电话或无电话

new_data['phone']=new_data['phone'].astype(str)
print(new_data['phone'].value_counts(normalize=True,sort=False))
new_data.drop(new_data[new_data['phone'] == 'nan' ].index, inplace=True)
iv, data=calc_iv(new_data,'phone','target')
ivtable.loc[ivtable['variable']=='phone','IV']=iv
data.head()

输出

有电子邮件或无电子邮件

print(new_data['email'].value_counts(normalize=True,sort=False))
new_data['email']=new_data['email'].astype(str)
iv, data=calc_iv(new_data,'email','target')
ivtable.loc[ivtable['variable']=='email','IV']=iv
data.head()

输出

有工作电话或无工作电话

new_data['wkphone']=new_data['wkphone'].astype(str)
iv, data = calc_iv(new_data,'wkphone','target')
new_data.drop(new_data[new_data['wkphone'] == 'nan' ].index, inplace=True)
ivtable.loc[ivtable['variable']=='wkphone','IV']=iv
data.head()

输出

连续变量

连续变量，也称为定量或数值变量，是可以在特定范围内取任何值的测量值。与只有两个可能值的二元特征不同，连续变量可以在给定区间内具有无限数量的可能值。现在我们将寻找各种连续变量及其属性。

子女人数

new_data.loc[new_data['ChldNo'] >= 2,'ChldNo']='2More'
print(new_data['ChldNo'].value_counts(sort=False))

输出

iv, data=calc_iv(new_data,'ChldNo','target')
ivtable.loc[ivtable['variable']=='ChldNo','IV']=iv
data.head()

输出

年收入

new_data['inc']=new_data['inc'].astype(object)
new_data['inc'] = new_data['inc']/10000 
print(new_data['inc'].value_counts(bins=10,sort=False))
new_data['inc'].plot(kind='hist',bins=50,density=True)

输出

new_data = get_category(new_data,'inc', 3, ["low","medium", "high"], qcut = True)
iv, data = calc_iv(new_data,'gp_inc','target')
ivtable.loc[ivtable['variable']=='inc','IV']=iv
data.head()

输出

new_data['Age']=-(new_data['DAYS_BIRTH'])//365	
print(new_data['Age'].value_counts(bins=10,normalize=True,sort=False))
new_data['Age'].plot(kind='hist',bins=20,density=True)

输出

new_data = get_category(new_data,'Age',5, ["lowest","low","medium","high","highest"])
iv, data = calc_iv(new_data,'gp_Age','target')
ivtable.loc[ivtable['variable']=='DAYS_BIRTH','IV'] = iv
data.head()

输出

工作年限

new_data['worktm']=-(new_data['DAYS_EMPLOYED'])//365	
new_data[new_data['worktm']<0] = np.nan # replace by na
new_data['DAYS_EMPLOYED']
new_data['worktm'].fillna(new_data['worktm'].mean(),inplace=True) #replace na by mean
new_data['worktm'].plot(kind='hist',bins=20,density=True)

输出

new_data = get_category(new_data,'worktm',5, ["lowest","low","medium","high","highest"])
iv, data=calc_iv(new_data,'gp_worktm','target')
ivtable.loc[ivtable['variable']=='DAYS_EMPLOYED','IV']=iv
data.head()

输出

家庭规模

输出

new_data['famsize']=new_data['famsize'].astype(int)
new_data['famsizegp']=new_data['famsize']
new_data['famsizegp']=new_data['famsizegp'].astype(object)
new_data.loc[new_data['famsizegp']>=3,'famsizegp']='3more'
iv, data=calc_iv(new_data,'famsizegp','target')
ivtable.loc[ivtable['variable']=='famsize','IV']=iv
data.head()

输出

分类特征

分类特征，也称为定性或名义变量，表示属于不同类别或组的特征或属性。与具有一系列数值的连续变量不同，分类特征具有有限数量的离散值或标签。现在我们将查看各种分类特征及其属性。

收入类型

print(new_data['inctp'].value_counts(sort=False))
print(new_data['inctp'].value_counts(normalize=True,sort=False))
new_data.loc[new_data['inctp']=='Pensioner','inctp']='State servant'
new_data.loc[new_data['inctp']=='Student','inctp']='State servant'
iv, data=calc_iv(new_data,'inctp','target')
ivtable.loc[ivtable['variable']=='inctp','IV']=iv
data.head()

输出

new_data.loc[(new_data['occyp']=='Cleaning staff') | (new_data['occyp']=='Cooking staff') | (new_data['occyp']=='Drivers') | (new_data['occyp']=='Laborers') | (new_data['occyp']=='Low-skill Laborers') | (new_data['occyp']=='Security staff') | (new_data['occyp']=='Waiters/barmen staff'),'occyp']='Laborwk'
new_data.loc[(new_data['occyp']=='Accountants') | (new_data['occyp']=='Core staff') | (new_data['occyp']=='HR staff') | (new_data['occyp']=='Medicine staff') | (new_data['occyp']=='Private service staff') | (new_data['occyp']=='Realty agents') | (new_data['occyp']=='Sales staff') | (new_data['occyp']=='Secretaries'),'occyp']='officewk'
new_data.loc[(new_data['occyp']=='Managers') | (new_data['occyp']=='High skill tech staff') | (new_data['occyp']=='IT staff'),'occyp']='hightecwk'
print(new_data['occyp'].value_counts())
iv, data=calc_iv(new_data,'occyp','target')
ivtable.loc[ivtable['variable']=='occyp','IV']=iv
data.head()         

输出

房屋类型

iv, data=calc_iv(new_data,'houtp','target')
ivtable.loc[ivtable['variable']=='houtp','IV']=iv
data.head()

输出

教育

new_data.loc[new_data['edutp']=='Academic degree','edutp']='Higher education'
iv, data=calc_iv(new_data,'edutp','target')
ivtable.loc[ivtable['variable']=='edutp','IV']=iv
data.head()

输出

iv, data=calc_iv(new_data,'famtp','target')
ivtable.loc[ivtable['variable']=='famtp','IV']=iv
data.head()

输出

IV 和 WOE

证据权重 (WoE)

woe_i = ln((P(yi) / P(ni)) = ln((yi / ys) / (ni / ns))

其中

woe_i 是特定类别 i 的 WoE。
P(yi) 是类别 i 中“好”（非违约）观测值的比例。
P(ni) 是类别 i 中“坏”（违约）观测值的比例。
yi 是类别 i 中“好”观测值的数量。
ys 是“好”观测值的总数。
ni 是类别 i 中“坏”观测值的数量。
ns 是“坏”观测值的总数。

信息值 (IV)

IV = Σ[(Pyi - Pni) * ln(Pyi / Pni)]

其中

Pyi 是类别 i 中正样本的比例（类别 i 中正样本的数量除以正样本的总数）。
Pni 是类别 i 中负样本 (ni) 与负样本总数 (ns) 的比率。

IV 值衡量变量的预测能力。

IV 值与预测能力之间的关系

IV	预测能力
<0.02	几乎没有预测能力
0.02~0.1	弱预测能力
0.1~0.3	中等预测能力
0.3~0.5	强预测能力
>0.5	预测能力过强，需要检查变量

ivtable=ivtable.sort_values(by='IV',ascending=False)
ivtable.loc[ivtable['variable']=='DAYS_BIRTH','variable']='agegp'
ivtable.loc[ivtable['variable']=='DAYS_EMPLOYED','variable']='worktmgp'
ivtable.loc[ivtable['variable']=='inc','variable']='incgp'
ivtable

输出

年龄组（agegp）的 IV 值最高，为 0.0659351，表明具有相对较强的预测能力，而其他变量，如工作电话（wkphone）、子女人数（ChldNo）、电话（phone）、收入类型（inctp）、电子邮件（email）、汽车所有权（Car）和职业类型（occyp）的 IV 值非常低，表明它们几乎没有预测能力。

输出

分割数据集

现在我们将把数据集分成训练集和测试集。

Y = new_data['target']
X = new_data[['Gender','Reality','ChldNo_1', 'ChldNo_2More','wkphone',
              'gp_Age_high', 'gp_Age_highest', 'gp_Age_low',
       'gp_Age_lowest','gp_worktm_high', 'gp_worktm_highest',
       'gp_worktm_low', 'gp_worktm_medium','occyp_hightecwk', 
              'occyp_officewk','famsizegp_1', 'famsizegp_3more',
       'houtp_Co-op apartment', 'houtp_Municipal apartment',
       'houtp_Office apartment', 'houtp_Rented apartment',
       'houtp_With parents','edutp_Higher education',
       'edutp_Incomplete higher', 'edutp_Lower secondary','famtp_Civil marriage',
       'famtp_Separated','famtp_Single / not married','famtp_Widow']]

Y = Y.astype('int')
X_balance,Y_balance = SMOTE().fit_sample(X,Y)
X_balance = pd.DataFrame(X_balance, columns = X.columns)

X_train, X_test, y_train, y_test = train_test_split(X_balance,Y_balance, 
                                                    stratify=Y_balance, test_size=0.3,
                                                    random_state = 10086)

建模

然后，我们将继续训练和评估不同的机器学习算法，包括逻辑回归、决策树、随机森林、支持向量机 (SVM) 和梯度提升方法。每种算法都有其自身的优点和特点，因此比较它们的性能并选择最适合我们信用卡审批预测任务的算法非常重要。

1. 逻辑回归

model = LogisticRegression(C=0.8,
                           random_state=0,
                           solver='lbfgs')
model.fit(X_train, y_train)
y_predict = model.predict(X_test)

print('Accuracy Score is {:.5}'.format(accuracy_score(y_test, y_predict)))
print(pd.DataFrame(confusion_matrix(y_test,y_predict)))

sns.set_style('white') 
class_names = ['0','1']
plot_confusion_matrix(confusion_matrix(y_test,y_predict),
                      classes= class_names, normalize = True, 
                      title='Normalized Confusion Matrix: Logistic Regression')

输出

逻辑回归（LR）的准确度得分为 0.61215。这表明模型正确预测信用卡审批的能力是中等的。

2. 决策树

model = DecisionTreeClassifier(max_depth=12,
                               min_samples_split=8,
                               random_state=1024)
model.fit(X_train, y_train)
y_predict = model.predict(X_test)

print('Accuracy Score is {:.5}'.format(accuracy_score(y_test, y_predict)))
print(pd.DataFrame(confusion_matrix(y_test,y_predict)))

plot_confusion_matrix(confusion_matrix(y_test,y_predict),
                      classes=class_names, normalize = True, 
                      title='Normalized Confusion Matrix: CART')

输出

决策树分类器（DTC）表现更好，准确度得分为 0.82897。这表明该模型在捕获数据中的模式和关系以进行信用卡审批预测方面更有效。

3. 随机森林

model = RandomForestClassifier(n_estimators=250,
                              max_depth=12,
                              min_samples_leaf=16
                              )
model.fit(X_train, y_train)
y_predict = model.predict(X_test)

print('Accuracy Score is {:.5}'.format(accuracy_score(y_test, y_predict)))
print(pd.DataFrame(confusion_matrix(y_test,y_predict)))

plot_confusion_matrix(confusion_matrix(y_test,y_predict),
                      classes=class_names, normalize = True, 
                      title='Normalized Confusion Matrix: Random Forests')

输出

随机森林分类器（RFC）的准确度得分更高，为 0.89459。这表明随机森林模型中决策树的集成改进了预测性能，优于单个决策树。

4. SVM

model = svm.SVC(C = 0.8,
                kernel='linear')
model.fit(X_train, y_train)
y_predict = model.predict(X_test)

print('Accuracy Score is {:.5}'.format(accuracy_score(y_test, y_predict)))
print(pd.DataFrame(confusion_matrix(y_test,y_predict)))

plot_confusion_matrix(confusion_matrix(y_test,y_predict),
                      classes=class_names, normalize = True, 
                      title='Normalized Confusion Matrix: SVM')

输出

支持向量机（SVM）的准确度得分较低，为 0.59367，这表明它们在这种情况下可能无法有效捕获信用卡审批预测任务的复杂性。

5. LightGBM

model = LGBMClassifier(num_leaves=31,
                       max_depth=8, 
                       learning_rate=0.02,
                       n_estimators=250,
                       subsample = 0.8,
                       colsample_bytree =0.8
                      )
model.fit(X_train, y_train)
y_predict = model.predict(X_test)
print('Accuracy Score is {:.5}'.format(accuracy_score(y_test, y_predict)))
print(pd.DataFrame(confusion_matrix(y_test,y_predict)))

输出

Light GBM 获得了 0.90356 的高准确度得分，这表明该模型中使用的梯度提升算法有效地提高了预测准确度，优于其他模型。

# This function is used to plot the feature importance of a classifier model.
def plot_importance(classifer, x_train, point_size = 25):
    '''plot feature importance'''
    values = sorted(zip(x_train.columns, classifier.feature_importances_), key = lambda x: x[1] * -1)
    imp = pd.DataFrame(values,columns = ["Name", "Score"])
    imp.sort_values(by = 'Score',inplace = True)
    sns.scatterplot(x = 'Score',y='Name', linewidth = 0,
                data = imp,s = point_size, color='red').set(
    xlabel='importance', 
    ylabel='features')
    
plot_importance(model, X_train,20)   

输出

model.booster_.feature_importance(importance_type='gain')
# It is a method used to obtain the feature importance scores of a LightGBM model.

输出

6. XGBoost

model = XGBClassifier(max_depth=12,
                      n_estimators=250,
                      min_child_weight=8, 
                      subsample=0.8, 
                      learning_rate =0.02,    
                      seed=42)

model.fit(X_train, y_train)
y_predict = model.predict(X_test)
print('Accuracy Score is {:.5}'.format(accuracy_score(y_test, y_predict)))
print(pd.DataFrame(confusion_matrix(y_test,y_predict)))

输出

XGBoost 的准确度得分高达 0.93789。这表明 XGBoost 中采用的极限梯度提升算法捕获了数据中复杂的模式，并对信用卡审批做出了高度准确的预测。

输出

7. CatBoost

model = CatBoostClassifier(iterations=250,
                           learning_rate=0.2,
                           od_type='Iter',
                           verbose=25,
                           depth=16,
                           random_seed=42)

model.fit(X_train, y_train)
y_predict = model.predict(X_test)
print('CatBoost Accuracy Score is {:.5}'.format(accuracy_score(y_test, y_predict)))
print(pd.DataFrame(confusion_matrix(y_test,y_predict)))

输出

然而，CatBoost 的准确度得分相对较低，为 0.50081。这表明该模型在此上下文中表现不佳，可能需要进一步调查或参数调整以提高其预测能力。

XGBoost 模型在所考虑的模型中表现出最高的准确度，其次是 Light GBM 和随机森林分类器。这些模型似乎更适合预测信用卡审批。

结论

使用机器学习进行信用卡审批具有众多优势，包括提高准确性、加快处理速度、提供个性化服务和降低风险。通过利用机器学习算法，金融机构可以简化审批流程、提供定制的信用卡解决方案并做出明智的贷款决策。然而，至关重要的是解决与数据隐私、模型可解释性和公平性相关的挑战，以确保机器学习在信用卡审批中负责任和道德地实施。通过适当的考虑和监督，机器学习有潜力彻底改变贷款格局，造福消费者和贷方。

下一个主题使用机器学习预测肝病

机器学习中的信用卡审批

使用机器学习进行信用卡审批的优势

使用机器学习进行信用卡审批的挑战

数据定义

1. application_record.csv

2. credit_record.csv

导入库

读取数据集

特征工程

目标变量

特点

二元特征

连续变量

分类特征

IV 和 WOE

IV 值与预测能力之间的关系

分割数据集

建模

1. 逻辑回归

2. 决策树

3. 随机森林

4. SVM

5. LightGBM

6. XGBoost

7. CatBoost

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

机器学习中的信用卡审批

使用机器学习进行信用卡审批的优势

使用机器学习进行信用卡审批的挑战

数据定义

1. application_record.csv

2. credit_record.csv

导入库

读取数据集

特征工程

目标变量

特点

二元特征

连续变量

分类特征

IV 和 WOE

IV 值与预测能力之间的关系

分割数据集

建模

1. 逻辑回归

2. 决策树

3. 随机森林

4. SVM

5. LightGBM

6. XGBoost

7. CatBoost

结论

相关帖子

非参数统计简介

编码技术类型

可扩展机器学习

机器学习的距离度量

梯度提升算法

机器学习书籍

最小角回归

导数在现实生活中的应用

广义估计方程简介

机器学习中的解析解

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器