机器学习中的信用评分预测

2025年6月25日 | 阅读 10 分钟
Credit Score Prediction using Machine Learning

在当今世界,信用评分对于贷款机构评估信用worthiness 至关重要,它们影响着从抵押贷款到租房的方方面面。随着大数据和机器学习的兴起,信用评分过程得到了革新,使其更加准确和高效。机器学习算法能够分析大量数据,并比传统的信用评分模型提供更准确的预测。本文将探讨使用机器学习进行信用评分预测,包括其好处和挑战。

信用评分及其重要性

Credit Score Prediction using Machine Learning

信用评分是根据个人的信用历史、收入和其他财务因素对其信用worthiness 的数值表示。它是贷款机构和信用卡公司在决定是否批准贷款或提供信贷时的一个关键因素。信用评分的范围从 300 到 850,分数越高表示信用worthiness 越好。通常,良好的信用评分在 700 以上,而低于 600 的评分则被认为是差的。

机器学习在信用评分中的优势

机器学习算法通过提供更准确的信用worthiness 预测,革新了信用评分。机器学习模型经过大量数据的训练,能够识别模式并比传统的信用评分模型做出更准确的预测。机器学习算法还可以考虑更广泛的数据,包括社交媒体等非传统数据源,以做出更准确的预测。

机器学习在信用评分中的主要优势之一是其减少偏见的能力。传统的信用评分模型通常存在基于种族或性别等因素的固有偏见。机器学习算法被设计为无偏的,因为它们基于数据进行训练,并且不包含任何先入为主的偏见。这使得信用评分决策更加公平。

与传统的信用评分模型相比,机器学习算法也更有效率。它们可以在几秒钟内分析大量数据,从而提供近乎即时的信用评分决策。这使得借贷流程对借款人和贷款人双方都更快、更高效。

机器学习在信用评分中的挑战

虽然机器学习在信用评分方面具有许多优势,但也有需要考虑的挑战。

  • 主要挑战之一是机器学习模型的复杂性。机器学习算法通常是“黑箱”,这使得贷款机构难以理解算法是如何得出其信用评分决策的。这可能导致借款人难以理解他们为何被拒绝信贷,或者如何提高他们的信用评分。
  • 另一个挑战是对大量高质量数据的需求。机器学习算法依赖大量数据来做出准确的预测。然而,如果数据质量差或范围有限,算法可能无法做出准确的预测。
  • 使用机器学习算法进行信用评分时,隐私也是一个问题。机器学习模型需要访问个人和财务数据,这可能会引起借款人的担忧。贷款机构必须采取措施确保借款人的数据受到保护和安全。

Python 实现

现在我们将尝试在代码中实现它。

目的

根据客户的月度客户画像,目标是估算他们未来无法偿还信用卡账单的可能性。通过跟踪最近信用卡账单之后的 18 个月的表现来派生二元目标变量,如果消费者在账单日期后的 120 天内未按时付款,则认为发生了违约事件。

关于数据

数据集中包含每个客户在每个账单日期的汇总画像特征。在匿名化和标准化后,特征分为以下几大类:

  • D_* = 逾期变量
  • S_* = 消费变量
  • P_* = 支付变量
  • B_* = 余额变量
  • R_* = 风险变量

以下特征是分类的

  • 导入库
  • 加载数据

输出

Credit Score Prediction using Machine Learning

训练数据集包含 5531451 行和 190 列。

输出

Credit Score Prediction using Machine Learning
  • 目标分布

输出

Credit Score Prediction using Machine Learning

此处,0 --> 非违约,1 --> 违约

  • EDA

输出

Credit Score Prediction using Machine Learning

我们可以看到训练-测试数据中没有用户重叠。

输出

Credit Score Prediction using Machine Learning

输出

Credit Score Prediction using Machine Learning

时间线上也没有重叠。

输出

Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning

我们可以看到,从 10 月到 4 月,测试画像增加,而训练画像保持一致。

输出

Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning

我们可以看到训练和测试画像长度的分布是相似的。

  • 特征选择
  • 信息值 (IV)

信息值是选择预测模型中的重要变量最有效的技术之一。它有助于根据变量的重要性进行排序。

Credit Score Prediction using Machine Learning

如果 IV 统计量是

  • 低于 0.02,则预测变量对建模(区分好坏客户)没有用。
  • 0.02 到 0.1,则预测变量与好/坏客户的赔率关系仅有弱关系。
  • 0.1 到 0.3,则预测变量与好/坏客户的赔率关系有中等强度。
  • 0.3 到 0.5,则预测变量与好/坏客户的赔率关系有强关系。

现在,为了选择特征,我们正在计算每个特征的 IV 值。

输出

Credit Score Prediction using Machine Learning

输出

Credit Score Prediction using Machine Learning

输出

Credit Score Prediction using Machine Learning

我们可以观察到,排名前 75 的特征的 IV 值大于 0.5,因此这 75 个 IV 值最高的特征是强预测因子。

证据权重 (WOE)

证据权重表明独立变量在多大程度上可以预测因变量。它经常被称为衡量好坏客户分离度的指标,因为它源自信用评分领域。错过贷款还款的客户被称为“坏客户”。“好客户”是指偿还了贷款的客户。

Credit Score Prediction using Machine Learning
  • 好客户分布 - 特定群体中好客户的百分比
  • 坏客户分布 - 特定群体中坏客户的百分比
  • ln - 自然对数

计算 WOE 的步骤

  1. 对于连续变量,将数据分成十个部分(或根据分布少于十个)。
  2. 计算每个组(箱)中的事件和非事件数量。
  3. 计算每个组中事件和非事件的百分比。
  4. 通过将非事件百分比除以事件百分比取自然对数来计算 WOE。

对于一个特征,我们将尝试描述 woe 值和一个 woe 图。

输出

Credit Score Prediction using Machine Learning
  • P_2 是一个连续特征,所以我们将其分成 15 个箱。
  • 每个箱都有非事件和事件的数量及比率。
  • 每个箱都有 WOE 和 IV 值。
  • 对于缺失值,它被创建在第 16 个箱中。

输出

Credit Score Prediction using Machine Learning
  • 从这个 woe 图中,我们可以观察到,随着箱数的增加,事件率下降。
  • 您可以看到黑色的虚线与目标呈正相关。

输出

Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning

选择 IV 值大于 0.5 的特征。

相关性热力图

输出

Credit Score Prediction using Machine Learning

输出

Credit Score Prediction using Machine Learning
  • 建模

输出

Credit Score Prediction using Machine Learning

输出

Credit Score Prediction using Machine Learning

输出

Credit Score Prediction using Machine Learning

输出

Credit Score Prediction using Machine Learning
  • 我们可以观察到 P_2 特征的得分。
  • 随着箱数的增加,得分也增加。
  • 例如,如果用户的 P_2 值为 0.73,那么该用户属于第 7 个箱,对应的得分为 22.45。
  • 指标

输出

Credit Score Prediction using Machine Learning

我们获得了 75% 的准确率。

输出

Credit Score Prediction using Machine Learning
Credit Score Prediction using Machine Learning

输出

Credit Score Prediction using Machine Learning

输出

Credit Score Prediction using Machine Learning

输出

Credit Score Prediction using Machine Learning

我们获得了 87% 的准确率。

输出

Credit Score Prediction using Machine Learning
  • 分数

输出

Credit Score Prediction using Machine Learning
  • 我们可以观察到违约与非违约得分的分布。
  • 在 550 到 650 之间有一些重叠。
  • 总体上分离得很好。
  • 非违约人数多于违约人数。

输出

Credit Score Prediction using Machine Learning

我们可以看到很多分数卡在 650-750 的范围内。

输出

Credit Score Prediction using Machine Learning

结论

机器学习算法通过提供更准确、更高效的信用评分决策,革新了信用评分过程。它们能够分析海量数据并识别模式以做出更准确的预测。然而,也存在需要考虑的挑战,例如机器学习模型的复杂性以及对大量高质量数据的需求。隐私也是一个问题,贷款机构必须采取措施确保借款人的数据受到保护和安全。尽管存在这些挑战,机器学习在信用评分方面的优势是显而易见的,并且机器学习很可能在未来的信用评分中继续发挥越来越重要的作用。