Python 中的 vif

2025年3月17日 | 阅读 3 分钟

在讨论vif之前，首先了解线性回归中的多重共线性是什么至关重要？

当两个自变量具有强相关性时，就会出现多重共线性。

每当我们进行探索性数据分析时，目标就是获得对目标变量有显著影响的参数。

因此，相关性是帮助我们理解两个变量之间存在的线性关系的主要步骤。

什么是相关性？

相关性衡量两个变量相互依赖的程度。

一种可视化方法，用于检查两个变量之间存在何种相关性。我们可以绘制图形并解释一个属性值的增加如何影响另一个属性。

在统计学中，我们可以使用Pearson Correlation来获得相关性。它为我们提供相关系数和 P 值。

让我们来看一下标准-

相关系数	关系
1. 接近 +1	大正相关
2. 接近 -1	大负相关
3. 接近 0	不存在关系

P 值	确定性
P 值<0.001	强
P 值<0.05	适中
P 值<0.1	弱
P 值>0.1	不能

既然我们现在对相关性有了详细的了解，我们就明白了，如果数据集中两个自变量之间存在强相关性，就会导致多重共线性。

让我们来讨论一下多重共线性可能导致哪些问题-

由于存在强关系，确定显著变量将是一项艰巨的任务。
我们将为变量获得的系数可能不稳定，因此，解释模型将是一项繁琐的工作。
可能会发生过拟合，并且模型的准确性会随着数据集而变化。

检查多重共线性

检查多重共线性的两种方法是-

绘制热力图以理解相关性
使用方差膨胀因子 (Variance Inflation Factor)

绘制热力图以理解相关性

取一个数据集，绘制热力图将帮助我们推断哪个属性具有最重要的相关性值。该值将告诉我们因变量和自变量之间的影响程度。

让我们来看一个演示如何实现的程序。

示例 -

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
  
# importing the data
df = pd.read_csv("/content/SampleSuperstore.csv")

print(df.corr())
  
# plotting the correlation heatmap
df_plot = sns.heatmap(df.corr(), cmap="YlGnBu", annot=True)
  
# displaying the heatmap
plt.show()

输出

使用方差膨胀因子 (Variance Inflation Factor)

方差膨胀因子是多重回归中涉及的变量集中的多重共线性度量。

一般来说，vif 值高于 10 表明与其他自变量存在高度相关性。

让我们来看一个演示如何实现的程序。

示例 -

from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.tools.tools import add_constant
import pandas as pd

df = pd.DataFrame(
    {'x': [2, 2, 4, 1, 3],
     'y': [1, 1, 2, 3, 2],
     'z': [7, 4, 8, 6, 9],
     'w': [5, 4, 3, 4, 5]}
)

X = add_constant(df)
ds=pd.Series([variance_inflation_factor(X.values, i) 
               for i in range(X.shape[1])], 
              index=X.columns)
print(ds)

输出

解决多重共线性问题的不同方法-

变量选择

应以这样的方式选择变量：删除高度相关的变量，只使用显著变量。

变量变换

变量变换是一个不可或缺的步骤，其目的是在保持特征的同时进行变换，这可以给我们一个不会产生有偏结果的范围。

主成分分析

主成分分析 (Principal Component Analysis) 是一种降维技术，通过它可以获得数据集中对目标变量有强烈影响的显著特征。

在实现 PCA 时，我们必须注意的一点是，我们不应丢失基本特征，并尝试以最大程度地收集信息的方式来减少它们。

下一主题Python 中的 __add__ 方法

← 上一个下一个 →

Python 中的 vif

什么是相关性？

检查多重共线性

绘制热力图以理解相关性

使用方差膨胀因子 (Variance Inflation Factor)

解决多重共线性问题的不同方法-

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Python 问题

Python 中的 vif

什么是相关性？

检查多重共线性

绘制热力图以理解相关性

使用方差膨胀因子 (Variance Inflation Factor)

解决多重共线性问题的不同方法-

相关帖子

使用 gmplot 包在 Python 中绘制 Google Map

PyQt5 QDoubleSpinBox - 设置最大可能值

使用 Python 创建交互式 PDF 表单

Python 中的 __add__ 方法

Python 程序计算两个字符串之间的编辑距离

Python 中的面向数据编程

Unittest 和 Doctest 之间的区别

Python 的精彩技巧

Python 程序旋转图像

Python 列表中所有元素的乘积

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器

Python 中的 add 方法