如何在 Python 中创建 Seaborn 相关性热图?

2025年1月5日 | 阅读 3 分钟

可视化变量之间的联系对于理解复杂数据集至关重要。Seaborn 的相关性热图提供了一种优雅的方式来揭示这些模式,使您能够识别强相关的特征,并指导特征工程和模型选择。它揭示了可能被忽视的隐藏关系。它通过直观的视觉表示有效地建立了相关性模式之间的沟通。

这是使用 Seaborn 在 Python 中创建相关性热图的分步指南。

理解相关性热图

首先,我们需要了解什么是相关性热图。

在探索数据集变量之间的关系方面,相关性热图是一种非常有用的可视化工具。借助 Seaborn,一个广泛使用的 Python 数据可视化库,可以轻松创建相关性热图,从而提供对数据模式的宝贵见解。这些热图可以帮助您识别不同变量之间的强相关性,发现异常值,并更深入地理解您的数据集。

相关性热图是一种热图,它通过彩色单元格将两种离散维度之间的 2D 相关性矩阵可视化,通常使用单色比例尺表示统计数据。主要尺寸的值出现在表格的行上,而第二个测量值出现在列上。单元格的颜色与满足维度值的测量数量成正比。这使得相关性热图非常适合数据分析,因为它们可以轻松读取模式,并突出相同数据中的差异和变化。相关性热图与普通热图一样,都有一个颜色条支持,使得数据易于读取和理解。

在此之前,我们需要使用 pip 命令在 Python 中安装 seaborn 库。

然后,我们将导入创建相关性热图所需的所有库。

heatmap( ) 函数的语法

在这里,data 是将从中创建相关性热图的数据。必须通过 corr( ) 函数来获取数据的相关性。创建相关性热图时,其余属性是可选的。

现在,我们将创建具有不同数据的相关性热图,并在各种示例中演示

1. 随机数据的相关性热图

输出

How to Create a Seaborn Correlation Heatmap in Python

此代码从随机数据创建相关性热图。我们使用了 magma 颜色图。

2. Diamonds 数据集的 Correlation Heatmap

输出

How to Create a Seaborn Correlation Heatmap in Python

我们从 sns.load_dataset( ) 函数导入了 diamonds 数据集。由于此数据集中包含一些字符串记录,因此我们必须只选择数值,因为热图只包含数字。为此,我们使用了 select_dtypes( ) 函数。然后,使用 plasma 颜色图创建了热图。

结论

使用 Python 创建 Seaborn 相关性热图是一种简单而有效的可视化数据集中变量之间相关性的技术。通过利用 Seaborn 的功能来获得对相关性方向和强度的洞察,您可以辅助数据分析和决策过程。

尝试使用不同的数据集并自定义 Seaborn 的功能,以探索相关性并提高您的数据可视化技能!