数据可视化中单变量、双变量和多变量分析是什么?

7 Jan 2025 | 11分钟阅读

引言

在数据世界里,一切都在于揭示隐藏在数字中的故事。想象你有一张藏宝图,但要找到宝藏,你需要理解图上的每一个线索。数据分析就是这样。这篇文章将以简单有趣的方式,带你探索深入挖掘数据的三个基本方法:单变量、双变量和多变量分析。

将数据分析想象成解谜。首先,你需要知道为什么你要解这个谜。你是在寻找数据中隐藏的秘密吗?想节省时间?或者你想用酷炫的图表给朋友留下深刻印象。无论你的理由是什么,我们都在这里为你指引。

在我们这次冒险旅程中,请记住,我们是你友好的导游,帮助你穿越数据丛林。如果你有问题,请在评论区大声提问,我们将成为你的数据侦探!

理解不同类型的数据

在我们开始侦探工作之前,让我们先熟悉一下你会遇到的不同类型的数据。

分类数据: 这就像把东西分类装箱。想象一下,你按性别、支付方式,甚至星座来对人们进行分类。很简单。

数值数据: 数字是你的朋友。但这些数字可以有两种类型:

  • 离散数据: 考虑这些你可以一次性计数的事物。比如数口袋里的零钱、班里的学生人数,或者你的分数。
  • 连续数据: 这些数字会一直延续下去,就像你的体重秤上的数字、你的身高,或者支付的确切时间和日期。

现在,有趣的地方来了。根据数据类型,你应该对其进行整理。例如,如果你有日期和时间,你可以将它们分解成更简单的部分,如年、月,甚至将其归类为上午或下午的销售额。而对于那些连续的数字,你可以将它们分组为类别,比如通过设定一些体重范围,来决定某人是“平均以下/偏瘦”、“平均”还是“平均以上/肥胖”。

单变量分析

单变量分析就像是一场单人秀中的独角戏。你一次只关注一个数据点。以下是你的做法:

  • 你对数据提出简单的问题,比如平均值是多少,最常见的数字是什么,或者数字的分布范围有多大。
  • 你使用炫酷的工具,如直方图(花哨的条形图)、箱线图(是的,它们看起来像箱子),或小提琴图(听起来比看起来更优雅)。这些工具可以帮助你理解数据的形状并找出任何突出的异常数字。

例如,如果你正在检查关于鸢尾花的数据集中“花萼长度”,你就是在进行单变量分析,因为你只关注一件事。

让我们更详细地分解单变量分析的关键方面:

可视化: 可视化是理解单个变量特征的强大工具。以下是一些在单变量分析中常用的可视化类型:

  • 直方图: 直方图提供了变量频率分布的可视化表示。它们可以帮助你理解数据的形状和分布。
  • 条形图: 条形图适用于显示分类数据或离散值。它们显示每个类别或值的频率或计数。
  • 饼图: 饼图用于表示整体的组成部分。它们适用于显示类别占总数的百分比分布。
  • 箱线图: 箱线图,也称为箱须图,显示变量数据的分布,显示中位数、四分位数和潜在的异常值。
  • 折线图: 折线图通常用于可视化变量随时间或有序类别变化的趋势。

汇总统计: 除了可视化,单变量分析还涉及计算汇总统计量来量化单个变量的各个方面:

  • 平均值: 平均值是所有数据点的平均值,代表了变量的中心趋势。
  • 中位数: 中位数是数据排序后的中间值,提供了一个比平均值受异常值影响更小的中心趋势度量。
  • 众数: 众数是数据集中出现频率最高的值。
  • 标准差: 标准差衡量数据点围绕平均值的分布或变异性。
  • 四分位数: 四分位数将数据分成四等份,有助于理解分布并识别潜在的异常值。

目的: 单变量分析在数据分析中具有几个重要目的:

  • 识别异常值: 单变量分析有助于检测可能扭曲分析或指示数据错误的最大值(异常值)。
  • 评估正态性: 对于许多统计分析,检查数据是否遵循正态分布很重要。像直方图这样的单变量分析工具可以帮助进行此评估。
  • 理解特征: 单变量分析提供了对单个变量属性的基本理解,例如其中心趋势和变异性。

示例

Python 代码

输出

What is Univariate, Bivariate, and multivariate Analysis in Data Visualisation

对考试成绩进行单变量分析可以让你对学生的整体表现有宝贵的见解,并帮助你识别任何特殊情况。

双变量分析

现在,想象一下你不再孤单地踏上这段旅程。你有个搭档。双变量分析就是当你把两个朋友(变量)聚集在一起,看看他们如何相处。以下是窍门:

  • 你充当媒人,试图确定两个变量是否相关。可以把它想象成给你的数据安排一次盲约。
  • 你使用散点图,这就像情侣的故事。你把一个变量放在 x 轴上,另一个放在 y 轴上。如果你知道他们是亲密的朋友,他们会携手前进或后退。你也可以用数字来衡量他们的亲近程度,就像一个数据的情感计!

例如,在那份鸢尾花数据集中,你可能会将“花萼长度”与“花萼宽度”配对,看看它们是否匹配。

让我们以更人性化、更易于理解的方式呈现双变量分析的关键方面:

可视化: 想象你是一个园丁,想了解阳光的多少(变量 1)如何影响你的植物的生长(变量 2)。双变量分析就像在一天中拍摄花园的照片,并将阳光的量(直接日照小时数)绘制在 x 轴上,植物的生长(高度或大小)绘制在 y 轴上。由此产生的散点图将直观地显示这两个变量如何交互。你的植物在阳光充足的日子里是否更高,或者没有明显的模式?

相关性: 将双变量分析想象成你在试图弄清楚两件事之间是否存在联系时的侦探工具。在我们花园的例子中,你可能会怀疑更多的阳光会带来更好的植物生长,但这种联系有多强?相关系数就像一个放大镜,可以帮助你量化关系强度和方向。如果相关性是正的,这意味着随着阳光的增加,植物的生长也会增加。如果是负的,这意味着随着阳光的增加,植物的生长会减少。如果它接近于零,可能没有强烈的关系。

目的: 这一切到底是为了什么?嗯,你希望你的花园茁壮成长。双变量分析有助于确定阳光和植物生长之间是否存在因果关系。如果存在,你就可以做出明智的决定,例如优化植物的位置以获得更好的日照。它还可以帮助你识别关联——也许你注意到你的植物在阴天生长得不太好。这种见解可以指导你的园艺实践,并带来更健康的植物。

示例: 在你的花园里,你决定写一本园艺日志。你记录每天的直接日照小时数(变量 1)并测量植物的生长(变量 2)。为了进行双变量分析,创建一个散点图,其中每个点代表花园中的一天。x 坐标是日照小时数,y 坐标是植物生长。当你查看散点图时,植物在阳光充足的日子里往往更高。你还计算了相关系数,这证实了阳光和植物生长之间存在很强的正相关。这告诉你阳光对你的植物生长有积极影响,从而加强了你的园艺策略,即最大化日照以获得更好的结果。

双变量分析涉及分析两个变量之间的关系。你可以创建散点图、箱线图或小提琴图来可视化两个变量之间的关系。

Python 代码

输出

What is Univariate, Bivariate, and multivariate Analysis in Data Visualisation

多变量分析

多变量分析就像举办一个有很多变量的大型派对。你邀请了两个以上的朋友(变量)来参加派对。但有一个挑战:

  • 你无法一次看到所有内容,因为这是一个大型派对!所以,你使用特殊的工具,如散点图矩阵或 3D 模型(如果你觉得很酷),来帮助你理解所有这些朋友之间的关系。
  • 有时,你需要像主成分分析(PCA)这样的超能力来理解一切。把它想象成拥有一个特殊的透镜来穿透数据混乱。

数据巫师: 有时,你需要魔法来解决一个难题。在数据分析中,这种魔法以高级技术的形式出现。这些技术,如主成分分析(PCA)或回归,可以帮助你发现数据中更深的秘密。我们将在未来的文章中探讨这些,我们保证它们就像数据世界中最酷的魔术表演!

示例

多变量分析涉及分析两个以上变量之间的关系。你可以创建成对图、热力图或平行坐标图来同时可视化多个变量。这些代码片段使用 Python 中流行的第三方数据可视化库演示了基本 univariate、bivariate 和 multivariate 分析技术。根据你的具体数据集和研究问题,你可以自定义这些可视化和分析方法。我们在本示例中使用了 Seaborn 库,它与 pandas DataFrames 配合良好。“tips”数据集是 Seaborn 的内置数据集。你可以根据需要替换为你的数据集。

Python 代码

输出

What is Univariate, Bivariate, and multivariate Analysis in Data Visualisation

为什么任何人都要学习这种分析?

想象一下你正在厨房里准备烤蛋糕。学习数据可视化中的单变量、双变量和多变量分析,就像学习处理食材的不同方法。

  • 单变量分析 就像分别检查每种食材。在开始之前,仔细检查面粉、糖、鸡蛋和可可粉。你想了解它们的特性——你有多少面粉,糖有多甜,等等。这有助于你了解每种食材为蛋糕带来的东西。
  • 双变量分析 是当你开始将食材配对,看看它们如何相互作用。你可能会混合面粉和糖来了解它们的甜度,或者将鸡蛋和可可粉结合起来,看看它们如何影响蛋糕的颜色和质地。这是关于理解两种食材如何协同工作。
  • 多变量分析 更进一步。现在,你不仅在查看食材对,还在考虑整个食谱。你正在考虑面粉、糖、鸡蛋、可可粉和其他食材如何结合在一起,制成最终的蛋糕。这是关于理解所有食材之间复杂的关系。

正如厨师需要了解不同食材如何协同工作以创造美味佳肴一样,数据分析师或科学家也需要了解这些分析技术才能有效地理解数据。单变量、双变量和多变量分析可以帮助你“品尝”你的数据,也就是说,发现它独特的风味和复杂性。

哪种方法更好?

在这些方法之间选择,就像决定如何探索一个新城市。要深入了解一个地方,从单变量分析开始。如果你好奇动态组合,双变量分析就是你的门票。如果你想 unravel 整个城市,以及它所有的街道和街区,那就是多变量分析的作用。

没有万能的方法。这完全取决于你的好奇心。你可以从一种食材开始,然后查看两种食材如何相互作用,如果你想知道整个故事,可以深入多变量世界。结合这三种方法通常能让你对数据有最丰富、最美味(最全面)的理解。这就像品尝一道美味菜肴的每一层——每一口都讲述着不同的故事,而它们共同创造了一部烹饪杰作。

选择合适的分析方法取决于研究问题的复杂性和涉及的变量数量。单变量分析最适合理解个体特征,双变量分析用于探索两个变量之间的关系,多变量分析用于解开涉及多个变量的复杂模式。每种方法都提供了对数据的独特见解,并在不同的分析环境中都很有价值。

数据剖析的重要性

想象一下,你是一位大厨,正在为特殊场合准备一场盛大的宴席。数据分析就像拥有一个秘密配料,可以以非凡的方式增强你的烹饪技巧。

  1. 创造难忘的体验: 就像你精心制作餐点以创造难忘的用餐体验一样,企业通过数据分析来了解客户偏好。通过分析客户喜欢什么,企业可以创造出满足个人口味的产品和服务,让每一次互动都变得特别。
  2. 从经验中学习: 就像经验丰富的大厨通过尝试新食谱来学习一样,数据分析使我们能够从过去的经验中学习。通过分析历史数据,我们可以了解哪些有效,哪些无效,从而让我们在未来的事业中更加明智和高效。
  3. 做出明智的选择: 就像你为菜肴选择最优质的食材一样,数据分析可以帮助你做出明智的决定。它提供了宝贵的见解,帮助个人和组织选择最佳行动。这就像有一位值得信赖的副厨师指导你为你的杰作选择完美的食材。
  4. 理解他人: 想象一下在你客人到来之前就知道他们最喜欢的菜肴。数据分析帮助我们更深入地理解他人。在心理学和社会学等领域,它使我们能够理解人类行为,从而更容易与他人建立联系、产生共鸣和理解。
  5. 改善生活: 除了烹饪界,数据分析也对医疗保健产生了深远影响。就像医生分析症状以诊断疾病一样,医疗保健中的数据分析有助于早期疾病检测、个性化治疗和改善总体患者结局,挽救生命。
  6. 保护宝贵资源: 想象一下你是一个郁郁葱葱花园的照料者。数据分析有助于明智地利用资源,确保水、能源和时间得到有效利用。这就像知道每株植物需要多少水,从而为可持续的未来保护资源。
  7. 释放创造力: 数据分析不仅仅是数字;它也关乎创造力。艺术家、作家和设计师利用数据分析来了解趋势和观众偏好,激发新的创作。这就像从世界集体口味和偏好中寻找灵感,激发创新想法。

数据分析是为我们的个人和职业生活增添风味、精确度和理解力的魔法配料。它是使我们能够创造、联系并使世界变得更美好的工具,一次进行一次富有洞察力的分析。顶部表单

结论

  • 单变量分析就像一次看一件事。
  • 双变量分析将两个变量配对,看看它们是否是好朋友。
  • 多变量分析是一场盛大的派对,有很多变量;有时你需要特殊的工具来处理它。

请记住,数据分析是一场冒险;我们是你值得信赖的向导。所以,请继续关注更多文章,在那里我们将通过示例深入探讨这些技术,并探索数据分析背后的魔力。在那之前,祝你数据探索愉快!