数据分析工作流程28 Aug 2024 | 5 分钟阅读 "数字有着引人入胜的故事要讲。它们相信我们有能力赋予它们权威而清晰的声音。" Stephen Few 聚合的原始数据是没有方向的数据。它需要深刻的理解和适当的问题,才能从中找出意义。许多分析都未能完全分析数据,导致利益相关者难以理解。因此,数据分析师有必要通过正确的初始问题集和标准化的工作流程来定义和理解数据,以执行不同类型的分析。 以下引言摘自 Jeff Leek 的精彩著作《数据分析风格要素》,该书根据问题的类型和预期为特定业务需求达成的结果,对各种分析阶段进行了广泛的分类。 描述性数据分析顾名思义,这类分析对累积的原始数据集和添加的观察结果提供了基本的“描述”或总结。 它们可以是视觉的和量化的,并且可以使用统计数据和简单的图表来描述数据。此摘要不需要进一步分析,并用作理解信息的摘要。 示例:关于同一课程在读学生注册情况的数据 数据可以分为不同类别,例如人数、性别、居住地年龄、种族等。信息对数据进行总结或分组,形成一个固定的集合,描述了所有学生和具体信息。它不提供任何暗示,只提供具体信息。因此,这是一种描述性分析。 探索性数据分析对描述性数据输出进行分析,然后对其进行进一步研究,以发现数据不同区域之间的模式、趋势、相关性或相互关系,从而形成解释、想法或假设。这是探索性数据分析 (EDA) 的基础。 本质上,它是在描述数据集的基础上进行扩展,并试图对数据提供全面的概述。正如 Dianne Cook 和 Deborah F. Swayne 在他们的书中恰当地指出的那样,“(EDA 是)一种‘玩沙子’,让我们能够发现意想不到的事物并对我们的数据有所了解。” 主要关注点并不总是问题陈述的结果;而是首先要密切了解数据的各个元素。 示例:典型的 EDA 应用研究了世界各地城市交通模式的行为。虽然收集的数据在性质上可能有所不同,但可能会发现各种令人惊讶的发现,例如交通信号灯处发生的事故频率、由于车辆尾气排放每天产生的污染量,甚至是一周内的交通拥堵率。这些发现并不总是决定实际问题的结果。收集到的信息与其它数据一起可能有助于确定结果。 推断性/量化数据分析推断性分析与探索性分析的区别在于,分析是否在各种样本和现有样本中提供了一致的信息。 示例:计算参加考试的学生平均分数与 100 名学生的难度指数之间的关系,可以为这 100 名学生提供有价值的信息。 研究学生在考试中的表现时,这些数据有助于理解这两个维度之间的联系质量。虽然不可能知道这些关系的原因,但可以通过某种方法确定某种联系在确定推断性结果中的重要性。 预测性数据分析预测性分析预测可能从初始总体数据集的一个小子集中得出的结果。这种预测新信息的方法主要基于现有数据集的可量化指标。 预测性分析无法像推断性统计方法那样量化两个维度之间的关系。相反,它利用它们共享的概率来预测未来可能的 P 结果。 示例:检查候选人竞选的政治影响力和受欢迎程度,以确定该选举的结果。 在这种情况下,我们可以根据候选人讨论的问题、其保守和自由观点、他在居住州的受欢迎程度等数据来确定其成功的可能性。虽然我们可以根据这些数据估计一个潜在结果,但无法准确预测结果。 因果数据分析改变一个维度或度量以得出另一个维度的结论性版本是因果分析的基础。它旨在确定度量相对于前两个维度的变化程度和方向。它是一种预测性分析,也是一种推断性分析。 示例:一项随机临床试验,旨在确定粪便移植是否会降低艰难梭菌引起的感染的发病率。 该研究中的患者被随机分配接受粪便移植和标准护理,或常规治疗。根据结果,研究人员发现感染结果和移植之间存在明确的关系。因此,对患者的因果关系研究产生了从原始数据中得出的精确平均结果。 机制性数据分析虽然因果数据提供了精确的平均结果,但目标不仅仅是理解从数据中得出的推论存在影响,还包括理解该影响如何影响结果。 示例:机制性分析,研究机翼设计如何影响机翼周围的气流,从而减少阻力。在没有任何工程专业知识的情况下,对数据的机械分析非常困难,而且很少进行。 结论正如我们所见,利用大数据分析可以为公司带来巨大的好处,提供数据背景,讲述一个更全面的故事。通过将复杂的数据集转化为可操作的情报,利益相关者可以做出更好的业务决策。如果我们知道如何让我们的客户能够访问大数据,我们服务的价值就会提高十倍。 下一个主题数据分析的生命周期阶段 |
我们请求您订阅我们的新闻通讯以获取最新更新。