分布数据分析

2025年6月18日 | 4 分钟阅读

它是一门先进的统计学和数据科学,处理以分布而不是实际值或向量表示的数据。DDA 从分布的角度看待观察结果,而不是像传统分析那样只关注孤立的点。当应用于本质上具有变化性的复杂数据集时,它非常有用,例如气候模式、人口收入水平或生物测量。通过利用分布的便利性,DDA 帮助分析师捕捉标量摘要通常无法捕捉的详细行为和趋势,从而提供更多洞察和更丰富的数据底层描述。

从最基本的层面讲,DDA 涉及的数据集,其中每个观测值都表示为一个分布而不是一个标量。这些分布可以是参数化的,例如由特定参数定义的正态或指数分布,也可以是非参数化的,例如直接从数据中导出的核密度估计或经验分布。例如,DDA 可能不会对家庭收入进行平均,而是用一个概率分布来表示家庭的收入,捕捉该特定家庭的收入分布。因此,人们可以查看集中趋势度量以及数据分布,以更深入地了解其结构。

分布之间的比较是 DDA 的关键。这可以通过数学度量实现,例如 Wasserstein 距离、Kullback-Leibler 散度和总变异距离。这些度量能够测量分布,从而使聚类、趋势检测和异常检测等操作成为可能。例如,人们可以比较一个区域与另一个区域的收入分布:富裕与贫困;以及随着时间的推移温度分布可以显示气候变化。这些指标还显示了标量分析遗漏的模式,例如尾部微妙的移动。

回归、假设检验和分类等统计技术可以很容易地适应与分布数据一起使用。输入或输出可以是分布而不是单个值,例如在回归分析中。这允许人们比在基本情况下更详细地建模变异性。本质上,假设检验可以评估两个或多个分布之间的差异是否足够显著以得出结论;通常应用基于重采样或置换的方法。适应这些方法使 DDA 成为一个非常通用的工具,可用于需要数据聚合和变异性的情况。

人们已经认识到,分布数据分析适用于许多学科。例如,在经济学和金融领域,它适用于确定收入不平等、财富分配和资产回报。例如,分析收入分布而不是实际个人收入是洛伦兹曲线和基尼系数的基础。同样,在金融领域,将资产建模为回报分布可以更好地估计风险和优化投资组合。DDA 在生物学和医学中用于理解随机过程,例如基因表达水平或患者生存率,其中需要群体内的变异性才能进行有意义的分析。环境科学利用 DDA 通过分析温度、降水和其他变量随时间的分布来模拟气候模式,从而深入了解长期趋势、异常以及全球变暖等外部因素的影响。

为了更好地理解,我们将绘制直方图,以反映电影预算在不同预算范围内的分布情况,重点是每个范围内电影的频率。这清晰地描绘了从 2000 年到 2023 年票房排行榜上一直名列前茅的电影的预算趋势。绘制了中位数预算(红线)和平均预算(蓝线),以提供有关电影预算水平的见解,从而帮助找出分布是否居中或因异常值(即少数预算极高的电影)而偏斜。

代码

输出

Distributional Data Analysis

直方图显示出右偏分布:大多数电影的预算低于 2 亿美元,但少数高预算电影的预算超过 3 亿美元,从而拉高了平均值。这表明中位数预算低于平均预算,并且少数高预算电影超出了常规水平。大多数电影的预算在 5000 万美元到 1.5 亿美元之间,只有少数电影突破 3 亿美元大关,使它们成为通常归因于漫威或阿凡达等大片系列的高预算异常值。