什么是数据挖掘中的分箱?

2024 年 8 月 29 日 | 4 分钟阅读

数据分箱,也称为离散分箱或分桶,是一种数据预处理技术,用于减少次要观测误差的影响。它是量化的一种形式。原始数据值被分成称为箱的小区间,然后它们被替换为为该箱计算的通用值。这可以平滑输入数据,并且在小数据集的情况下也可能减少过度拟合的可能性。

统计数据分箱 是一种将或多或少连续的值分组为更少数量的“箱”的方法。它也可以用于多元统计,同时在多个维度上进行分箱。例如,如果您拥有一组人的数据,您可能希望将其年龄安排成更少的年龄间隔,例如将每五年组合在一起。

分箱可以显着提高资源利用率和模型构建的响应时间,而不会显着降低模型质量。分箱可以通过加强属性之间的关系来提高模型质量。

监督分箱 是一种智能分箱形式,其中数据的关键特征被用来确定箱的边界。在监督分箱中,箱的边界由一个单预测变量决策树确定,该树考虑了与目标的联合分布。监督分箱可用于数值和分类属性。

图像数据处理

在图像处理的上下文中,分箱是将一簇像素组合成单个像素的过程。因此,在2x2分箱中,一个由4个像素组成的数组变为一个更大的像素,从而减少了像素的总数。

尽管与信息丢失有关,但这种聚合减少了要处理的数据量,从而促进了分析。例如,分箱数据也可以降低读取噪声对处理后图像的影响(代价是降低分辨率)。

为什么要使用分箱?

分箱或离散化用于将连续或数值变量转换为分类特征。连续变量的分箱引入了非线性,并往往会提高模型的性能。它也可以用于识别缺失值或异常值。

数据分箱的目的是什么?

分箱,也称为离散化,是一种减少连续和离散数据基数的技术。分箱将相关值组合到箱中以减少不同值的数量。

分箱的例子

直方图是用于观察底层分布的数据分箱的例子。它们通常出现在一维空间中,并且间隔相等,以便于可视化。

当来自质谱 (MS) 或核磁共振 (NMR) 实验的频谱维度中的微小仪器偏移将被错误地解释为表示不同组件时,可以使用数据分箱,其中一组数据配置文件被用于模式识别分析。应对此问题的一种直接方法是使用分箱技术。光谱的清晰度降低到足以确保给定的峰保持在其箱中,尽管在分析之间存在小的光谱偏移。

例如,在 NMR 中,化学位移轴可以被离散化并粗略分箱,在 MS 中,光谱精度可以四舍五入到整数原子质量单位值。此外,一些数码相机系统包含一个自动像素分箱功能,以提高图像对比度。

分箱也用于机器学习中,以加速决策树提升方法,用于监督分类和回归,在 Microsoft 的 LightGBM 和 scikit-learn 的基于直方图的梯度提升分类树等算法中。

如何分箱数据?

有两种将数据分成箱和分箱数据的方法

1. 等频分箱: 箱的频率相等。

例如,等频

输入 [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215]

输出

[5, 10, 11, 13]

[15, 35, 50, 55]

[72, 92, 204, 215]

2. 等宽分箱: 箱的宽度相等,每个箱的范围定义为 [min + w], [min + 2w] …. [min + nw],其中 w = (max - min) / (箱的数量)。

例如,等宽

输入 [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215]

输出

[5, 10, 11, 13, 15, 35, 50, 55, 72]

[92]

[204, 215]

分箱技术的实现

以下代码显示了分箱技术的实现。

输出

上述代码给出以下输出。

Equal frequency binning
[5, 10, 11, 13]
[15, 35, 50, 55]
[72, 92, 204, 215]

Equal width binning
[[5, 10, 11, 13, 15, 35, 50, 55, 72], [92], [204, 215]]