数据挖掘中的数据归约

25 Dec 2024 | 7 分钟阅读

数据挖掘应用于大型数据库中的选定数据。当对大量数据进行数据分析和挖掘时,处理时间会非常长,使其不切实际且不可行。

数据缩减技术在缩减数据的同时确保数据的完整性。数据缩减是一个过程,它减少原始数据的量,并以更小的量来表示它。数据缩减技术用于获得数据集的缩小表示,该表示的体积小得多,同时保持原始数据的完整性。通过减少数据,提高了数据挖掘过程的效率,从而产生相同的分析结果。

数据缩减不影响从数据挖掘中获得的结果。这意味着在数据缩减之前和之后从数据挖掘中获得的结果是相同或几乎相同的。

数据缩减旨在更简洁地定义它。当数据量较小时,更容易应用复杂且计算成本高昂的算法。数据的缩减可能涉及行数(记录数)或列数(维数)的减少。

数据缩减技术

数据挖掘中的数据缩减技术或方法如下:

Data Reduction in Data Mining

1. 降维

每当我们遇到不重要的数据时,我们就使用分析所需的属性。降维消除了被考虑的数据集中的属性,从而减少了原始数据的量。它通过消除过时或冗余的特征来减少数据量。以下是降维的三种方法。

  1. 小波变换:在小波变换中,假设数据向量A被转换为数值上不同的数据向量A',使得A和A'向量的长度相同。那么它如何有助于减少数据呢?因为从小波变换获得的数据可以被截断。通过保留最强小波系数的最小片段来获得压缩数据。小波变换可以应用于数据立方体、稀疏数据或倾斜数据。
  2. 主成分分析:假设我们有一个数据集需要分析,该数据集具有n个属性的元组。主成分分析识别k个具有n个属性的独立元组,它们可以表示该数据集。
    这样,原始数据就可以映射到一个小得多的空间,从而实现降维。主成分分析可以应用于稀疏和倾斜数据。
  3. 属性子集选择:大型数据集有许多属性,其中一些对于数据挖掘来说是不相关的,或者一些是冗余的。核心属性子集选择可以减少数据量和维度。属性子集选择通过消除冗余和不相关的属性来减少数据量。
    属性子集选择可确保即使在消除不需要的属性后,我们也能获得原始属性的良好子集。使用所有属性时,所得数据分布的概率尽可能接近原始数据分布。

2. s数量缩减

数量缩减减少了原始数据量,并以更小的形式表示它。此技术包括参数化和非参数化数量缩减两种类型。

  1. 参数化:参数化数量缩减包括仅存储数据参数而不是原始数据。参数化数量缩减的一种方法是回归和对数线性方法。
    • 回归和对数线性:线性回归通过对数据集进行线性方程建模来模拟两个属性之间的关系。假设我们需要在两个属性之间建模一个线性函数。
      y = wx +b
      在此,y是响应属性,x是预测属性。如果我们从数据挖掘的角度讨论,属性x和属性y是数字数据库属性,而w和b是回归系数。
      多元线性回归允许响应变量y对两个或多个预测变量之间的线性函数进行建模。
      对数线性模型发现数据库中两个或多个离散属性之间的关系。假设我们有一组呈现在n维空间中的元组。然后,对数线性模型用于研究多维空间中每个元组的概率。
      回归和对数线性方法可用于稀疏数据和倾斜数据。
  2. 非参数化:非参数化数量缩减技术不假设任何模型。非参数化技术产生更均匀的缩减,与数据量无关,但它可能无法像参数化那样实现大量数据缩减。至少有四种非参数化数据缩减技术:直方图、聚类、采样、数据立方体聚合和数据压缩。
    • 直方图:直方图是一种表示频率分布的图,描述一个值在数据中出现的频率。直方图使用分箱方法来表示属性的数据分布。它使用称为 bin 或 buckets 的不相交子集。
      直方图可以表示密集、稀疏、均匀或倾斜的数据。直方图可以实现多个属性,而不仅仅是一个。它可以有效地表示多达五个属性。
    • 聚类:聚类技术将数据中的相似对象分组,使得一个簇中的对象彼此相似,但与另一个簇中的对象不相似。
      簇内对象之间的相似度可以通过距离函数来计算。簇内对象之间的相似度越高,它们在簇中就越接近。
      簇的质量取决于簇的直径,即簇中任意两个对象之间的最大距离。
      簇表示替代了原始数据。如果现有数据可以归入一个清晰的簇,则此技术更有效。
    • 采样:用于数据缩减的方法之一是采样,因为它可以将大型数据集缩减为更小的数据样本。下面我们将讨论从包含N个元组的大型数据集D进行采样的不同方法。
      1. 无放回简单随机抽样 (SRSWOR) 样本大小为 s:在此 s 中,从 N 个元组中抽取一些元组,使得数据集 D (s<N)。从数据集 D 中抽取任何元组的概率是 1/N。这意味着所有元组都有相等的被抽中的概率。
      2. 放回简单随机抽样 (SRSWR) 样本大小为 s:它与 SRSWOR 类似,但从数据集 D 中抽取的元组被记录下来,然后放回数据集 D,以便可以再次抽取。
        Data Reduction in Data Mining
      3. 聚类抽样:数据集 D 中的元组被聚类为 M 个互斥的子集。通过在这些簇上实现 SRSWOR 来应用数据缩减。可以从这些簇中生成大小为 s 的简单随机样本,其中 s<M。
      4. 分层抽样:大型数据集 D 被划分为互斥的集合,称为“层”。从每个层中抽取简单随机样本以获得分层数据。此方法对倾斜数据有效。

3. 数据立方体聚合

此技术用于将数据聚合为更简单的形式。数据立方体聚合是多维聚合,它利用数据立方体不同级别的聚合来表示原始数据集,从而实现数据缩减。

例如,假设您拥有 2018 年至 2022 年每季度的“所有电子产品”销售数据。如果您想获得每年的年度销售额,只需将每年的季度销售额相加即可。这样,聚合为您提供了所需的数据,其大小要小得多,从而在不丢失任何数据的情况下实现了数据缩减。

Data Reduction in Data Mining

数据立方体聚合是一种多维聚合,可简化多维分析。数据立方体包含预先计算和汇总的数据,从而可以快速访问数据挖掘。

4. 数据压缩

数据压缩采用修改、编码或转换数据结构的方式,使其占用更少的空间。数据压缩涉及通过去除冗余并以二进制形式表示数据来构建信息的紧凑表示。可以从压缩形式成功恢复的数据称为无损压缩。相反,无法从压缩形式恢复原始形式的相反情况称为有损压缩。降维和数量缩减方法也用于数据压缩。

Data Reduction in Data Mining

此技术通过使用不同的编码机制(如 Huffman 编码和游程编码)来减小文件大小。我们可以根据其压缩技术将其分为两种类型。

  1. 无损压缩:编码技术(游程编码)允许简单且最小的数据大小缩减。无损数据压缩使用算法从压缩数据中恢复精确的原始数据。
  2. 有损压缩:在有损数据压缩中,解压缩的数据可能与原始数据不同,但足以从中检索信息。例如,JPEG 图像格式是有损压缩,但我们可以找到与原始图像含义等效的图像。离散小波变换技术 PCA(主成分分析)等方法是这种压缩的示例。

5. 离散化操作

数据离散化技术用于将连续属性划分为具有间隔的数据。我们用小的间隔标签替换属性的许多常量值。这意味着挖掘结果可以以简洁易懂的方式呈现。

  1. 自顶向下离散化:如果您首先考虑一个或几个点(所谓的断点或分割点)来划分所有属性,然后重复此方法直到结束,那么这个过程就称为自顶向下离散化,也称为分裂。
  2. 自底向上离散化:如果您首先考虑所有常量值作为分割点,其中一些通过组合间隔中的邻域值而被丢弃。这个过程称为自底向上离散化。

数据缩减的好处

数据缩减的主要好处很简单:您可以将更多数据存储在 TB 磁盘空间中,就需要购买的容量就越少。以下是数据缩减的一些好处,例如:

  • 数据缩减可以节省能源。
  • 数据缩减可以降低您的物理存储成本。
  • 并且数据缩减可以减少您的数据中心足迹。

数据缩减极大地提高了存储系统的效率,并直接影响您的总容量支出。


下一主题数据挖掘 MCQ