数据挖掘中的数据泛化

2024年11月20日 | 阅读8分钟

为了对数据模式或洞察进行更全面的分类，从数据库中“缩小”数据的范围被称为“数据泛化”。如果您的数据集包含一系列个人的年龄，那么数据泛化的步骤可能如下所示。

原始数据

年龄 26, 28, 31, 33, 37, 42, 42, 46, 48, 49, 54, 57, 57, 58, 59

泛化后的数据

年龄

20 - 29 (2)

30 - 39 (3)

40 - 49 (5)

50 - 59 (5)

数据泛化是一种动态数据掩码，其中特定数据值被替换为准确性较低的值。尽管它可能看起来无效，但这种策略在安全存储、数据挖掘和分析中具有广泛的应用。

何时需要数据泛化？

数据泛化的主要用例之一是当您必须在保护参与者隐私的同时分析获取的数据时。它是一种在不牺牲数据用途的情况下从数据点中删除个人信息的有效方法。在年龄示例中，根据每个十年推断年龄数据，可以大致了解数据集的人口统计分布，同时保留数据在相对精确的定位或分析中的有用性。

数据泛化可以通过多种方法进行，其有效性和数据完整性保存程度各不相同。当您拥有多个识别数据点，但只有一两个与您的需求相关时，您可以通常对不必要的数据点使用更强大的泛化技术，同时在很大程度上保持相关数据点的完整性。

合规性也是数据泛化中的一个重要考虑因素；有法律规定了关于个人身份信息的保留程度。为防止数据泄露或未经授权的披露，请确保您了解所在行业的监管标准。

主要数据泛化类型

数据类型、您对数据的需求和目标，以及您的组织、行业和政府监管机构制定的隐私和安全法规，都将影响您在每种情况下使用的两种主要数据泛化类型。

声明式泛化和自动化泛化是数据泛化的两个主要类别。让我们分别了解它们的定义和实际应用。

1. 自动化

自动化泛化使用算法来计算保持准确性和充分隐私所需的最低程度的失真或泛化。k-匿名化方法是其中一种最常用的泛化过程。这种固定的泛化值通常被称为 k。

如果 k=2，则数据被称为 2-匿名。这表示每种可能的组合数据至少有两组，表明数据点已得到充分泛化。由于此示例中每个“类别”的数据（年龄范围）至少有两个实例，因此前面提到的年龄图是 2-匿名的。

如果数据集中包含多个人的年龄和地点，则需要对数据集合进行泛化，以便每对年龄和地点至少出现两次。

2. 声明式

声明式泛化涉及为每种可能的情况手动选择数据分箱的大小。我们得出结论，对于我们的年龄组示例，十年是分箱大小。假设这是一个真实世界的数据收集。在这种情况下，我们的理由可能是，在保持数据集有用性的同时，我们发现分箱大小为每个人提供了最佳的保护和隐私。

声明式泛化有许多固有的缺点，其中最主要的是它有时会扭曲或失真数据，因为异常值通常被完全忽略。然而，在传输敏感信息时，声明式泛化可以是一个有用的起点，这样接收者就不会承担比完成预期结果所必需的更多的细节。

3. 数据泛化标识符

标识符是有关个人的信息，可以与有关该个人的其他数据结合起来以确定该个人的身份。直接标识符和准标识符是标识符的两个主要类别。

以下是您需要了解的关于直接标识符和准标识符的信息：直接标识符是允许识别个人并将其他数据链接到该个人的数据点。即使数据中存在多个相同的数据点，一个数据点也可以是直接标识符。

两者之间的区别很重要，因为您如何处理直接标识符和准标识符将决定您的数据是否真正匿名，还是仅仅给人一种匿名的错觉。即使是大型知名企业，在发布他们认为已充分泛化的数据后，也曾登上头条新闻，结果却被第三方重新识别了数据集中的个人。

4. 准标识符

尽管准标识符本身不能用于识别个人，但它们可以与其他数据一起使用。除了存在于其他唯一数据集中或最有可能很快出现在其他数据集中之外，准 ID 可以在数据集合中是唯一的。

假设您的数据集包含个人的邮政编码和性别。显然，仅凭这两个信息，将有太多其他人居住在该邮政编码且与该性别相同，无法识别此人。但是，假设该个人还包含在另一个包含其邮政编码、性别以及两个数据集之间更多个人详细信息的数据集中。在这种情况下，有人可能能够链接数据并识别该个人。

5. 移除识别方法

有两种主要的去识别数据的方法：泛化和随机化。泛化包括从数据中消除足够的直接和间接标识符，以便无法识别相关个人。

6. 泛化

在隐藏了数据的直接标识符后，k-匿名化可以使数据更通用。成功泛化需要一个处理所有隐私和法律问题的精简方法，Immuta 使得数据团队能够跨任何数据库一致地执行 k-匿名化，并轻松准备数据以供使用。

7. 引入

随机化提供的数学保证可防止敏感数据和属性被用于推理攻击。对属性进行随机化处理以限制数据集中个人身份信息的数量，从而在保持数据质量和有用性的同时，无法识别特定个人。

8. 使数据安全和泛化变得容易

使用泛化方法来保护数据不应耗费您的时间和资源。通过使用 Immuta 数据安全平台自动执行数据访问控制和安全流程，您可以实现数据安全和完整性，同时遵守所有法律标准。这将使您能够专注于利用数据来扩展您的业务。

数据泛化是数据分析中的一个重要阶段，它通过识别并非总是显而易见的模式和趋势，帮助我们理解大型复杂的数据集。通过简化数据，我们可以更快地找到关联、对数据点进行分类并推断基本事实。

有几种泛化数据的方法，每种方法都有优点和缺点。三种流行的方法是聚类、采样和降维。

9. 聚类

基于相似性，数据点可以通过聚类技术分组到簇中。可以使用许多技术来实现这一点，包括基于密度的聚类、层次聚类和 k-均值聚类。

在数据中找到可能不明显存在的模式和趋势是聚类的一个关键优势。例如，我们可以使用聚类根据客户的人口统计信息、过去的购买记录或其他属性将客户数据数据集划分为离散组。对这些组进行更集中的营销活动，并查看数据中的趋势和模式，都可以从中受益。

10. 采样

从较大的数据集中选择数据点子集以表示整个数据集的过程称为采样。在处理大型数据集时，这些数据集可能太大而无法完全分析，这可能很有帮助。

可以使用几种采样技术，包括简单随机抽样、分层抽样和整群抽样。所选方法将取决于研究的要求和数据的特性。

采样的主要优势在于，它使我们能够从更易于管理的小型数据集中得出关于更广泛人群的结论。例如，如果我们的数据集中有数百万条客户记录，我们可以使用

数据泛化方法

在数据挖掘中有两种主要的数据泛化方法

1. 数据立方体方法

数据立方体通常有助于理解数据。以维度为业务需求精确指标来呈现数据是有益的。数据库的一个独特特征，如每日、每月或每年的销售额，反映在每个立方体维度中。

数据立方体中的数据使得几乎所有客户、销售代表和商品等的几乎所有数字的分析成为可能。因此，数据立方体有助于进行绩效分析和趋势识别。

简而言之

它有时被称为联机分析处理或 OLAP 技术。
它是一种有用的策略，因为它有助于制定销售预测图。
此策略是使用数据立方体进行计算的结果。
在数据立方体上使用上卷和下钻过程。
在这些过程中，通常会使用聚合操作，例如 count()、sum()、average() 和 max()。
一旦它们变得明显，您就可以利用这些观点来进行决策、查找信息和其他目的。

2. 属性定向归纳

一种数据库挖掘方法，称为属性定向归纳，将初始数据收集浓缩为泛化关系，从而产生关于大型数据集的清晰而全面的信息。

此外，数据库中最初以基本（原始）级别表达的相同数据集可以通过数据挖掘中的属性泛化转换为更抽象的概念表示。

简而言之

属性泛化在数据挖掘中是一种面向查询的、基于泛化的在线数据分析方法。
这种方法允许基于相关数据集中每个特征的不同值来创建泛化。为了进行聚合，会将相同的元组合并，并将相关的计数相加。
在提交 OLAP 或数据挖掘查询进行处理之前，它会执行离线聚合。
它不限于度量或属于一个类别的数据。
属性定向归纳使用两种方法
属性移除
属性泛化

数据泛化示例

市场篮子分析是数据挖掘中最著名的应用之一。一种分析超市中顾客购买行为的方法是使用市场篮子分析。

其目的是确定顾客同时购买的商品。购买面包的人有多大几率也会购买黄油？公司通过这项研究来推广折扣和优惠。数据挖掘也是如此。

此外，市场篮子分析经常用于财务报告、预算和预测、业务流程管理 (BPM)、管理报告、销售和营销以及其他相关领域。但是，其他行业，包括农业，也正在创新地使用这项研究。

结论

随着公司越来越意识到数据价值，它们总是在寻找新颖且有创造力的方法来利用这些数据来为自己谋利。因此，随着企业致力于更有效地利用数据科学，数据科学家在全球企业中变得比以往任何时候都更加重要。

但这也意味着必须尊重个人隐私并遵守合规性，这需要数据泛化和其他数据匿名化技术。

下一个主题数据挖掘的重要性