数据挖掘中涉及的功能类别2024年11月20日 | 阅读8分钟 引言我们可以使用数据挖掘功能,它定义了数据挖掘活动中的趋势或相关性。数据挖掘活动可分为两类。 1. 描述性数据挖掘此类数据挖掘用于查找数据中的模式和关系,可以提供对数据底层结构的洞察。此类别还用于探索和汇总数据,并且此技术还用于回答以下问题:数据中最常见的模式或关系是什么?是否存在共享共同特征的数据点簇或组?数据中的异常值是什么,它们代表什么? 描述性数据挖掘技术中有一些技术。这些技术如下。
我们还可以使用此技术来识别共同发生的事件或识别交易数据中存在的模式。
2. 预测性数据挖掘此类数据挖掘用于开发基于历史数据预测行为或结果的模型。它也用于分类或回归任务,并可以回答以下问题:客户流失的可能性有多大?新产品发布的预期收入是多少?贷款违约的概率是多少? 预测性数据挖掘技术中有一些技术。这些技术如下。
描述性和预测性数据挖掘技术对于获得洞察力并做出更好的决策至关重要。我们可以使用描述性数据挖掘来探索数据并识别模式,而我们可以使用预测性数据挖掘来基于这些模式进行预测。我们可以结合使用这些技术来帮助组织理解他们的数据并在此基础上做出明智的决策。 数据挖掘功能1. 类/概念描述在此,我们可以将定义或类与数据挖掘的结果相关联。通过简化、描述性且准确的方式,我们可以定义数据挖掘中的各个组和概念。我们还可以将类或概念定义称为类/概念描述。
示例:假设我们要研究去年销售额增长 10% 的所有软件产品的特性。在这种情况下,我们可以总结在 AllElectronics 每年花费超过 5,000 美元的所有客户的所有特征。它给出了那些 40-50 岁、是雇员且信用评级极佳的客户的一般画像。
示例:假设我们比较了两个客户群体,他们定期购买计算机产品,以及那些很少购买此类产品(每年少于 3 次)的客户。在这种情况下,我们会得到一个结果,提供了客户画像的通用描述,例如 80% 的经常购买计算机产品的客户年龄在 20 到 40 岁之间,拥有大学学位,而 60% 的不经常购买此类产品的客户是老年人或年轻人,并且没有大学学位。 2. 挖掘频繁模式、关联和相关性在数据挖掘中,频繁模式就是数据中最常见的所有事物。在数据集中,观察到不同种类的频率。
关联分析在数据挖掘中,所有涉及揭示数据之间关系并确定关联规则的过程都称为关联分析。借助此分析,我们还可以发现各种数据项之间的关系。 示例如果我们想知道最近哪些商品被频繁购买,我们必须在事务数据库中执行规则,该公式如下。 购买(X,“计算机”)⇒购买(X,“软件”)[支持度=1%,置信度=50%], 其中 X 是表示客户的变量。50%的置信度意味着如果客户想购买笔记本电脑,他也有 50%的可能性也会购买软件。1%的机会意味着在分析的所有事务中,计算机和软件被一起购买。此关联规则涉及单个属性或谓词(即购买)的重复。如果关联规则包含单个谓词,则称为单维关联规则。 年龄(X,“20…29”)∧收入(X,“40K..49K”)⇒购买(X,“笔记本电脑”) [支持度=2%,置信度=60%]。 关联规则表示,只有 2%的 20 到 29 岁、收入为 40,000 至 49,000 美元的人购买了笔记本电脑。此外,在这个特定的年龄和收入范围内,客户有 60%的机会会购买笔记本电脑。如果关联包含多个属性,则称为多维关联规则。 如果我们不满足最小支持度和置信度阈值,则有可能丢弃关联规则。可以进行其他分析来揭示关联的属性值对之间有趣的统计相关性。 相关性分析它是一种数学类型,用于显示属性的关联程度和强弱。例如,高个的人往往体重也更大。 数据挖掘任务原语借助数据挖掘任务,我们可以构建用于构建数据挖掘过程的基本模块。借助这些数据挖掘原语,我们可以表示将在数据挖掘过程中执行的最常见和最基本的任务。我们可以在数据挖掘中使用任务原语,作为一种可重用且模块化的方法,从而提高数据挖掘过程的性能、效率和可理解性。 ![]() 数据挖掘中有许多预防性任务;它们如下。 1. 要挖掘的任务相关数据集合我们可以在数据挖掘中使用特定数据,这些数据与通过数据挖掘技术进行的特定任务相关且必要。我们可以在此区域包含与客户人口统计、销售数据或网站使用统计数据相关的属性、变量或特征。为数据挖掘过程选择的数据是可用总体数据的一个子集,其他所有数据可能对于该任务不是必需的或相关的。 例如,我们可以从提供的输入数据库中从数据集中提取数据库名称、数据库表和相关的所需属性。 2. 要挖掘的知识类型在数据挖掘过程中,我们可以将其称为通过数据挖掘技术寻求的信息类型。此技术描述了所有将优先执行的任务。此任务包括分类、聚类、区分、特征描述、关联和演化分析等所有事项。 例如,此过程确定将在相关数据上执行的任务,以挖掘有用的信息,如分类、聚类、预测、区分、异常值检测和相关性分析。 3. 在发现过程中使用的背景知识在数据挖掘过程中,它指的是将指导数据挖掘过程的所有信息。这些信息包括特定领域知识,如行业特定术语、趋势、最佳实践以及关于数据本身的知识。借助背景知识,我们可以提高从数据挖掘过程中获得的见解的准确性和相关性。 例如,我们可以在概念层次结构和数据关系中使用背景知识来更有效地评估和执行。 4. 模式评估的有趣性度量和阈值我们可以使用此方法来评估通过数据挖掘过程发现的模式的质量和相关性。我们可以使用有趣性度量来量化一个模式根据特定标准(如频率、置信度或提升度)被认为是有趣的或相关的程度。我们还可以使用此度量来识别有意义的数据挖掘内容。另一方面,我们可以使用此模式来确定模式必须达到的最低有趣性级别才能被考虑用于进一步分析或行动。 示例:我们可以使用效用、确定性和新颖性等有趣性度量来评估数据的有趣性和有趣性,并为模式评估设置适当的阈值。 5. 发现的模式的可视化表示我们可以使用此方法来展示数据挖掘中发现的模式,使其易于理解和解释。我们可以使用图表、图形和地图等可视化技术来表示数据,并可以帮助突出数据中的重要趋势、模式或关系。可视化发现的模式有助于使从数据挖掘过程中获得的见解对更广泛的受众(包括非技术利益相关者)更易于访问和理解。 示例:我们可以使用各种可视化技术,如条形图、图表、图形、表格等,来表示发现的模式数据的演示和可视化。 下一个主题数据挖掘模式的有趣性 |
我们请求您订阅我们的新闻通讯以获取最新更新。