数据挖掘中的数据选择2025年03月17日 | 阅读 9 分钟 数据选择被定义为确定合适数据类型和来源以及用于收集数据的合适工具的过程。数据选择发生在实际数据收集实践之前。这个定义将数据选择与选择性数据报告(排除不支持研究假设的数据)和交互式/主动数据选择(使用收集到的数据进行监控活动/事件或进行二次数据分析)区分开来。选择合适的研究项目数据可以影响数据的完整性。 数据选择的主要目标是确定合适的数据类型、来源和工具,以便研究人员能够充分回答研究问题。这种确定通常是学科特定的,并且主要由调查的性质、现有文献以及对必要数据来源的可访问性驱动。 当选择“合适”数据的决策主要基于成本和便利性而非数据充分回答研究问题的能力时,就会出现完整性问题。当然,成本和便利性是决策过程中有效的因素。然而,研究人员应该评估这些因素在多大程度上可能损害研究工作的完整性。 数据选择中的问题研究人员在选择数据时需要注意一些问题,例如:
数据类型和来源数据类型和来源可以用多种方式表示。两种主要的数据类型是:
尽管科学学科在偏好一种类型而非另一种类型上有所不同,但一些研究人员会利用定量和定性信息,以期对目标现象有更丰富的理解。 研究人员从人类那里收集信息,这些信息可以是定性的(例如,观察育儿习俗)或定量的(记录生化标记物、人体测量值)。数据来源可以包括现场笔记、日记、实验室笔记/标本,或对人类、动物、植物的直接观察。数据类型和来源之间的相互作用并不少见。 确定合适的数据是学科特定的,并且主要由调查的性质、现有文献以及数据来源的可访问性驱动。在选择数据类型和来源时需要考虑的问题如下:
数据挖掘中的特征选择是什么?特征选择一直是模式识别、统计和数据挖掘社区中的一个活跃研究领域。特征选择的主要思想是通过消除预测信息很少或没有预测信息的特征来选择输入变量的一个子集。特征选择可以显著提高最终分类器模型的可理解性,并通常构建一个对未见过的数据点泛化更好的模型。此外,找到正确的预测特征子集本身就是一个重要问题。 例如,医生可以根据选定的特征决定是否需要进行危险的手术进行治疗。监督学习中的特征选择已被广泛研究,其主要目标是找到一个能产生更高分类精度的特征子集。 最近,一些研究人员已经用单一或统一的标准研究了特征选择和聚类。对于无监督学习中的特征选择,学习算法旨在在特征空间中找到示例的自然分组。因此,无监督学习中的特征选择旨在找到一个好的特征子集,为给定数量的簇形成高质量的簇。 然而,具有单一评估标准的传统特征选择方法在知识发现和决策支持方面表现出有限的能力。这是因为决策者应该同时考虑多个相互冲突的目标。特别是,没有一个无监督特征选择标准对所有应用都最好,只有决策者才能确定其应用的标准之间的相对权重。 为什么进行特征选择?特征选择对于构建一个好的模型至关重要,原因有几个。一个原因是特征选择意味着一定程度的基数约简,以限制构建模型时可以考虑的属性数量。数据几乎总是包含比构建模型所需信息更多的信息,或者包含错误类型的信息。例如,你可能有一个包含 500 列描述客户特征的数据集;然而,如果其中一些列的数据非常稀疏,你从将它们添加到模型中只会获得很少的好处,如果一些列相互重复,使用这两列可能会影响模型。 特征选择不仅提高了模型的质量,而且使建模过程更加高效。在构建模型时使用不必要的列需要更多的 CPU 和内存进行训练过程,并且需要更多的存储空间来保存已完成的模型。即使资源不是问题,你仍然希望进行特征选择并识别最佳列,因为不必要的列可以通过多种方式降低模型的质量:
在特征选择过程中,分析师或建模工具或算法会根据属性的分析有用性主动选择或丢弃属性。分析师可能会执行特征工程来添加特征并移除或修改现有数据,而机器学习算法通常会为列评分并在模型中验证它们的有用性。 简而言之,特征选择有助于解决两个问题:拥有过多低价值的数据,或拥有过少高价值的数据。你在特征选择中的目标应该是从数据源中识别出构建模型所必需的最少数量的列。 SQL Server 中特征选择的工作原理特征选择总是在模型训练之前执行。对于某些算法,特征选择技术是“内置”的,以排除不相关的列,并自动发现最佳特征。每种算法都有自己的一套默认技术来智能地应用特征约简。但是,你也可以手动设置参数来影响特征选择行为。 在自动特征选择过程中,为每个属性计算一个分数,并且只选择得分最高的属性用于模型。SQL Server 数据挖掘提供了多种计算这些分数的方法。在任何模型中应用的具体方法取决于以下因素:你还可以调整最高分数的阈值。
特征选择应用于输入、可预测属性或列中的状态。当特征选择评分完成后,只有算法选择的属性和状态才包含在模型构建过程中,并可用于预测。如果你选择了一个不满足特征选择阈值的可预测属性,该属性仍然可用于预测。但是,预测将仅基于模型中的全局统计信息。 注意:特征选择仅影响模型中使用的列,而不影响挖掘结构的存储。你从挖掘模型中排除的列仍然可以在结构中找到,并且挖掘结构列中的数据将被缓存。特征选择分数SQL Server 数据挖掘支持这些流行且成熟的属性评分方法。在任何特定算法或数据集中使用的具体方法取决于数据类型和列的使用情况。 ![]() 1. 有趣性分数 有趣性分数用于对包含非二进制连续数值数据的列中的属性进行排名和排序。然而,有趣性可以通过多种方式衡量。新颖性可能对异常值检测很有价值,但区分密切相关的项的能力或权重可能对分类更有趣。 SQL Server 数据挖掘中使用的有趣性度量是基于熵的,这意味着具有随机分布的属性具有更高的熵和更低的信息增益。因此,这些属性不太有趣。任何特定属性的熵都与其他所有属性的熵进行比较,如下所示: 中心熵,或 m,表示整个特征集的熵。通过从目标属性的熵中减去中心熵,你可以评估该属性提供了多少信息。 2. 香农熵 香农熵衡量随机变量对于特定结果的不确定性。例如,抛硬币的熵可以表示为其出现正面的概率的函数。Analysis Services 使用以下公式计算香农熵: 此评分方法适用于离散和离散化属性。 3. 带有 K2 先验的贝叶斯 SQL Server 数据挖掘提供两个基于贝叶斯网络的特征选择分数。贝叶斯网络是状态和状态之间转换的有向或无环图,这意味着某些状态总是在当前状态之前,某些状态是后续状态,并且图不重复或循环。根据定义,贝叶斯网络允许使用先验知识。然而,在计算后续状态的概率时使用哪些先验状态的问题对于算法设计、性能和准确性很重要。 用于从贝叶斯网络学习的 K2 算法由 Cooper 和 Herskovits 开发,并经常用于数据挖掘。它具有可扩展性,可以分析多个变量,但需要对用作输入的变量进行排序。此评分方法适用于离散和离散化属性。 4. 带有均匀先验的贝叶斯狄利克雷等价分数 贝叶斯狄利克雷等价分数 (BDE) 也使用贝叶斯分析来根据数据集评估网络。狄利克雷分布是多项分布,它描述了网络中每个变量的条件概率,并且具有许多对学习有用的属性。 BDE 评分方法由 Heckerman 开发,并基于 Cooper 和 Herskovits 开发的 BD 指标。 使用一个数学常数来创建固定的或均匀的先验状态分布。带有均匀先验的贝叶斯狄利克雷等价分数 (BDEU) 方法假设狄利克雷分布的一个特例。BDE 分数还假设似然等价性,这意味着数据不能期望区分等价结构。换句话说,如果“如果 A 则 B”的分数与“如果 B 则 A”的分数相同,则无法基于数据区分结构,也无法推断因果关系。 特征选择参数你可以使用支持特征选择的算法中的以下参数来控制何时开启特征选择。每种算法都有一个默认的允许输入数量,但你可以覆盖此默认值并指定属性数量。本节列出了用于管理特征选择的参数。
下一主题数据挖掘的任务和功能 |
我们请求您订阅我们的新闻通讯以获取最新更新。