数据挖掘中的数据集成

17 Mar 2025 | 6 分钟阅读

数据集成是从多个不同的数据源合并数据的过程。在执行数据集成时,您必须处理数据冗余、不一致、重复等问题。在数据挖掘中,数据集成是一种记录预处理方法,它包括将来自几个异构数据源的数据合并为一致的数据,以保留并提供数据的统一视图。这些资产还可以包括多个记录立方体、数据库或平面文件。统计集成策略正式表示为(G, S, M)三元组方法。G 代表全局模式,S 代表异构源模式,M 代表源和全局模式查询之间的映射

在本文中,您将了解数据挖掘中的数据集成,并讨论其方法、问题、技术和工具。

什么是数据集成?

由于数据可以从多个来源获取,因此它一直是数据操作的重要组成部分。它是一种集成来自多个来源数据的策略,以便以单一统一的视图向用户提供其状态。系统之间存在通信源,这些源可能包括多个数据库、数据立方体或平面文件。数据融合将来自各种不同来源的数据合并,以产生有意义的结果。整合后的发现必须排除不一致、矛盾、冗余和不公平之处。

数据集成之所以重要,是因为它在分散数据的情况下提供了统一的视图,同时还保持了数据的准确性。它有助于数据挖掘程序有意义地挖掘信息,进而帮助管理人员做出有利于企业发展的战略决策。

数据集成方法正式表示为三元组(G, S, M),其中;

G 代表全局模式,

S 代表异构源模式,

M 代表全局模式查询之间的映射

为什么数据集成很重要?

希望保持竞争力并保持相关性的公司欢迎大数据及其所有优点和缺点。数据集成服务和技术最常见的应用之一是市场和消费者数据的收集。数据集成支持对这些海量数据集的查询,并受益于企业智能和消费者数据分析,以促进实时信息传递。企业数据集成将集成的数据馈送到数据中心,以实现企业报告、预测分析和商业智能。

数据集成在医疗保健行业尤其重要。来自不同患者记录和诊所的集成数据通过将多个系统的数据集成到有益信息的单一视图中,帮助临床医生识别疾病和病症,从中可以得出有用的见解。有效的数据收集和集成还可以提高医疗保险索赔处理的准确性,并确保患者姓名和联系信息的记录一致且准确。互操作性是指跨不同系统共享信息。

数据集成方法

数据集成主要有两种方法。它们如下

紧耦合

这是使用ETL提取、转换和加载)将来自不同来源的数据组合到单个物理位置的过程。

松散耦合

松散耦合的事实最有效地保存在实际的源数据库中。此方法提供了一个接口,从用户那里获取查询,将其转换为源数据库可以理解的格式,然后将查询立即发送到源数据库以获取结果。

数据集成中的问题

在数据挖掘中集成数据时,您可能会遇到许多问题。其中一些问题如下

实体识别问题

如您所知,记录是从异构来源获得的,您如何“从数据中匹配现实世界的实体”?例如,您从专门的统计网站获取了客户数据。客户身份被分配给一个统计来源中的实体,而客户范围被分配给另一个统计来源中的实体。分析此类元数据统计信息将防止您在模式集成过程中出错。

结构集成通过确保源机器中字符的功能依赖性和引用约束与目标机器中相同字符的功能依赖性和引用约束匹配来完成。例如,假设在一个机器中,折扣应用于整个订单,但在另一个机器中,折扣应用于订单中的每个项目。在将这些资产中的信息包含到目标系统之前,应注意这种区别。

冗余和相关性分析

数据集成过程中的主要问题之一是冗余。不再需要的不重要数据称为冗余数据。它也可能由于在信息集内部使用另一个属性创建的属性而出现。例如,如果一个真实集包含客户的购买和不同的数据集,那么年龄可能是冗余属性,因为它可以通过出生日期推断出来。

不一致会进一步增加特性内的冗余级别。可以使用相关性分析来确定冗余。检查特性以确定它们之间的相互依赖性,从而发现它们之间的链接。

元组重复

信息集成除了冗余之外,还处理重复的元组。如果使用了非规范化表作为数据集成的可交付成果,则生成的元组也可能出现重复。

数据战检测和支撑

从多个来源合并记录的数据战技术是不健康的。同样,特性值可以变化,统计单元也可以变化。这种差异可能与它们在特殊数据单元中的表示方式不同有关。例如,在独特城镇中,客房价格可能以特定货币表示。这种类型的问题在数据集成过程中会被识别和修复。

数据集成技术

数据挖掘中有各种数据集成技术。其中一些如下

手动集成

此方法避免在数据集成中使用自动化。数据分析师收集、清理和集成数据以生成有意义的信息。此策略适用于数据量有限的小型组织。但是,对于大型、复杂和重复的数据集成,它将非常耗时。由于整个过程必须手动完成,因此这是一个耗时的操作。

中间件集成

中间件软件用于从多个来源获取数据,对其进行规范化,并将其存储在结果数据集。当企业需要将数据从遗留系统集成到现代系统时,就会使用此技术。中间件软件充当遗留系统和高级系统之间的翻译器。您可以采用一个适配器,该适配器允许连接两个具有不同接口的系统。它仅适用于某些系统。

基于应用程序的集成

它是使用软件应用程序从不同来源提取、转换和加载数据。此策略可以节省时间和精力,但它稍微复杂一些,因为构建此类应用程序需要技术知识。此策略可以节省时间和精力,但它稍微复杂一些,因为构建此类应用程序需要技术知识。

统一访问集成

此方法从更多不同的来源整合数据。但是,在此场景中不更改数据的位置;数据保留在其原始位置。此技术仅生成集成数据的统一视图。由于最终用户只看到集成视图,因此不需要单独存储集成数据。

数据仓库

此技术以一种迂回的方式与统一访问集成技术相关。然而,统一视图存储在不同的位置。它允许数据分析师处理更复杂的查询。虽然这是一个有前途的解决方案,并且存储成本增加,但统一数据的视图或副本需要单独的存储和维护成本。

集成工具

数据挖掘中有各种集成工具。其中一些如下

本地数据集成工具

本地数据集成工具从本地源集成数据,并使用中间件软件连接遗留数据库。

开源数据集成工具

如果您想避免昂贵的企业解决方案,开源数据集成工具是理想的选择。但是,如果您使用该工具,您将负责数据的安全性和隐私。

基于云的数据集成工具

基于云的数据集成工具可以提供“集成平台即服务”。

结论

数据集成是从多个来源合并数据的过程。数据集成必须处理重复数据、不一致数据、重复数据、旧系统等问题。可以通过使用中间件和应用程序来实现手动数据集成。您甚至可以使用统一访问或数据仓库。市面上有许多工具可用于执行数据集成。