数据挖掘中数据的来源类型(DBMS)

2025年3月17日 | 阅读13分钟

来自多个来源的数据被组合成一个称为“数据仓库”的单一来源。让我们谈谈可以进行挖掘的数据种类。

平面文件

  • 具有可被数据挖掘方法快速检索的结构的数据文件被称为平面文件。这些可以是文本文件或二进制文件。相反,如果关系数据库放置在平面文件上,则表之间将不存在任何关系。存储在平面文件中的数据彼此之间没有关系或路径。数据字典充当 CSV 文件等平面文件的表示。
  • 以纯文本形式保存的结构化数据称为平面文件。它们被称为“平面”数据库,因为与关系数据库表不同,它们缺乏层次结构。每行代表一个单独的记录,每列指示该记录中的字段或属性,平面文件通常具有行和列数据。这些可以保存为各种格式,包括 CSV、TSV 和固定宽度格式。
  • 平面文件经常被用作在各种程序或系统之间传输数据的快速有效的方法。它们还用于存储中小型数据集。像文本编辑器这样的简单工具可以用于处理平面文件,因为它们易于生成、读取和修改基本的编程语言和电子表格应用程序。
  • 平面文件的一些缺点包括缺乏数据完整性检查以及无法管理数据之间复杂的连接。平面文件会占用大量磁盘空间和大量 RAM 来操作,这使得它们在管理大型数据集时效率较低。
  • 应用:用于在服务器之间传输数据,在数据仓库中存储数据等。

总而言之,平面文件是传输和存储中小型数据集的简单有效方法,但不适用于处理大量数据或复杂数据连接。

数据挖掘

数据挖掘是从海量数据集中提取信息,以发现模式、趋势和相关数据,从而使组织能够做出数据驱动的决策。

换句话说,数据挖掘是从不同角度检查信息的隐藏模式,以便将其分类为有用的数据。这些数据被收集并汇集到特定区域,如数据仓库、高效分析和数据挖掘算法中,这些区域有助于决策和其他数据需求,最终降低成本并创造收入。

数据挖掘是自动搜索大量信息存储库以发现超越简单研究技术的模式和趋势的过程。数据挖掘使用复杂的数学算法对数据段评估事件的可能性。数据挖掘的另一个名称是数据知识发现 (KDD)。组织采用数据挖掘方法从大型数据库中提取特定数据以解决业务问题。它主要将原始数据转换为有洞察力的知识。

数据挖掘与数据科学类似,它由一个人在特定环境中,使用特定数据集并具有特定目标来执行。许多服务,包括文本挖掘、网络挖掘、音频和视频挖掘、图像数据挖掘和社交媒体挖掘,都属于此过程。它使用简单或专业的软件来执行。数据挖掘可以外包以快速、廉价地完成工作。专业公司还可以使用新技术来收集难以手动查找的数据。许多不同平台上都有大量信息,但其中大部分都无法访问。

最大的障碍是分析数据以提取可用于解决问题或业务发展的关键信息。有各种强大的工具和方法可用于挖掘数据并从中获得更多洞察力。

Types of Sources of Data in Data Mining in DBMS

关系数据库

  • 以行和列形式排列在表中的数据集合称为关系数据库。
  • 在关系数据库中,物理模式是指定表布局的模式。
  • 在关系数据库中,逻辑模式是指定表之间连接的模式。
  • SQL 是关系数据库的标准 API。
  • 结构化数据的一个示例是关系数据库,它将数据划分为一个或多个表,每个表都有行和列。行表示单个记录,而列表示这些记录中的字段或特征。
  • 主键是关系数据库中所有表用于建立它们之间关系的共享字段。这使得跨多个表链接和查询数据成为可能,从而使数据检索和操作更有效。
  • 包括银行、医疗保健、零售和电子商务在内的多家不同企业都严重依赖关系数据库。此外,它们还有助于商业智能、数据仓库和事务系统。
  • 数据库管理系统 (DBMS),例如 MySQL、Oracle、SQL Server 或 PostgreSQL,通常用于管理关系数据库。DBMS 提供了用于控制访问和安全以及构建、修改和查询数据库的工具。

数据仓库

从多个组织来源收集数据以提供有用业务洞察的技术称为数据仓库。大量数据从多个来源收集,包括市场营销和财务。检索到的数据用于分析目的,并有助于业务组织决策。数据仓库的主要目的是数据分析,而不是事务处理。

数据存储库

数据存储位置通常被称为数据存储库。然而,许多 IT 专业人员更具体地使用该短语来指代 IT 组织内的特定安排。例如,一家公司存储了多种类型信息的数据库集合。

对象关系数据库

对象关系模型结合了关系数据库模型和面向对象数据库模型。它支持对象、继承、类等。

弥合关系数据库与各种编程语言(如 C++、Java、C# 等)中常用的方法之间的鸿沟是对象关系数据模型的主要目标之一。

事务数据库

如果数据库事务未正确执行,则能够回滚数据库事务的数据库管理系统 (DBMS) 称为事务数据库。尽管这曾经是一个独特的功能,但目前大多数关系数据库系统都支持事务数据库操作。

数据挖掘的优势

  • 组织可以通过使用数据挖掘方法收集基于知识的数据。
  • 数据挖掘使企业能够实现操作和制造的盈利调整。
  • 数据挖掘比其他统计数据使用更经济。
  • 组织决策过程受益于数据挖掘。
  • 它使预测趋势和行为以及自动发现隐藏模式变得更容易。
  • 新系统和现有平台都容易受到其影响。
  • 它是一个快速过程,使新手用户可以轻松快速地评估大量数据。

数据挖掘的缺点

  • 企业有可能将其宝贵的消费者数据出售给竞争对手以换取现金。调查声称美国运通将其消费者进行的信用卡购买出售给其他企业。
  • 一些数据挖掘分析程序难以使用,需要高级培训。
  • 由于不同的数据挖掘工具在构建时使用了不同的算法,因此这些工具以不同的方式工作。因此,选择合适的数据挖掘工具是一个非常困难的过程。
  • 由于数据挖掘技术不准确,它们在某些情况下可能会产生非常负面的影响。
  • 数据挖掘过程最大的缺点之一是其复杂性。数据分析通常需要技术诀窍和某些软件工具。这对于一些小型企业来说可能是一个太大的障碍。
  • 数据挖掘的结果并非总是能得到保证。企业可能会进行统计分析,从可靠数据中得出结论,进行调整,但仍然看不到任何优势。由于错误的发现、市场变化、模型缺陷或使用错误的数据群体,数据挖掘只能作为决策工具,不能保证结果。

数据挖掘程序

零售、通信、金融和营销公司是数据挖掘的主要用户,用于确定价格、消费者偏好、产品布局以及对销售、客户满意度和业务盈利能力的影响。通过使用客户购买的销售点记录,数据挖掘帮助零售商创建有助于吸引客户到店的产品和促销活动。

Types of Sources of Data in Data Mining in DBMS

数据挖掘广泛应用于以下领域

医疗保健数据挖掘

数据挖掘在医疗保健领域改善医疗保健系统的潜力非常高。它利用数据和分析来获得更深入的理解,发现最佳实践,并在降低成本的同时改善医疗保健服务。分析师使用数据挖掘技术,包括机器学习、多维数据库、数据可视化、软计算和统计学。

使用数据挖掘分析市场购物篮

市场购物篮分析是一种基于假设的建模技术。如果您购买一组商品,您更有可能购买另一组商品。商店可以使用此策略来了解客户的购买习惯。商家可以使用此信息更好地了解客户需求并根据需要调整商店布局。可以使用不同的分析技术比较来自多家企业和不同人口群体的客户数据。

教育与数据挖掘

在一个新开发的学科“教育数据挖掘”中,正在开发从教育环境生成的数据中发现信息的策略。公认的 EDM 目标包括促进学习科学、研究教育援助的影响以及确认学生未来的学习行为。公司可以利用数据挖掘做出准确的判断并预测学生的表现。一旦获得结果,机构就可以专注于教授什么以及如何教授。

制造工程与数据挖掘

制造组织拥有的最佳资源是知识。数据挖掘技术可以帮助发现复杂制造过程中的趋势。为了确定产品架构、产品组合和客户数据需求之间的联系,数据挖掘可用于系统级设计。除其他外,它还可用于预测产品开发的时间、成本和预期。

CRM(客户关系管理)数据挖掘

客户关系管理 (CRM) 侧重于吸引和留住客户,同时培养客户忠诚度并提出以客户为中心的策略。数据收集和分析对于企业组织与客户建立良好的关系至关重要。收集到的数据可用于数据挖掘方法的分析。

使用数据挖掘识别欺诈

欺诈造成数十亿美元的损失。传统的欺诈检测技术非常复杂且耗时。数据挖掘提供了有洞察力的模式并将数据转化为知识。所有用户的数据都应受到欺诈检测系统的保护。监督算法中使用的记录是被分类为虚假或非欺诈的样本。此信息用于构建模型,并开发一种方法来确定文档是否为虚假。

关系数据库提供诸多优势

  • 约束和触发器是关系数据库中用于维护数据完整性的两种内置技术。
  • 关系数据库确保系统中的数据一致性。
  • 数据安全:为了保护数据,关系数据库提供了各种访问控制和安全功能。
  • 高效数据检索:关系数据库提供强大的查询语言 (SQL) 来高效检索数据。
  • 关系数据库提供高度可伸缩性,使其易于扩展以满足高性能需求和海量数据集。

数据挖掘如何工作?

数据挖掘是检查和分析大量数据以发现重要模式和趋势的过程。它有许多应用,包括数据库营销、信用风险管理、欺诈检测、垃圾邮件筛选,甚至是用户情感分析。

数据挖掘过程分为五个步骤。首先,组织收集数据并将其加载到数据仓库中。然后,数据被存储和管理,无论是存储在内部服务器上还是云端。业务分析师、管理团队和信息技术专家访问数据,然后决定如何组织数据。接下来,应用程序软件根据用户的发现对数据进行排序,最终,最终用户以可访问的格式交付数据。

关系数据库存在一些缺点,例如

  • 复杂性:设置和维护关系数据库,特别是对于大型复杂数据集,可能具有挑战性。
  • 由于延迟,关系数据库可能不适用于实时、高吞吐量数据处理。
  • 应用:ROLAP 模型、数据挖掘等。

数据仓库

  • 从不同来源整合用于查询和决策的数据集合称为数据仓库。
  • 企业数据仓库、数据集市和虚拟仓库是数据仓库的三种不同形式。
  • 更新驱动方法和查询驱动方法都可以用于更新数据仓库中的数据。
  • 应用包括数据挖掘和业务决策。

事务数据库

  • 为了在数据库中表示事务,事务数据库是按时间戳、日期等分组的数据集合。
  • 当事务未完成或未提交时,此类数据库有权回滚或撤消其操作。
  • 极其灵活的技术,允许用户更改数据而不会影响任何敏感数据。
  • 遵守 DBMS 的 ACID 特性。
  • 应用包括对象数据库、分布式系统和银行。

多媒体数据库

  • 音频、视频、图片和文本内容都包含在多媒体数据库中。
  • 它们可能存储在面向对象的数据库中。
  • 它们用于以预定形式存储复杂数据。
  • 应用:在线音乐数据库、视频点播、新闻点播等。

空间数据库

  • 组织地理数据。
  • 以坐标、拓扑、线、多边形和其他形状的形式存储信息。
  • 应用包括地图和全球定位。

时间序列数据库

  • 时间序列数据库包括用户记录的活动和股票市场数据。
  • 管理带有时间、日期等索引的整数数组。
  • 需要实时分析。
  • 应用:Graphite、InfluxDB、eXtremeDB 等。

WWW

  • 万维网(WWW)是文档和资源的集合,包括音频、视频和文本,可以通过互联网网络访问,通过网络浏览器使用统一资源定位符(URL)识别,并通过 HTML 页面连接。
  • 由于它从多个来源收集信息,因此它是最多样化的仓库。
  • 由于数据量不断变化和增长,它本质上是动态的。
  • 应用:互联网求职、购物、研究等活动。

结构化数据:已结构化的数据通常以数据库表或电子表格的形式出现。交易、客户和库存数据是一些示例。

半结构化数据:与结构化数据相比,此类数据的结构较少,但仍包含一些结构。电子邮件通信以及 XML 和 JSON 文件是两个示例。

非结构化数据:可以是文本、图像、音频和视频形式,没有固定格式。客户评论、新闻报道和社交媒体帖子是一些示例。

外部数据:此类信息从外部来源收集,如政府组织、商业出版物、天气报告、卫星图像、GPS 数据等。

时间序列数据:随着时间推移按序列收集的数据,例如股票价格、天气信息和网站访问日志。

流数据:持续生成的数据,例如传感器数据、社交媒体提要和日志文件,称为流数据。

关系数据:此类数据存储在关系数据库中,可以使用 SQL 查询检索。

NoSQL 数据:此类信息存储在 NoSQL 数据库中,可以通过多种方式访问,包括键值对、文档、列和图。

云数据:在云计算环境中处理和存储的数据,例如 Amazon、Azure 和 GCP,称为云数据。

大数据:此类数据可以使用 Hadoop 和 Spark 等大数据技术进行存储和分析。它以其巨大的容量、高速和高度多样性而著称。

数据挖掘的实施问题

尽管数据挖掘具有巨大的能力,但在使用时仍面临一些困难。性能、数据、方法、技术等都可能带来问题。当困难或问题被准确识别并适当解决时,数据挖掘过程将变得有效。

噪声和不完整数据

数据挖掘是从大量数据中提取可用信息的过程。现实世界的数据是多样、不充分且有噪声的。大量数据通常是错误或不可靠的。这些问题可能由不准确的数据测量设备或人为错误引起。考虑一家商店连锁店,其会计人员将消费超过 500 美元的顾客的电话号码输入系统。通过输入电话号码,个人可能会拼错一个数字,导致信息不准确。甚至有些客户可能不愿提供他们的电话号码,导致数据不准确。人为和系统错误都有可能修改数据。数据挖掘因所有这些影响(噪声和不充分数据)而变得困难。

数据分布

现实世界中的数据通常存储在分布式计算系统中的各种平台上。它可能在互联网上、数据库中,甚至在不同的平台上。现实地说,将所有数据整合到一个存储库中是一个困难的过程,这主要是由于组织和技术问题。例如,几个区域办事处可能都有自己的服务器来存储数据。将每个办事处的所有数据存储在一个服务器上是不切实际的。因此,数据挖掘需要创建能够挖掘分散数据的工具和算法。

复杂数据

现实世界的数据是多样化的,可能包括时间序列、复杂数据、地理数据、音频和视频、照片以及多媒体数据。为了获得精确信息,通常需要改进新技术、工具和流程。

性能

所采用算法和方法的有效性严重影响数据挖掘系统的性能。如果设计的算法和方法未能达到预期,数据挖掘过程的有效性将受到影响。

数据安全和隐私

在大多数情况下,数据挖掘会给数据治理、隐私和安全带来重大问题。例如,如果商家未经客户同意审查客户购买物品的详细信息,它就会泄露有关其购买偏好和模式的信息。

数据可视化

数据可视化是数据挖掘过程中至关重要的一步,因为它是向用户交付输出的主要工具。提取的数据必须准确地传达其要表达的内容。然而,有时很难以清晰简单的方式将信息传达给最终用户。它需要根据输入和输出信息实施复杂、高效且成功的数据可视化过程。