结构化数据与非结构化数据

2024 年 8 月 28 日 | 3 分钟阅读

在理解结构化数据和非结构化数据之前,让我们先稍微了解一下数据。

数据可以被定义为被转换成一种非常经济的形式以用于翻译或处理的信息。数据,包括视频、图像、声音和文本,都表示为二进制值,即 0 或 1。使用这两个数字,生成模式来存储不同类型的数据。计算机系统中的最小数据单位是比特(bit),一个比特用来表示单个值。一个字节(byte)长八个二进制位。

在当今的计算机和传输媒体背景下,数据可以被定义为被转换成二进制数字形式的信息。随着计算机用户数量的增加,过去十年中产生的数据量也急剧增加。因此,为这种以快速增长的巨大数据量创造了一个新术语,即大数据。随着时间的推移,不仅数据量增加了,生成的数据种类也在迅速增加。因此,对正在生成的数据类型进行分类变得非常重要。在这个互联网时代,产生了大量的数据。这些数据可以是文本、图像、视频、文档、PDF文件、视频、日志文件等等。

现在,让我们将这海量数据大致分为两类。这两类是:

  • 结构化数据
  • 非结构化数据

结构化数据

我们可以将结构化数据定义为具有某些固定模式或本质上系统化的数据。结构化数据是其中元素可寻址以便进行高效分析的数据。结构化数据是那种易于追踪的数据。

结构化数据通常存储在一个格式化的存储库中,这个存储库通常是一个数据库。大多数时候,关系数据库(RDBMS)被用来存储结构化数据。所有可以存储在SQL数据库中、具有一些行和列的表中的数据都描绘了结构化数据。结构化数据总是可以存储在预先设计的字段中,并且它还具有关系键。像邮政编码、社会安全号码或电话号码这样的各种数据类型都存储在这些字段中。表中的记录甚至存储可变长度的文本字符串,如姓名,以便于搜索。

生成的数据可以由人类或机器生成。由于大多数结构化数据存储在关系数据库中,因此从存储的结构化数据中搜索所需数据变得非常容易。换句话说,我们可以说结构化数据提高了数据的可查找性。

结构化数据是可以轻松测量并可以添加到易于阅读的报告中的信息,而无需任何进一步的开发。

非结构化数据

非结构化数据可以被定义为不呈现任何特定模式的数据。非结构化数据没有以预定义的方式组织,因为它没有任何预定义的数据模型和固定结构,所以它不适合存储在主流的关系数据库中。但是,有各种替代方案来存储各种类型的非结构化数据。非结构化数据可以是文本数据或非文本数据。

尽管非结构化数据没有以预定义的方式结构化,但它具有其原生的、内部的结构。

所有大公司收集的数据中,几乎有80%到85%是非结构化数据。非结构化数据在性质上非常灵活,因为它没有任何模式。非结构化数据中的数据不受任何固定的模式约束或限制。非结构化数据在本质上非常便携和可扩展。

非结构化数据的一些例子包括 Word 文档、PDF、文本、媒体日志、卫星图像、科学数据、传感器数据、监控照片和视频、聊天、即时消息、电话录音、协作软件,以及来自 Facebook、Twitter、LinkedIn 的数据。

除了结构化和非结构化数据之外,还有半结构化数据,它是结构化和非结构化数据的结合,因为它同时展现了结构化和非结构化数据的属性。

因此,本文帮助我们对结构化数据和非结构化数据有一个更好的理解和视角。


下一主题列表数据结构