半结构化数据2024 年 8 月 28 日 | 阅读 6 分钟 数据可以定义为信息被转换为一种非常经济的形式,以便进行翻译或处理。数据,包括视频、图像、声音和文本,表示为二进制值,即0或1。利用这两个数字,生成模式来存储不同类型的数据。计算机系统中最小的数据单位是位(bit),单个值用位表示。一个字节(byte)是八个二进制数字的长。 在当今的计算机和传输媒体中,数据可以定义为信息被转换为二进制数字形式。随着计算机用户数量的增加,在过去十年中生成的数据量也显着增加。因此,对于这种以高速生成的海量数据,出现了一个新术语。它被称为大数据(big data)。 随时间推移,增加的不仅仅是数据量。 除了数据量,生成数据的多样性也在迅速增加。因此,对正在生成的数据类型进行分类变得非常重要。在这个互联网时代,会生成大量数据。这些数据可以是文本、图像、视频、文档、pdf 文件、视频、日志文件等等。 现在,让我们将这些海量数据大致分为以下几类。这些类别是 - 结构化数据
结构化数据与半结构化数据不同。它是信息,经过专门设计以便于搜索,它是定量的且高度组织的。它通常存储在关系数据库(RDBMS)中,并且经常使用结构化查询语言(SQL)编写,SQL 是 IBM 在 20 世纪 70 年代开发的一种用于与数据库通信的标准语言。 结构化数据可以由人类或机器输入,但它必须遵循一个严格的框架,该框架具有预定义的组织属性。考虑一个酒店数据库,可以按客人姓名、电话号码、房间号码和其他标准进行搜索。或者 Excel 文件,数据整齐地组织成行和列。 - 半结构化数据
半结构化数据是一种结构化数据,它不遵循与关系数据库或其他类型数据表相关的数据模型的表格结构,但仍然包含标签或其他标记来分隔语义元素,并在数据内的记录和字段中强制执行层次结构。因此,它也被称为自描述结构。 在半结构化数据中,即使同一类别的实体彼此相邻分组,也可能具有不同的特征,并且属性的顺序无关紧要。 随着互联网的兴起,半结构化数据变得越来越普遍,因为全文文档和数据库不再是唯一的数据类型。各种应用程序需要一种信息交换的媒介,并且半结构化数据在面向对象数据库中很常见。 例如,电子邮件按发件人、收件人、主题、日期等进行半结构化,或者使用机器学习自动分类到文件夹中,如收件箱、垃圾邮件、促销等。 半结构化数据是图片和视频的混合体。例如,它可能包含与拍摄地点、日期或拍摄人相关的元标签,但其中包含的信息没有结构。考虑 Facebook 等社交媒体平台,它按用户、好友、群组、市场等进行组织,但这些分类中的评论和文本是无组织的。 半结构化数据比结构化数据更容易分析,因为它具有略高的组织级别。尽管如此,在进行人工干预分析之前,仍需要使用机器学习工具对其进行分解。它还包括定量数据,与完全非结构化的数据一样,可以提供更有用的见解。 - 非结构化数据
还有非结构化数据,通常是开放文本、图像、视频和其他媒体,没有任何预定的组织或设计。考虑在线评论、文档以及关于观点和感受的其他定性数据来源。这类数据更难分析,但可以使用机器学习技术对其进行结构化以提取见解,尽管首先需要对其进行结构化以便机器能够分析。
半结构化数据示例半结构化数据有多种格式,每种格式都有自己的一套应用。有些几乎没有结构,而另一些则具有相当复杂的层次结构。 - CSV
用于与 Web 服务器交互或从 Web 服务器向客户端传输数据的三个主要语言是 CSV、XML 和 JSON(即计算机、智能手机等)。 CSV 代表“逗号分隔值”,数据表示为 Lucy、Jessica 和 Anthony。它可以与 Excel 文件以相同的方式表示,但只有一列。 - 电子邮件
电子邮件可以说是最常见的半结构化数据类型,因为我们都定期使用它。电子邮件消息包含结构化数据,如姓名、电子邮件地址、收件人、日期、时间等,并且还组织成文件夹,如收件箱、已发送、垃圾箱等。 尽管大多数电子邮件软件包允许您按关键字或其他文本进行搜索,但每封电子邮件内部的数据都是非结构化的。电子邮件可以为企业提供大量的挖掘机会,用于分析客户反馈、确保客户服务正常运行以及协助创建营销材料。 - HTML
HTML 或“超文本标记语言”是一种分层语言,它类似于 XML 但不同于 XML。HTML 用于创建网站和可视化信息。用于在计算机屏幕上显示文本和图像的注释提供了 HTML 的半结构,但文本和图像本身是非结构化的。 - 网页
网页被设计成易于访问,带有“主页”、“关于我们”、“博客”、“联系方式”等选项卡,或文本内的其他页面链接,以帮助用户找到他们需要的信息。当然,所有这些都是用 HTML 编写的,但在电脑显示器上我们看不到。并且每个页面上的文本和数据都是非结构化的。 - NoSQL 数据库
非关系型数据库通常被称为 NoSQL(“不只是结构化查询语言”或“非 SQL”)数据库,最常见的类型是文档数据库、键值数据库、宽列数据库和图数据库。它们是多功能的数据库,因为它们可以存储结构化和非结构化数据。并且非常适合半结构化数据,因为它们易于扩展。添加一个额外的结构层(主题、值、数据类型等)可以使非结构化数据更易于搜索和处理。 - 电子数据交换(EDI)
EDI 是以前通过纸张传输的业务文档(如采购订单、发票和库存文档)的电子计算机到计算机传输。由于 EDI 使用许多标准格式,包括 ANSI、EDIFACT、TRADACOMS 和 ebXML,因此企业在通过 EDI 进行通信时必须使用相同的格式。EDI 实现了更快、成本更低的文档传输。尽管每种格式都旨在易于机器处理和理解,但每种传输中包含的数据都是非结构化的。
分析半结构化数据与处理非结构化数据相比,与半结构化数据交互的难度较小,但仍然会带来挑战。得益于 AI 驱动的机器学习技术,文本分析设计现在可以即时分解和分析半结构化和非结构化文本数据,以获得强大的见解。 半结构化数据的优缺点半结构化数据具有以下优缺点,例如 - 半结构化数据确实不限于单一架构。因此,例如,NoSQL 数据库甚至可以存储任何格式的数据,并且可以轻松扩展以存储大量数据。缺点是这使得分析数据更加困难。它必须手动处理(这需要数百个人工小时)或首先结构化为计算机可以理解的格式。
- 半结构化数据比完全非结构化数据更易于存储和移动,但存储成本通常远高于结构化数据。
- 半结构化数据之所以通用,是因为它允许您开始更改模式。然而,模式和数据通常过于紧密地链接在一起,因此在执行查询时,您主要需要知道您正在寻找什么数据。
|