机器学习中的数据准备

2025年6月21日 | 阅读 7 分钟

如今,数据已成为任何技术和应用的关键组成部分。同样,数据在机器学习项目中也起着至关重要的作用。在机器学习中,每个项目都需要不同的数据集,因此数据准备被认为是 ML 项目最关键的一步。

Data Preparation in Machine Learning

数据准备是 ML 生命周期中的后期阶段。首先,从各种来源收集数据,然后清理垃圾数据,并将其转化为实时机器学习项目,以发现洞察或进行预测。机器学习还有助于在数据中找到模式,从而做出准确的预测,并正确构建数据集和转换数据。在本主题“机器学习中的数据准备”中,我们将讨论机器学习数据准备的各种步骤、数据准备步骤、数据预处理、数据分割等。那么,让我们从机器学习数据准备的快速介绍开始。

什么是数据准备?

数据准备被定义为收集、合并、清理和转换原始数据,以便在机器学习项目中做出准确的预测。

数据准备也称为数据“预处理”、“数据整理”、“数据清洗”、“数据预处理”和“特征工程”。它是机器学习生命周期的后期阶段,紧随数据收集之后。

数据准备特定于数据、项目目标以及将在数据建模技术中使用的算法。

数据准备的先决条件

在数据准备阶段处理数据时,每个人都必须探索一些基本任务。它们如下:

  • 数据清洗:这项任务包括识别错误并对这些错误进行纠正或改进。
  • 特征选择:我们需要为模型识别最重要或最相关的输入数据变量。
  • 数据转换:数据转换包括将原始数据转换为最适合模型的格式。
  • 特征工程:特征工程涉及从可用数据集中导出新变量。
  • 降维:降维过程包括将高维特征转换为低维特征,而不改变信息。

机器学习中的数据准备

数据准备是清理和转换原始数据以通过 ML 算法准确进行预测的过程。尽管数据准备被认为是 ML 中最复杂的阶段,但它在实时项目中降低了后续过程的复杂性。在机器学习数据准备阶段已报告了各种问题,如下所示:

  • 缺失数据:缺失数据或不完整记录是大多数数据集中发现的普遍问题。除了适当的数据外,有时记录包含空单元格、值(例如,NULL 或 N/A)或特定字符,例如问号等。
  • 异常值或离群点:当数据来自未知来源时,ML 算法对值的范围和分布很敏感。这些值可能会破坏整个机器学习训练系统和模型的性能。因此,通过可视化技术等技术检测这些异常值或离群点至关重要。
  • 非结构化数据格式:数据来自各种来源,需要提取成不同的格式。因此,在部署 ML 项目之前,请务必咨询领域专家或从已知来源导入数据。
  • 特征有限:当数据来自单个来源时,它包含有限的特征,因此有必要从各种来源导入数据以进行特征丰富或在数据集中构建多个特征。
  • 理解特征工程:特征工程有助于开发 ML 模型中的附加内容,从而提高模型的性能和预测的准确性。

为什么数据准备很重要?

每个机器学习项目都需要特定的数据格式。为此,在将数据集应用于项目之前,需要对其进行充分准备。有时,数据集中的数据缺失或不完整,这会导致预测不准确或错误。此外,有时数据集是干净的,但形状不合适,例如聚合或透视,有些则缺乏业务上下文。因此,在从各种数据源收集数据后,数据准备需要转换原始数据。以下是机器学习数据准备的一些重要优点:

  • 它有助于在各种分析操作中提供可靠的预测结果。
  • 它有助于识别数据问题或错误,并大大减少出错的可能性。
  • 它提高了决策能力。
  • 它降低了总体项目成本(数据管理和分析成本)。
  • 它有助于删除重复内容,使其对不同应用程序有价值。
  • 它提高了模型性能。

数据准备过程中的步骤

数据准备是机器学习项目构建过程中关键的步骤之一,并且必须按照特定的步骤进行,这些步骤包括不同的任务。根据不同的 ML 专家和专业人士的建议,机器学习数据准备过程的一些重要步骤如下:

  1. 理解问题:这是机器学习模型数据准备的一个重要步骤,我们需要理解实际问题并尝试解决它。要构建更好的模型,我们必须对所有问题有详细的了解,例如做什么以及如何做。保留客户而不浪费太多精力也非常有效。
  2. 数据收集:数据收集可能是数据准备过程中最常见的步骤,数据科学家需要从各种潜在来源收集数据。这些数据源可能是企业内部的,也可能是第三方供应商的。数据收集有助于减少和缓解 ML 模型中的偏差,因此在收集数据之前,请始终对其进行分析,并确保数据集是从不同的人、地理区域和观点收集的。
    以下是一些可以通过数据收集解决的常见问题:
    • 它有助于确定 .csv 文件格式中字符串的相关属性。
    • 它用于将 XML 或 JSON 等高度嵌套的数据结构文件解析成表格形式。
    • 它在数据集的轻松扫描和模式检测方面很重要。
    • 数据收集是机器学习中从外部存储库查找相关数据的实用步骤。
  3. 数据分析和探索:在从各种数据源分析和收集数据后,现在可以探索数据,例如趋势、异常值、例外、不正确、不一致、缺失或倾斜的信息等。虽然源数据将提供所有模型发现,但它不包含看不见的偏差。数据探索有助于确定诸如共线性等问题,共线性是指标准化数据集和其他数据转换是必要的情况。
  4. 数据清洗和验证:数据清洗和验证技术有助于确定和解决不一致、异常值、离群点、不完整数据等问题。干净的数据有助于在数据中找到有价值的模式和信息,并忽略数据集中的不相关数据。构建高质量的模型非常重要,缺失或不完整的数据是数据质量差的最佳例子之一。由于缺失数据总是会降低模型的预测准确性和性能,因此必须通过各种插补工具对数据进行清洗和验证,以用统计上相关的替代项填充不完整字段。
  5. 数据格式化:在清洗和验证数据之后,下一个方法是确保数据格式是否正确。如果数据格式不正确,它将有助于构建高质量的模型。
    由于数据来自各种来源或有时是手动更新的,因此数据格式可能存在差异。例如,如果您从两个来源收集了数据,一个来源将产品价格更新为 USD10.50,而另一个来源将相同的值更新为 $10.50。同样,在拼写、缩写等方面也可能存在异常。这种类型的数据形成会导致错误的预测。为了减少这些错误,您必须使用一些输入格式协议以一致的方式格式化数据。
  6. 提高数据质量:质量是构建高质量模型的重要参数之一。高质量的数据有助于减少数据集中的错误、缺失数据、极端值和异常值。我们可以通过一个例子来理解,例如,在一个数据集中,列是“First Name”和“Last NAME”,而另一个数据集有一列名为“customer”,它结合了“First”和“Last Name”。那么在这种情况下,智能 ML 算法必须能够匹配这些列并连接数据集以获得客户的单一视图。
  7. 特征工程和选择
    特征工程被定义为选择、操作和转换原始数据为有价值特征或监督式机器学习中最相关变量的研究。特征工程使您能够构建具有准确预测的增强型预测模型。
    例如,可以将数据分成多个部分以捕获更具体的信息,例如按星期几分析营销绩效,而不仅仅是按月份或年份。在这种情况下,将日期作为单独的分类值从数据中分离出来(例如,“Mon; 07.12.2021”)可以为算法提供更有用的信息。机器学习中有许多特征工程技术,如下所示:
    • 插补:特征插补是填充数据集中不完整字段的技术。这一点很重要,因为大多数机器学习模型在数据集中存在缺失数据时无法工作。尽管如此,缺失值问题可以通过使用单一值插补、多值插补、K-近邻、删除行等技术来解决。
    • 编码:特征编码被定义为将字符串值转换为数字形式的方法。这一点很重要,因为所有 ML 模型都需要所有值都采用数字格式。特征编码包括标签编码和独热编码(也称为 get_dummies)。

    同样,特征工程还包括处理异常值、对数变换、缩放、归一化、标准化等。
  8. 数据分割
    在特征工程和选择之后,最后一步是将数据分割成两个不同的集合(训练集和评估集)。此外,始终为训练集和评估集选择不重叠的数据子集,以确保正确测试。

结论

数据准备是开发高质量机器学习模型的关键参与者之一。数据准备允许我们探索、清理、合并和格式化数据,以便进行采样和部署 ML 模型。这一点很重要,因为大多数 ML 算法需要数据是数字形式,以减少统计噪声和数据中的错误等。在本主题中,我们学习了数据准备、数据准备在构建预测建模机器学习项目中的重要性等。


下一个主题共形预测