机器学习中的问题

2025 年 6 月 18 日 | 阅读 8 分钟

"机器学习"是所有数据科学家和机器学习爱好者中最受欢迎的技术之一。它是最有效的人工智能技术,有助于创建自动化学习系统,在无需持续编程的情况下做出未来决策。它可以被认为是一种算法,通过过去的经验和训练数据自动构建各种计算机软件。它出现在医疗保健、教育、金融、汽车、营销、航运、基础设施、自动化等各个行业。几乎所有的大公司,如亚马逊、Facebook、谷歌、Adobe等,都在利用各种机器学习技术来发展他们的业务。然而,这个世界上的一切都有光明的一面,也有黑暗的一面。同样,机器学习提供了巨大的机会,但也有一些问题需要解决。

Issues in Machine Learning

本文将讨论一些主要的实际问题及其业务实施,以及我们如何克服它们。那么,让我们从机器学习的快速介绍开始。

什么是机器学习?

机器学习被定义为通过过去的经验和训练数据自动构建计算机软件的计算机算法的研究。

它是人工智能和计算机科学的一个分支,它有助于基于训练数据构建模型,并在无需持续编程的情况下做出预测和决策。机器学习被用于各种应用,如电子邮件过滤、语音识别、计算机视觉、自动驾驶汽车、亚马逊产品推荐等。

机器学习中常用的算法

机器学习是通过过去的经验学习算法,并做出未来决策的研究。尽管机器学习有多种模型,但以下是当今所有数据科学家和专业人士最常用的机器学习算法列表。

  • 线性回归
  • 逻辑回归
  • 决策树
  • 贝叶斯定理和朴素贝叶斯分类
  • 支持向量机 (SVM) 算法
  • K-近邻 (KNN) 算法
  • K-Means
  • 梯度提升算法
  • 降维算法
  • 随机森林

机器学习中的常见问题

尽管机器学习已被应用于每个行业,并帮助组织做出比传统方法更有效、更明智的数据驱动的决策,但它仍然存在许多不容忽视的问题。以下是专业人士在培养机器学习技能和从零开始创建应用程序时面临的一些常见机器学习问题。

1. 训练数据不足

使用机器学习算法时出现的主要问题是数据质量和数量的不足。尽管数据在机器学习算法的处理中起着至关重要的作用,但许多数据科学家声称,数据不足、噪声数据和不干净的数据正在极大地消耗机器学习算法。例如,一个简单的任务需要数千个样本数据,而像语音或图像识别这样的高级任务则需要数百万个样本数据示例。此外,数据质量对于算法的理想工作也很重要,但在机器学习应用中也发现了数据质量的缺失。数据质量可能受以下因素影响

  • 噪声数据 - 它导致不准确的预测,影响分类任务中的决策和准确性。
  • 不正确的数据 - 它还导致机器学习模型中的错误编程和结果。因此,不正确的数据也会影响结果的准确性。
  • 输出数据的泛化 - 有时,输出数据的泛化也变得复杂,导致未来行动相对较差。

2. 数据质量差

正如我们在上面讨论的,数据在机器学习中起着重要的作用,而且它也必须是高质量的。噪声数据、不完整数据、不准确数据和不干净数据会导致分类准确性降低和结果质量低下。因此,在处理机器学习算法时,数据质量也可以被认为是一个主要的常见问题。

3. 非代表性训练数据

为了确保我们的训练模型能够很好地泛化,我们必须确保样本训练数据能够代表我们需要泛化的新案例。训练数据必须涵盖所有已经发生和正在发生的案例。

此外,如果我们在模型中使用非代表性训练数据,会导致预测不准确。如果一个机器学习模型能够很好地预测一般情况并提供准确的决策,那么它就被认为是理想的。如果训练数据很少,那么模型中就会出现采样噪声,称为非代表性训练集。它在预测方面不会准确。为了克服这一点,它会对某个类别或组产生偏见。

因此,我们应该在训练中使用代表性数据,以防止偏见,并做出准确的预测,而不会有任何漂移。

4. 过拟合和欠拟合

过拟合

过拟合是机器学习工程师和数据科学家面临的最常见问题之一。当机器学习模型使用大量数据进行训练时,它会开始捕获训练数据集中的噪声和不准确的数据。这会负面影响模型的性能。让我们以一个简单的例子来理解,我们有很少的训练数据集,例如 1000 个芒果、1000 个苹果、1000 个香蕉和 5000 个木瓜。那么,将苹果识别为木瓜的可能性相当大,因为我们在训练数据集中有大量有偏见的数据;因此,预测受到了负面影响。过拟合的主要原因是使用了机器学习算法中的非线性方法,因为它们构建了非现实的数据模型。我们可以通过在机器学习模型中使用线性和参数算法来克服过拟合。

减少过拟合的方法

  • 增加数据集中的训练数据。
  • 通过选择参数较少的模型来简化模型,从而降低模型复杂度
  • 岭回归和 Lasso 回归
  • 训练阶段的提前停止
  • 减少噪声
  • 减少训练数据中的属性数量。
  • 约束模型。

欠拟合

欠拟合恰恰与过拟合相反。当机器学习模型使用较少的数据量进行训练时,结果会提供不完整和不准确的数据,并破坏机器学习模型的准确性。

当我们的模型过于简单而无法理解数据的基本结构时,就会发生欠拟合,就像裤子太小一样。这通常发生在数据集中的数据有限,并且我们试图用非线性数据构建线性模型时。在这种情况下,模型的复杂度会被破坏,机器学习模型的规则变得过于简单而无法应用于该数据集,模型开始做出错误的预测。

减少欠拟合的方法

  • 增加模型复杂度
  • 从数据中去除噪声
  • 在增加的更好特征上进行训练
  • 减少约束
  • 增加 epoch 的数量以获得更好的结果。

5. 监控和维护

众所周知,任何机器学习模型都需要泛化输出数据;因此,定期监控和维护是强制性的。不同操作的不同结果需要数据更改;因此,编辑代码和监控它们的资源也变得必要。

6. 获得糟糕的推荐

机器学习模型在特定上下文下运行,这会导致糟糕的推荐和模型概念漂移。让我们举一个例子,在某个特定时间客户正在寻找一些小工具,但现在客户的需求随着时间的推移而改变,但机器学习模型仍然向客户显示相同的推荐,而客户的期望已经改变。这种情况被称为数据漂移。它通常发生在引入新数据或解释数据发生变化时。但是,我们可以通过根据预期定期更新和监控数据来克服这一点。

7. 熟练资源缺乏

尽管机器学习和人工智能在市场上不断发展,但与许多其他行业相比,这些行业仍然是新兴的。人力资源缺乏也是一个问题。因此,我们需要拥有数学、科学和技术深入知识的人力来开发和管理机器学习的科学内容。

8. 客户细分

客户细分也是开发机器学习算法时的重要问题。识别为模型显示的推荐付费的客户以及甚至不检查这些推荐的客户。因此,需要算法来识别客户行为,并根据过去的经验为用户触发相关的推荐。

9. 机器学习的流程复杂性

机器学习过程非常复杂,这也是机器学习工程师和数据科学家面临的另一个主要问题。尽管机器学习和人工智能是非常新的技术,但仍处于实验阶段,并且随着时间的推移不断变化。存在大量的试错实验;因此,出错的可能性高于预期。此外,它还包括数据分析、去除数据偏差、训练数据、应用复杂的数学计算等,这使得过程更加复杂和相当繁琐。

10. 数据偏差

数据偏差也被发现是机器学习中的一个重大挑战。当数据集的某些元素被过度加权或需要比其他元素更重要时,就会出现这些错误。有偏见的数据会导致不准确的结果、倾斜的输出和其他分析错误。但是,我们可以通过确定数据集中的数据实际偏向何处来解决此错误。此外,采取必要的措施来减少它。

去除数据偏差的方法

  • 深入研究客户细分。
  • 了解您的通用用例和潜在的异常值。
  • 合并来自多个来源的输入以确保数据多样性。
  • 在开发过程中包含偏差测试。
  • 定期分析数据并跟踪错误以便轻松解决。
  • 审查收集和标注的数据。
  • 使用多遍标注,如情感分析、内容审核和意图识别。

11. 缺乏可解释性

这基本上意味着输出无法轻易理解,因为它以特定方式编程以在某些条件下交付。因此,机器学习算法也存在缺乏可解释性的问题,这降低了算法的可信度。

12. 实现和结果缓慢

这个问题在机器学习模型中也经常出现。尽管机器学习模型在产生准确结果方面非常高效,但它们非常耗时。缓慢的编程、过多的需求和过载的数据需要比预期更长的时间才能提供准确的结果。这需要对模型进行持续的维护和监控才能提供准确的结果。

13. 不相关的特征

尽管机器学习模型旨在提供最佳结果,但如果我们输入的是垃圾数据,那么结果也将是垃圾。因此,我们应该在训练样本中使用相关的特征。如果训练数据具有一组良好的特征或很少或没有不相关的特征,那么机器学习模型就被认为是好的。

结论

如果训练集太小,或者数据不具有泛化性、有噪声且被不相关特征所破坏,那么 ML 系统就不会表现良好。我们已经回顾了一些初学者在实践机器学习时面临的基本挑战。机器学习已经准备好为技术带来巨大的变革。它是用于医学诊断、语音识别、机器人训练、产品推荐、视频监控等领域中发展最快的一项技术,而且这个列表还在不断增长。这个不断发展的领域提供了巨大的工作满意度、极好的机会、全球视野和丰厚的薪水。它是一项高风险、高回报的技术。在开始您的机器学习之旅之前,请确保您仔细研究了上述挑战。要学习这项出色的技术,您需要仔细规划,保持耐心,并最大化您的努力。一旦您赢得这场战斗,您就可以征服工作的未来,并获得您的梦想工作!