机器学习基础概念

2025年6月18日 | 阅读 12 分钟

机器学习在IT世界中持续发展，并在不同的商业领域中获得力量。尽管机器学习仍处于发展阶段，但它在所有技术中都很受欢迎。它是一个研究领域，能够使计算机通过从经验中自动学习和改进。因此，机器学习着重于通过收集各种观察数据来增强计算机程序的能力。在本文“机器学习概念”中，我们将讨论机器学习中使用的几个基本概念，例如什么是机器学习、机器学习使用的技术和算法、机器学习的应用和示例，以及更多内容。那么，让我们从机器学习的快速介绍开始。

什么是机器学习？

机器学习被定义为一种技术，用于训练机器根据历史数据或过去的经验来执行各种操作，例如预测、推荐、估算等。

机器学习通过过去的经验和预测数据来训练计算机，使其能够像人类一样行事。

机器学习有三个关键方面，如下所示：

任务：任务被定义为我们感兴趣的主要问题。此任务/问题可以与预测、推荐和估算等有关。
经验：它被定义为从历史数据或过去数据中学习，并用于估算和解决未来的任务。
性能：它被定义为任何机器解决任何机器学习任务或问题的能力，并为此提供最佳结果。但是，性能取决于机器学习问题的类型。

机器学习中的技术

机器学习技术主要分为以下 4 类：

1. 监督学习

当机器拥有样本数据，即具有正确标签的输入和输出数据时，便可应用监督学习。正确标签用于通过一些标签和标记来检查模型的正确性。监督学习技术通过过去的经验和标记示例帮助我们预测未来的事件。最初，它分析已知的训练数据集，然后引入一个推断函数，该函数对输出值进行预测。此外，它还在整个学习过程中预测错误，并通过算法纠正这些错误。

示例：假设我们有一组标记为“狗”的图像。机器学习算法会用这些狗的图像进行训练，以便它可以轻松地区分一张图像是否是狗。

2. 无监督学习

在无监督学习中，机器只用一些输入样本或标签进行训练，而输出是未知的。训练信息既没有分类也没有标记，因此，与监督学习相比，机器不一定总是能提供正确的输出。

尽管无监督学习在实际业务环境中的应用较少，但它有助于探索数据，并可以从数据集中得出推论，以描述无标记数据的隐藏结构。

示例：假设机器用具有不同类别（A、B 和 C 类）的某些文档集进行训练，我们需要将它们组织到适当的组中。由于机器只提供输入样本而没有输出，因此它可以将这些数据集组织到 A 类、B 类和 C 类中，但不一定能正确组织。

3. 强化学习

强化学习是一种基于反馈的机器学习技术。在此类学习中，代理（计算机程序）需要探索环境，执行操作，并根据其操作获得奖励作为反馈。对于每个好的操作，它们会获得正奖励，对于每个坏的操作，它们会获得负奖励。强化学习代理的目标是最大化正奖励。由于没有标记数据，代理只能通过其经验来学习。

4. 半监督学习

半监督学习是监督学习和无监督学习的中间技术。它对具有少量标签和无标签数据的混合数据集执行操作。但是，它通常包含无标签数据。因此，它还降低了机器学习模型的成本，因为标签成本很高，但对于公司而言，可能有一些标签。此外，它还提高了机器学习模型的准确性和性能。

半监督学习可帮助数据科学家克服监督学习和无监督学习的缺点。语音分析、网络内容分类、蛋白质序列分类、文本文件分类等是半监督学习的一些重要应用。

机器学习的应用

机器学习已广泛应用于医疗保健、营销、金融、基础设施、自动化等几乎所有领域。以下是一些重要的现实世界中的机器学习示例：

医疗保健和医学诊断

机器学习应用于医疗保健行业，有助于生成神经网络。这些自学习神经网络通过分析患者状况、X 射线、CT 扫描、各种检查和筛查的外部数据，帮助专家提供高质量的治疗。除了治疗，机器学习在自动计费、临床决策支持和临床护理指南开发等方面也很有帮助。

营销

机器学习可帮助营销人员创建各种假设、进行测试、评估和分析数据集。它帮助我们基于大数据概念快速进行预测。它也有助于股票市场，因为大部分交易是通过机器人进行的，并且基于机器学习算法的计算。各种深度学习神经网络有助于构建交易模型，例如卷积神经网络、循环神经网络、长短期记忆网络等。

自动驾驶汽车

这是当今机器学习最令人兴奋的应用之一。它在开发自动驾驶汽车方面发挥着至关重要的作用。特斯拉、塔塔等各种汽车公司正在不断致力于开发自动驾驶汽车。这也可以通过机器学习方法（监督学习）来实现，其中机器被训练以在驾驶时检测人和物体。

语音识别

语音识别是机器学习最流行的应用之一。如今，几乎所有的移动应用程序都带有语音搜索功能。此“语音搜索”功能也是语音识别的一部分。在此方法中，语音指令被转换为文本，称为“语音到文本”或“计算机语音识别”。

Google Assistant、SIRI、Alexa、Cortana 等是语音识别的一些著名应用。

交通预测

机器学习还通过使用 Google Maps 帮助我们找到前往目的地的最短路线。它还通过 Google Maps 应用程序和传感器的实时位置，帮助我们预测交通状况，无论是畅通还是拥堵。

图像识别

图像识别也是机器学习的一个重要应用，用于识别物体、人物、地点等。人脸检测和自动朋友标记建议是 Facebook、Instagram 等使用的人脸识别最著名的应用。每当我们上传与 Facebook 朋友的照片时，它都会通过图像识别技术自动建议他们的名字。

产品推荐

机器学习被广泛用于商业行业，以推广各种产品。亚马逊、阿里巴巴、沃尔玛、Netflix 等几乎所有大中小型公司都在使用机器学习技术向用户推荐产品。每当我们访问他们的网站搜索任何产品时，都会自动开始显示大量相似产品的广告。这也可以通过机器学习算法来实现，这些算法会学习用户的兴趣，并根据过去的数据向用户推荐产品。

自动翻译

自动语言翻译也是机器学习最重要的应用之一，它基于序列算法，将一种语言的文本翻译成其他所需的语言。Google GNMT（Google Neural Machine Translation）提供了此功能，即神经机器翻译。此外，您还可以通过 Google Lens 翻译图片中的选定文本以及完整的文档。

虚拟助手

虚拟个人助理也是机器学习最受欢迎的应用之一。首先，它会录制我们的语音并将其发送到基于云的服务器，然后通过机器学习算法进行解码。亚马逊、谷歌等所有大公司都在使用这些功能来播放音乐、拨打电话、打开应用程序以及在互联网上搜索数据等。

电子邮件垃圾邮件和恶意软件过滤

机器学习还帮助我们根据其类别（例如重要、普通和垃圾邮件）过滤收到的各种电子邮件。这可以通过多层感知器、决策树和朴素贝叶斯分类器等机器学习算法来实现。

常用的机器学习算法

以下是一些常用的机器学习算法列表：

线性回归

线性回归是最简单和最受欢迎的机器学习算法之一，由数据科学家推荐。它用于预测分析，通过对经验、薪资、成本等实际变量进行预测。

这是一种统计方法，表示两个或多个变量（因变量或自变量）之间的线性关系，因此称为线性回归。它显示了因变量的值相对于自变量的变化，该图的斜率称为回归线。

线性回归可以用数学方式表示如下：

y= a0+a1x+ ε

Y= 因变量

X= 自变量

a0= 直线截距（提供额外的自由度）

a1 = 线性回归系数（每个输入值的比例因子）。

ε = 随机误差

x 和 y 变量的值是线性回归模型表示的训练数据集。

线性回归的类型

简单线性回归
多元线性回归

线性回归的应用

线性回归有助于评估商业趋势和预测，例如根据某人的经验预测其薪资，根据降雨量预测农作物产量等。

逻辑回归

逻辑回归是监督学习技术的一个子集。它帮助我们使用一组给定的自变量来预测分类因变量的输出。但是，它可以是二元的（0 或 1）或布尔值（真/假），但它给出的不是一个确切的值，而是介于 0 或 1 之间的概率值。它与线性回归非常相似，取决于其在机器学习模型中的使用。正如线性回归用于解决回归问题一样，逻辑回归也有助于解决分类问题。

逻辑回归可以表示为“S”形曲线，称为 sigmoid 函数。它预测两个最大值（0 或 1）。

在数学上，我们可以将逻辑回归表示为：

逻辑回归的类型

二项式
多项式
有序

K 最近邻 (KNN)

它也是监督学习技术中最简单的机器学习算法之一。它有助于解决回归和分类问题。它假定新数据和可用数据之间的相似性，并将新数据归入与可用类别最相似的类别。它也被称为懒惰学习算法，因为它不会立即从训练集中学习；相反，它会存储数据集，并在分类时对数据集执行操作。假设我们有几组猫和狗的图像，并想识别新图像是猫还是狗。那么 KNN 算法是根据可用数据集识别猫的最佳方法，因为它基于相似性度量。因此，KNN 模型将新图像与可用图像进行比较，并将其输出归入猫的类别。

让我们通过下面的截图来理解 KNN 算法，其中我们需要根据与可用数据点的相似性来分配一个新的数据点。

KNN 算法在机器学习中的应用

除了机器学习，KNN 算法还在许多领域中使用，如下所示：

医疗保健和医学诊断
信用评分检查
文本编辑
酒店预订
游戏
自然语言处理等。

K-Means 聚类

K-Means 聚类是无监督学习技术的一个子集。它有助于我们通过将无标签数据集分组到不同的簇中来解决聚类问题。这里的 K 定义了在此过程中需要创建的预定义簇的数量，例如，如果 K=2，将有两个簇，如果 K=3，将有三个簇，依此类推。

决策树

决策树也是机器学习技术的另一种类型，属于监督学习。与 KNN 类似，决策树也有助于我们解决分类和回归问题，但它主要用于解决分类问题。之所以称为决策树，是因为它包含一个树状分类器，其中属性由内部节点表示，决策规则由分支表示，模型的结果由树的每个叶子表示。树从决策节点（也称为根节点）开始，到叶节点结束。

决策节点有助于我们做出任何决策，而叶子用于确定这些决策的结果。

决策树是获得某个问题或决策所有可能结果的图形表示，具体取决于某些给定条件。

随机森林

随机森林也是最受欢迎的机器学习算法之一，属于监督学习技术。与 KNN 和决策树类似，它也允许我们解决分类和回归问题，但当我们需要解决复杂问题并提高模型性能时，它会更受青睐。

随机森林算法基于集成学习的概念，这是一个结合多个分类器的过程。

随机森林分类器由多个决策树和给定数据集的各种子集组合而成。这种组合接收来自所有树的平均预测作为输入，并提高模型的准确性。森林中更多的树木可以提高准确性并防止过拟合问题。此外，与其他算法相比，它的训练时间更少。

支持向量机 (SVM)

它也是机器学习监督学习技术子集中最受欢迎的机器学习算法之一。支持向量机算法的目标是创建最佳的直线或决策边界，该边界可以将 n 维空间划分为不同的类别，以便我们将来可以轻松地将新数据点放入正确的类别。这个最佳决策边界称为超平面。它也用于解决分类和回归问题。它用于人脸检测、图像分类、文本分类等。

朴素贝叶斯

朴素贝叶斯算法是监督学习技术中最简单、最有效的机器学习算法之一。它基于贝叶斯定理的概念，用于解决分类相关问题。它有助于构建可以快速预测且具有更高准确性和性能的快速机器学习模型。它主要用于处理高维训练数据集的文本分类。

它被用作概率分类器，这意味着它基于对象的概率进行预测。垃圾邮件过滤、情感分析和文章分类是朴素贝叶斯算法的一些重要应用。

它也基于贝叶斯定理的概念，该定理也称为贝叶斯规则或贝叶斯定律。在数学上，贝叶斯定理可以表示如下：

其中，

P(A) 是先验概率
P(B) 是边缘概率
P(A|B) 是后验概率
P(B|A) 是似然概率

机器学习与人工智能的区别

人工智能是一项技术，我们可以通过它创建能够模拟人类智能的智能系统，而机器学习是人工智能的一个子领域，它使机器能够从过去的数据或经验中学习。
人工智能是一项用于创建智能系统的技术，该系统使机器能够模拟人类行为。而机器学习是人工智能的一个分支，它帮助机器从经验中学习，而无需明确编程。
人工智能有助于创建像人类一样智能的计算机系统来解决复杂问题。而机器学习则用于从过去的数据或经验中获得准确的预测。
人工智能可分为弱人工智能、通用人工智能和强人工智能。而机器学习可分为监督学习、无监督学习和强化学习。
每个 AI 代理都包括学习、推理和自我纠正。每个 ML 模型在引入新数据时都包含学习和自我纠正。
AI 处理结构化、半结构化和非结构化数据。ML 处理结构化和半结构化数据。
人工智能应用： Siri、通过聊天机器人提供的客户支持、专家系统、在线游戏、智能人形机器人等。机器学习应用： 在线推荐系统、Google 搜索算法、Facebook 自动好友标记建议等。

结论

本文向您介绍了机器学习的一些重要基本概念。现在，我们可以说，机器学习有助于构建一个能够从过去经验中学习并工作更快的智能机器。互联网上有许多在线游戏，它们比真实的游戏玩家快得多，例如国际象棋、AlphaGo 和 Ludo 等。然而，机器学习是一个广泛的概念，但您也可以在几个小时的学习中掌握每个概念。如果您正在为成为数据科学家或机器学习工程师做准备，那么您必须对机器学习的每个概念都有深入的了解。

下一主题知识图如何解决机器学习问题

机器学习基础概念

什么是机器学习？