机器学习中的贝叶斯定理

2025年6月17日 | 阅读时长8分钟

机器学习是人工智能中最具新兴的技术之一。我们生活在 21 世纪,这个世纪完全由新技术和设备驱动,其中一些设备尚未投入使用,一些设备已充分发挥其潜力。同样,机器学习也是一项仍处于发展阶段的技术。有许多概念使机器学习成为一项更优秀的技术,例如监督学习、无监督学习、强化学习、感知器模型、神经网络等。在本文“机器学习中的贝叶斯定理”中,我们将讨论机器学习定理的另一个最重要概念,即贝叶斯定理。但在开始这个主题之前,您应该对此定理有基本的了解,例如贝叶斯定理到底是什么,为什么它在机器学习中使用,机器学习中贝叶斯定理的例子等等。那么,让我们开始对贝叶斯定理进行简要介绍。

Bayes Theorem in Machine learning

机器学习中贝叶斯定理介绍

贝叶斯定理由一位名叫托马斯·贝叶斯先生的英国统计学家、哲学家和长老会牧师于 17 世纪提出。贝叶斯在他的决策理论中提出了他的观点,该理论广泛应用于概率等重要的数学概念。贝叶斯定理在机器学习中也被广泛使用,在机器学习中我们需要精确和准确地预测类别。贝叶斯定理的一个重要概念,即贝叶斯方法,用于在包括分类任务在内的机器学习应用中计算条件概率。此外,还使用了贝叶斯定理的一个简化版本(朴素贝叶斯分类器)来减少计算时间和项目的平均成本。

贝叶斯定理也称为贝叶斯规则或贝叶斯定律贝叶斯定理有助于用随机知识确定事件的概率。它用于计算一个事件发生而另一个事件已经发生的概率。它是关联条件概率和边缘概率的最佳方法。

简单来说,我们可以说贝叶斯定理有助于得出更准确的结果。

贝叶斯定理用于估计数值的精度,并提供了一种计算条件概率的方法。然而,它本身就是一个简单的计算,但它用于轻松计算直觉经常出错的事件的条件概率。一些数据科学家认为贝叶斯定理在金融行业得到了最广泛的应用,但事实并非如此。除了金融业,贝叶斯定理还广泛应用于健康和医疗、研究和调查行业、航空航天部门等。

什么是贝叶斯定理?

贝叶斯定理是机器学习中最流行的概念之一,它有助于在已知另一个事件已发生的情况下,计算一个事件发生的不确定知识的概率。

贝叶斯定理可以使用乘积法则和事件 X 在已知事件 Y 的条件概率推导得出。

  • 根据乘积法则,我们可以如下表示事件 X 在已知事件 Y 的概率;
  • 进一步,事件 Y 在已知事件 X 的概率

在数学上,通过将两个方程的右侧组合起来,可以得到贝叶斯定理。

Bayes Theorem in Machine learning

在这里,事件 X 和 Y 都是独立事件,这意味着两个事件结果的概率不相互依赖。

上述方程称为贝叶斯规则或贝叶斯定理。

  • P(X|Y) 称为后验概率,这是我们需要计算的。它被定义为在考虑证据后更新的概率。
  • P(Y|X) 称为似然度。它是当假设为真时证据的概率。
  • P(X) 称为先验概率,即在考虑证据之前的假设的概率。
  • P(Y) 称为边缘概率。它被定义为在任何考虑下的证据的概率。

因此,贝叶斯定理可以写为

后验概率 = 似然度 * 先验概率 / 证据

贝叶斯定理的前提条件

在学习贝叶斯定理时,我们需要理解一些重要的概念。它们如下:

1. 实验

实验被定义为在受控条件下进行的计划操作,例如抛硬币、抽牌和掷骰子等。

2. 样本空间

在实验过程中,我们得到的结果称为可能结果,而事件的所有可能结果的集合称为样本空间。例如,如果我们掷骰子,样本空间将是

S1 = {1, 2, 3, 4, 5, 6}

同样,如果我们的实验是抛硬币并记录其结果,则样本空间将是

S2 = {正面, 反面}

3. 事件

事件被定义为实验中样本空间的子集。此外,它也称为结果集。

Bayes Theorem in Machine learning

假设在我们的掷骰子实验中,有两个事件 A 和 B,使得:

A = 出现偶数的事件 = {2, 4, 6}

B = 大于 4 的数字的事件 = {5, 6}

  • 事件 A 的概率“P(A)”= 有利结果的数量 / 可能结果的总数
    P(E) = 3/6 = 1/2 = 0.5
  • 同样,事件 B 的概率“P(B)”= 有利结果的数量 / 可能结果的总数
    =2/6
    =1/3
    =0.333
  • 事件 A 和 B 的并集
    A∪B = {2, 4, 5, 6}
    Bayes Theorem in Machine learning
  • 事件 A 和 B 的交集
    A∩B= {6}
    Bayes Theorem in Machine learning
  • 互斥事件:如果事件 A 和 B 的交集为空集或 null,则称这些事件为互斥事件互斥事件
    Bayes Theorem in Machine learning

4. 随机变量

它是一个实值函数,有助于将实验的样本空间映射到实线。随机变量取一些随机值,每个值都有一定的概率。然而,它既不是随机的,也不是变量,但它的行为像一个函数,该函数可以是离散的、连续的或两者的组合。

5. 穷举事件

顾名思义,一组事件,其中至少有一个事件在同一时间发生,称为实验的穷举事件。

因此,如果事件 A 和 B 在同一时间肯定会发生,并且它们是互斥的,则称它们为穷举事件。例如,在抛硬币时,要么是正面,要么是反面。

6. 独立事件

当一个事件的发生不影响另一个事件的发生时,称这两个事件为独立事件。简单来说,我们可以说两个事件结果的概率不相互依赖。

在数学上,如果

P(A ∩ B) = P(AB) = P(A)*P(B)

7. 条件概率

条件概率被定义为事件 A 发生的概率,前提是另一个事件 B 已经发生(即 A 条件 B)。这由 P(A|B) 表示,我们可以将其定义为

P(A|B) = P(A ∩ B) / P(B)

8. 边缘概率

边缘概率被定义为事件 A 发生的概率,而不受任何其他事件 B 的影响。此外,它被认为是任何考虑下的证据的概率。

P(A) = P(A|B)*P(B) + P(A|~B)*P(~B)

Bayes Theorem in Machine learning

这里 ~B 表示事件 B 不发生。

如何在机器学习中应用贝叶斯定理或贝叶斯规则?

贝叶斯定理有助于我们用 P(A|B)、P(B) 和 P(A) 的单个项来计算 P(B|A)。当 P(A|B)、P(B) 和 P(A) 的概率很好,需要确定第四项时,这个规则非常有帮助。

朴素贝叶斯分类器是贝叶斯定理最简单的应用之一,它用于分类算法,根据精度、速度和类别对数据进行分类。

让我们通过下面的例子来理解贝叶斯定理在机器学习中的应用。

假设我们有一个包含 I 个属性的向量 A。这意味着

A = A1, A2, A3, A4………………Ai

此外,我们有 n 个类,表示为 C1, C2, C3, C4…………Cn。

我们有两种条件,我们的机器学习分类器必须预测 A,而我们的分类器首先必须选择最可能的类别。因此,借助贝叶斯定理,我们可以将其写为

P(Ci/A)= [ P(A/Ci) * P(Ci)] / P(A)

这里;

P(A) 是与条件无关的实体。

P(A) 在整个类别中将保持不变,这意味着它的值不会随着类别的变化而改变。为了最大化 P(Ci/A),我们需要最大化 P(A/Ci) * P(Ci) 的值。

在概率列表中有 n 个类别,我们假设任何类别成为正确答案的可能性是相等的。考虑到这个因素,我们可以说

P(C1)=P(C2)-P(C3)=P(C4)=…..=P(Cn)。

这个过程有助于降低计算成本和时间。这就是贝叶斯定理在机器学习中发挥重要作用的方式,而朴素贝叶斯定理在不影响精度的前提下简化了条件概率任务。因此,我们可以得出结论

P(Ai/C)= P(A1/C)* P(A2/C)* P(A3/C)*……*P(An/C)

因此,通过在机器学习中使用贝叶斯定理,我们可以轻松描述较小事件的可能性。

机器学习中的朴素贝叶斯分类器是什么

朴素贝叶斯定理也是一种监督算法,它基于贝叶斯定理并用于解决分类问题。它是机器学习中最简单有效的分类算法之一,使我们能够构建各种 ML 模型进行快速预测。它是一种概率分类器,这意味着它基于对象的概率进行预测。一些流行的朴素贝叶斯算法是垃圾邮件过滤、情感分析和文章分类。

机器学习中朴素贝叶斯分类器的优点

  • 它是计算条件概率和文本分类问题的最简单有效的解决方法之一。
  • 在独立预测因子假设成立的情况下,朴素贝叶斯分类器算法优于所有其他模型。
  • 与其他模型相比,它易于实现。
  • 它只需要少量的训练数据来估计测试数据,从而最大限度地减少了训练时间。
  • 它可以用于二分类和多分类。

机器学习中朴素贝叶斯分类器的缺点

使用朴素贝叶斯分类器算法的主要缺点是,它限制了对独立预测因子的假设,因为它隐含地假设所有属性都是独立的或不相关的,但在现实生活中,要获得互不相关的属性是不可行的。

结论

尽管我们生活在技术世界中,一切都基于许多处于发展阶段的新技术,但它们仍然不完整,缺乏已经存在的经典定理和算法。贝叶斯定理也是机器学习中最受欢迎的例子之一。贝叶斯定理在机器学习中有如此多的应用。在分类相关问题中,它是所有其他算法中最受欢迎的方法之一。因此,我们可以说机器学习在很大程度上依赖于贝叶斯定理。在本文中,我们讨论了贝叶斯定理、如何在机器学习中应用贝叶斯定理、朴素贝叶斯分类器等。