机器学习中的熵

2025年6月18日 | 阅读 6 分钟

我们生活在一个科技的世界里,一切都与技术息息相关。机器学习也是计算机科学领域中最流行的技术之一,它使计算机能够从过去的经验中自动学习。

Entropy in Machine Learning

此外,机器学习在 IT 行业的需求量很大,大多数公司都希望拥有高技能的机器学习工程师和数据科学家来开展业务。机器学习包含大量的算法和概念,可以轻松解决复杂问题,其中之一就是机器学习中的熵。几乎每个人在学校或大学的物理和化学课程中都听过“熵”这个词。熵的起源来自物理学,在那里它被定义为衡量系统中混乱、随机、不可预测性或不纯度的度量。在本文中,我们将讨论机器学习中的熵是什么以及为什么需要机器学习中的熵。那么,让我们从机器学习中熵的快速介绍开始。

机器学习中熵的介绍

熵被定义为机器学习中正在处理的信息的随机性或混乱程度的度量。更进一步地说,我们可以说**熵是机器学习中的一个度量,它衡量系统中不可预测性或不纯度**。

Entropy in Machine Learning

当信息在系统中处理时,每条信息都有一个特定的值,可以用来从中得出结论。因此,如果一条信息更容易得出有价值的结论,那么机器学习中的熵就会较低,或者如果熵较高,那么就很难从该信息中得出任何结论。

熵是机器学习中理解各种概念(如特征选择、构建决策树、拟合分类模型等)的有用工具。作为一名机器学习工程师和专业数据科学家,您必须对机器学习中的熵有深入的了解。

机器学习中的熵是什么

熵是机器学习中处理的信息的混乱度或不纯度的度量。它决定了决策树如何分割数据。

Entropy in Machine Learning

我们可以用一个简单的例子来理解熵这个词:抛硬币。当我们抛硬币时,有两种可能的结果。然而,很难确定抛硬币的实际结果是什么,因为抛硬币与其结果之间没有直接关系。这两种结果的概率都是 50%;在这种情况下,熵会很高。这就是机器学习中熵的本质。

熵的数学公式

考虑一个包含总共 N 个类的数据集,那么熵(E)可以通过以下公式确定

Entropy in Machine Learning

其中:

Pi = 随机选择属于类 I 的样本的概率;

熵总是介于 0 和 1 之间,但根据数据集中类的数量,它可以大于 1。但是,高值

让我们举一个例子来说明,我们有一个包含三种水果颜色(红色、绿色和黄色)的数据集。假设我们的数据集中有 2 个红色、2 个绿色和 4 个黄色的观测值。那么根据上面的方程

E=−(prlog2pr + pglog2pg + pylog2py)

其中:

Pr = 选择红色水果的概率;

Pg = 选择绿色水果的概率;

Py = 选择黄色水果的概率。

Pr = 2/8 = 1/4 [因为数据集中只有 2 个代表红色水果]

Pg = 2/8 = 1/4 [因为数据集中只有 2 个代表绿色水果]

Py = 4/8 = 1/2 [因为数据集中只有 4 个代表黄色水果]

现在我们的最终方程将是:

Entropy in Machine Learning

所以,熵将是 1.5。

让我们考虑一种情况,当所有观测值都属于同一类时,熵将始终为 0。

E=−(1log21)

= 0

当熵变为 0 时,数据集没有不纯度。熵为 0 的数据集对于学习没有用。此外,如果熵为 1,则此类数据集适合学习。

Entropy in Machine Learning

什么是机器学习中的决策树?

决策树被定义为用于分类和回归问题的监督学习算法。然而,它主要用于解决分类问题。其结构类似于树,其中内部节点代表数据集的特征,树的分支代表决策规则,叶节点代表结果。

决策树用于根据历史数据预测结果。决策树基于一系列“**如果-那么-否则**”的语句和一个作为我们最初要解决的问题的根。

决策树中使用的术语

Entropy in Machine Learning

叶节点:叶节点被定义为决策节点的输出,但如果它们不包含任何分支,则意味着树无法从该节点进一步分割。

根节点:顾名思义,根节点是任何决策树的起点。它包含整个数据集,该数据集会进一步细分为两个或多个子集。此节点包含多个分支,并用于在分类问题中做出任何决策。

分割:这是一个在某些定义条件下将根节点分割成多个子节点的过程。

分支:分支是通过分割根节点或决策节点形成的。

剪枝:剪枝被定义为从树中移除不需要的分支的过程。

父节点:决策树中的根节点称为父节点。

子节点:除了根节点之外,所有其他节点在决策树中都称为子节点。

熵在决策树中的应用

在决策树中,可以使用成本函数来减少叶节点中的异质性。在根节点级别,目标列的熵可以通过香农公式计算,其中香农先生将加权熵描述为在每个分支上为目标列计算的熵。然而,简单来说,您可以将加权熵理解为每个属性的单独权重。此外,权重被视为每个类的概率。熵的减少越多,获得的信息就越多。

Entropy in Machine Learning

什么是熵中的信息增益?

信息增益被定义为在数据集中观察到的模式和熵的减少。

数学上,信息增益可以用以下公式表示

信息增益 =(父节点的熵) - (子节点的熵)

注意:信息增益计算为 1 - 熵。

让我们用以下三种情况的例子来理解

信息增益 (Information Gain)
场景 10.78123450.2187655
场景 201
情况 310

假设我们有一个根节点总共有四个值的树,它在第一层被分割成一个分支(称为分支 1)中有单个值,另一个分支(分支 2)中有三个值。根节点的熵是 1。

现在,要计算子节点 1 的熵,权重分别取为 ? 分支 1 和 ? 分支 2,并使用香农熵公式计算。正如我们上面所见,子节点 2 的熵为零,因为该子节点中只有一个值,这意味着没有不确定性,因此不存在异质性。

H(X) = - [(1/3 * log2 (1/3)) + (2/3 * log2 (2/3))] = 0.9184

上述情况的信息增益是加权平均熵的减少。

信息增益 = 1 - (¾ * 0.9184) - (¼ * 0) = 0.3112

熵被移除得越多,信息增益就越大。信息增益越高,分割效果越好。

如何使用信息增益构建决策树

在分别理解了信息增益和熵的概念之后,我们现在可以轻松地构建决策树。请参阅使用信息增益构建决策树的步骤:

  1. 应选择具有最高信息增益的属性作为父(根)节点。从下面的图片中,它是属性 A。
    Entropy in Machine Learning
  2. 为属性 A 的每个值构建子节点。
  3. 迭代重复,直到完成整个树的构建。

决策树的优点

  • 决策树易于理解,因为它遵循人类在做出任何决定时相同的思考过程。
  • 它用于解决机器学习中的任何决策相关问题。
  • 它有助于找出问题的所有可能结果。
  • 与其他算法相比,它对数据清理的要求较低。