数据挖掘 贝叶斯分类器

2025年3月17日 | 阅读 3 分钟

在许多应用中,属性集与类变量之间的关系是非确定性的。换句话说,即使测试记录的属性集与某些训练示例相同,我们也不能确定地假设其类标签。这些情况可能由于数据有噪声或存在某些影响分类但未包含在分析中的混淆因素而出现。例如,考虑基于个体饮食习惯和工作效率来预测个体患肝脏疾病风险的任务。尽管大多数饮食健康、坚持锻炼的人患肝脏疾病的概率较低,但他们仍可能患病,原因可能是其他因素。例如,摄入高热量街头食品和酗酒。确定一个人的饮食习惯是否健康或工作效率是否足够也取决于分析,这反过来可能给学习问题带来漏洞。

贝叶斯分类使用贝叶斯定理来预测任何事件的发生。贝叶斯分类器是具有贝叶斯概率理解的统计分类器。该理论阐述了信念的程度,以概率表示。

贝叶斯定理以托马斯·贝叶斯的名字命名,他首先利用条件概率提供了一种算法,该算法使用证据来计算未知参数的边界。

贝叶斯定理可以用下面的公式在数学上表示。

Data Mining Bayesian Classifiers

其中 X 和 Y 是事件,且 P (Y) ≠ 0

P(X/Y) 是一个**条件概率**,它描述了在 Y 为真的情况下 X 事件发生的概率。

P(Y/X) 是一个**条件概率**,它描述了在 X 为真的情况下 Y 事件发生的概率。

P(X) 和 P(Y) 是独立观察到 X 和 Y 的概率。这被称为**边缘概率**。

贝叶斯解释

在贝叶斯解释中,概率决定了“**信念程度**”。贝叶斯定理将假设的信念程度在考虑证据之前和之后联系起来。例如,让我们考虑一个抛硬币的例子。如果我们抛硬币,我们得到正面或反面,正面或反面出现的概率都是 50%。如果硬币被抛了多次,并且观察到了结果,信念的程度可能会根据结果而上升、下降或保持不变。

对于命题 X 和证据 Y,

  • P(X) 是先验,即 X 的初始信念程度
  • P(X/Y) 是后验,即考虑 Y 后的信念程度。
  • 数据挖掘 贝叶斯分类器 表示 Y 对 X 的支持度。

贝叶斯定理可以从条件概率推导出来

Data Mining Bayesian Classifiers

其中 P (X⋂Y) 是 X 和 Y 都为真的**联合概率**,因为

Data Mining Bayesian Classifiers

贝叶斯网络

贝叶斯网络属于概率图建模 (PGM) 程序,它利用概率概念来计算不确定性。通常称为**信念网络**,贝叶斯网络用于使用**有向无环图** (DAG) 来表示不确定性。

有向无环图用于表示贝叶斯网络,并且像其他统计图一样,DAG 由一组节点和链接组成,其中链接表示节点之间的连接。

Data Mining Bayesian Classifiers

这里的节点代表随机变量,边定义了这些变量之间的关系。

DAG 基于每个随机变量的条件概率分布 (CDP) 来模拟事件发生的概率。**条件概率表** (CPT) 用于表示网络中每个变量的 CPD。


下一个主题数据挖掘万维网