高斯判别分析2025年6月20日 | 3 分钟阅读 机器学习中用于分类的监督学习算法有两种类型。
逻辑回归、感知机和其他判别式学习算法是判别式学习算法的例子。这些算法试图在学习过程中确定类别之间的边界。判别式学习算法可用于解决一个分类问题,以确定患者是否患有疟疾。然后检查边界,看新样本是否落在边界上,即 **P(y|X)**,也就是说,给定一个特征集 X,它属于类别 "y" 的概率是多少。 另一方面,生成式学习算法采用不同的方法。它们试图分别捕捉每个类别的分布,而不是寻找类别之间的边界。如前所述,生成式学习算法将分别检查受感染患者和健康患者的分布。然后,它将尝试单独学习每个分布的特征。当出现一个新样本时,会将其与两种分布进行比较,并分配给它最相似的类别,即在给定 **P(y)** 的情况下的 **P(X|y)**,这里的 P(y) 被称为类先验。 这些贝叶斯理论的预测被用于预测生成式学习算法。 ![]() 通过仅分析特定类别中的 **P(X|y)** 和 **P(y)**,我们可以确定 P(y|X),即考虑到一个样本的特征,它属于类别 "y" 的可能性有多大。 高斯判别分析是一种生成式学习算法,旨在确定每个类别的分布。它试图为每一类数据分别创建高斯分布。在使用生成式学习算法的情况下,如果结果接近其类别对应的等高线中心,则其可能性非常高。当我们远离等高线中心时,可能性会减小。下图说明了判别式和生成式学习算法之间的差异。 ![]() ![]() 让我们来看一个二元分类问题,其中所有数据集都是 **IID**(独立同分布)的。为了确定 **P(X|y)**,我们可以使用多元高斯分布来计算每个特定类别的概率密度方程。为了确定 P(y) 或每个类别的类先验,我们可以利用伯努利分布,因为二元分类中使用的所有样本数据可以是 0 或 1。 因此,一个样本的概率分布和类先验可以通过高斯和**伯努利分布**的通用模型来确定: ![]() 为了根据上述参数理解概率分布,我们可以构建似然公式,该公式是每个数据样本的概率分布与类先验的乘积(将概率分布视为乘积是合理的,因为所有数据样本都被认为是 IID)。 ![]() 根据似然估计的原则,我们需要选择参数以使似然函数最大化,如公式4所示。与其最大化似然函数,我们可以提升对数似然函数,这是一个严格递增的函数。 ![]() ![]() 在上述方程中,“**1{条件}**” 是指示函数,如果该条件成立则返回 1;否则返回零。例如,1{y = 1} 仅在数据样本的类别为 1 时返回 1。否则,它返回 0。同样,对于 1{y = 0},它仅在样本类别为 0 时返回 1,否则返回 0。 导出的参数可用于公式1、2和3,以发现整个数据样本的概率分布和类先验。计算出的值可以进一步相乘以确定似然函数,如公式4所示。如前所述,它是概率函数,即 P(X|y)P(y),被整合到贝叶斯公式中以计算 P(y|X)(即,对于给定的特征 'X' 确定数据样本的类型 'y')。 因此,高斯判别分析在数据量有限(比如几千个例子)的情况下表现得非常好,并且如果我们在数据分布方面的基本假设是正确的,它可能比逻辑回归更具鲁棒性。 下一主题演化算法简介 |
机器学习和人工智能 (AI) 是最先进和蓬勃发展的技术之一,影响着绝大多数行业。它是软件工程中最知名、最令人兴奋的领域之一,正在逐步发展。搜索引擎、聊天机器人、垃圾邮件过滤、欺诈检测等...
阅读 10 分钟
简介 遗传算法 (GA) 代表了一种令人兴奋和创新的计算机科学问题解决方法,其灵感来自自然选择和遗传学的思想。自然选择是遗传算法 (GA) 形式的基础,它属于更大的群体类别...
阅读 12 分钟
股票交易所一词是指一些公司股票被交易的场所。此类金融活动通过传统交易所和场外(OTC)市场进行,这些市场在规定的规则下运作。两者“股票交易所”……
阅读 19 分钟
使用 XGBoost (eXtreme Gradient Boosting) 非常简单,它使分类、回归和排名等监督任务变得简单。该框架依赖于梯度提升,这有助于解释为什么该模型被认为可靠且一致。由于它旨在实现可扩展性,XGBoost 适用于大型...
阅读 8 分钟
稀疏矩阵在机器学习中发挥着不可或缺的作用,尤其是在处理具有许多零值的超高维数据时。这减少了计算和内存使用,最大程度地减少了内存,并提高了处理大型数据集的速度。本文旨在汇集关于稀疏矩阵的所有内容:什么是...
阅读 13 分钟
作为数学的一个分支,它关注不确定性的量化。事件发生的概率定义为事件发生的可能性,如果可能发生的话。数学上,概率定义为:P (A) = ...
阅读 13 分钟
?打印模型摘要以了解神经网络的结构和参数至关重要。尽管 Keras 具有基本的 model.summary() 方法,但在 PyTorch 中,可以使用另一个命令实现相同的功能。在本文中,我们将指导您如何……
阅读 12 分钟
讽刺的定义是用于侮辱或嘲笑某人的言语或语言。它表现出愤怒或烦躁的个性。讽刺也可能被用来使谈话变得有趣。带有讽刺意味的对话可能以积极或有趣的方式传达负面情绪。听起来可能不是...
18 分钟阅读
在流体动力学迷人的领域中,湍流代表着一种高度复杂的现象,其特点是不可预测和混乱的流动。准确理解和建模湍流在航空、天气预报、能源生产和环境研究等不同领域具有重要意义。传统的湍流模型严重依赖于...
7 分钟阅读
机器学习是 IT 专业人员和商业巨头最热门的技术之一。几乎所有中小型公司都希望利用机器学习技术开展业务。ML 系统在医疗保健等不同领域具有各种颠覆性功能,……
7 分钟阅读
我们请求您订阅我们的新闻通讯以获取最新更新。
我们提供所有技术(如 Java 教程、Android、Java 框架)的教程和面试问题
G-13, 2nd Floor, Sec-3, Noida, UP, 201301, India