ML 中用于聚类算法的不同方法类型2025年6月20日 | 阅读 4 分钟 聚类算法有很多种。由于它们并非都使用相同的模型进行聚类,因此不容易进行分类。在本教程中,我们将介绍最流行的聚类算法方法,因为已发表的聚类算法已超过100种。 基于分布的方法这是一种聚类模型,它根据数据点可能属于同一分布的概率来拟合数据。完成的聚类可以是正态分布,也可以是高斯分布。在固定数量的分布情况下,高斯分布可能更为普遍,所有将要出现的数据都将被纳入其中,以便最大化数据分布。这导致了如下图所示的分组。 ![]() 此外,基于分布的聚类生成的簇依赖于为数据精确指定的数学模型,这对于某些数据分布来说是一个高风险的假设。这种模型在处理合成数据以及不同大小的簇时表现良好。然而,如果不施加约束以降低模型的复杂性,该模型可能会出现问题。 例如: 使用多元正态分布的期望最大化算法是该算法的一个流行示例。 基于质心的方法这是一种最基本的迭代聚类算法,其中簇是根据信息点与簇中心的接近程度形成的。在这种情况下,簇的中心,即质心,的构建方式是使数据点与中心之间的距离最小化。这是NP-Hard问题中最基本的一种,因此解决方案通常是通过多次试验构建的。 例如: K-均值算法是该算法最著名的实例之一。 ![]() 该算法的主要问题在于我们必须在过程开始前定义 K 值。当簇是基于密度形成时,该算法也会遇到问题。 基于连通性的方法基于连通性模型的基本思想与质心模型相似,即根据数据点之间的距离来定义簇。该模型基于这样一个理念:距离较近的数据点比距离较远的数据点具有更相似的行为。 距离函数的选择是一个主观问题。它不是对数据集的简单划分;相反,它提供了一个在特定距离处合并的广泛簇阵列。这些模型易于理解,但缺乏可扩展性。 ![]() 例如: 层次聚类算法及其变体。 密度模型这种聚类模型将搜索数据空间,以找到该数据区域中具有不同数量数据点的区域。它将根据数据空间中存在的不同密度来分离不同的密度区域。 例如: DBSCAN 和 OPTICS。 ![]() 子空间聚类方法子空间聚类是一种无监督方法,旨在将数据点分组到簇中,使得一个簇中的所有数据点都位于一个低维线性子空间中。它是特征选择的一种扩展形式。子空间聚类需要一种搜索技术和评估标准;然而,基于子空间的聚类方法限制了评估标准的范围。子空间聚类算法将搜索定位到相关维度,并使其能够识别跨多个子空间存在的簇。子空间聚类最初是为了解决特定的计算机视觉问题而设计的,这些问题需要将子空间结构合并到数据中。不过,它在机器学习社区中正获得越来越多的关注。它被用于电影和社交网络推荐以及生物数据集中。子空间聚类引发了关于数据隐私的问题,因为许多这些应用处理的是敏感数据。数据点被认为是互不相干的,因为它只保护用户每个方面的独特隐私,而不是数据库用户的完整个人资料。 根据其搜索策略,有两种类型的子空间聚类。
结论在本教程中,我们讨论了用于聚类算法的不同类型的方法,这些方法可用于区分属性值。 下一个主题什么是一维卷积层 |
关联规则学习是一种无监督学习技术,它检查一个数据项对另一个数据项的依赖性,并进行相应映射以使其更有利可图。它试图在变量之间找到一些有趣的关系或关联...
阅读 3 分钟
? 人工智能和机器学习技术令人着迷的发展速度可能会让我们认为公司在提供 ML 产品方面的能力正在迅速增长。然而,ML 的内部流程必须赶上该领域的快速发展。然而,有一些...
阅读 8 分钟
这是一种高级统计学和数据科学,它处理以分布而非实际值或向量表示的数据。DDA 从分布的角度观察观测值,而不是像传统分析那样只关注孤立的点。它非常有用……
阅读 4 分钟
类别不平衡数据集是机器学习中的一个常见问题,尤其是在分类任务中。当一个类别中的实例数量显著超过其他类别中的实例数量时,就会出现这些数据集。例如,在欺诈检测中,欺诈交易通常比...
阅读9分钟
机器学习中有许多集成模型的方法,例如Bagging、Boosting和堆叠。堆叠是最流行的集成机器学习技术之一,用于预测多个节点以构建新模型并提高模型性能。堆叠使我们能够训练...
7 分钟阅读
交通预测一直是交通规划师和城市管理者面临的挑战。随着城市的不断发展和道路上车辆数量的增加,对准确可靠的交通预测的需求变得更加紧迫。近年来,机器学习已显示出...
阅读 12 分钟
隐马尔可夫模型(HMM)是一种概率模型,常用于机器学习领域,用于语音识别、自然语言处理和生物信息学等任务。它们是模拟数据序列的流行选择,因为它们可以有效地捕获潜在结构……
阅读 8 分钟
什么是金融科技?金融科技是“金融创新”的合成词,指的是巧妙地利用创新来提供和改进金融服务。这个广泛而蓬勃发展的行业包括旨在增强和简化各种金融部门组成部分的各种技术应用、产品和服务……
阅读 6 分钟
黄金一直以来都是全球人们流行的投资选择。它是一种避险资产,可以抵御经济和政治不确定性。因此,准确预测金价对投资者来说可能非常有益。机器学习已成为一种强大的技术……
阅读 6 分钟
反向传播是训练人工神经网络的关键算法,使其能够学习数据中复杂的模式和关系。该系统从一个前向传递开始,其中输入数据穿过网络,在每个层经历加权求和和激活函数……
14 分钟阅读
我们请求您订阅我们的新闻通讯以获取最新更新。
我们提供所有技术(如 Java 教程、Android、Java 框架)的教程和面试问题
G-13, 2nd Floor, Sec-3, Noida, UP, 201301, India