NLP 中的连续词袋模型 (CBOW)17 Mar 2025 | 4 分钟阅读 连续词袋模型(CBOW)是一种用于自然语言处理的神经网络模型。它可以用于多种任务,如语言翻译和文本分类。它用于根据周围的词来预测词。我们可以使用随机梯度下降等不同的优化算法在大型数据集上训练这个模型。CBOW模型在训练后会产生数值向量,称为词嵌入。词嵌入用于将词表示为数值向量。 Word2vec是一种基于神经网络的方法,用于创建词的长的向量表示,这些向量包含其上下文含义和关联。连续词袋模型是实现Word2vec的主要方法。 连续词袋模型简介连续词袋模型是一种用于生成词嵌入的自然语言处理技术。词嵌入对于许多NLP任务都很有用,因为它们代表了语言中词语之间的语义和结构连接。CBOW是一种基于神经网络的算法,它根据上下文词来预测目标词。它是一种无监督方法,从无标签数据中学习。它可以用于情感分析、机器翻译和文本分类。 周围词的窗口作为连续词袋模型的输入,然后预测窗口中心的目标词。该模型基于文本或词语在海量数据集上进行训练。它从先前的数据和输入数据的模式中学习。该模型可以与其他自然语言处理技术结合使用,例如skip-gram模型,以增强自然语言处理任务的性能。 CBOW模型训练以改变隐藏层神经元的权重,以生成最佳的目标词输出。该模型一次性有效地快速预测输出,称为一次性学习。该模型的主要目标是开发复杂的词表示,其中语义相似的词在嵌入空间中彼此靠近。 连续词袋模型架构CBOW模型试图分析周围词的上下文来预测目标词。我们来看一个短语:“Today is a rainy day.”(今天是个下雨天。)该模型将这个句子分解为词对(上下文词和目标词)。词对看起来像([today, a], is)、([is, rainy], a)、([a, day], rainy)。模型将使用这些词对和窗口大小来预测目标词。 ![]() 输入层将由上下文词的数量和相应的窗口大小构成。例如,如果使用四个上下文词来预测一个目标词,那么四个1 * W(W是窗口大小)的输入向量将被用作输入层。隐藏层将接收输入向量,并将其与一个W*N矩阵相乘。隐藏层的输出(1 * N)将进入求和层,在该层中,元素首先按元素相加,然后进行激活以获得输出。 ![]() 让我们使用Python实现连续词袋模型 Python提供了一个名为gensim的模块,用于自然语言处理,它提供了各种嵌入模型。 在Python中安装gensimCBOW模型实现步骤1:库和数据 我们将导入所有库,然后加载我们的数据。我们使用了一个名为“brown”的NLTK语料库。 代码 我们已经导入了gensim模型和Word2Vec词汇表。此外,我们还使用NLTK及其语料库。 我们已从NLTK模型下载了brown语料库,并将其用作输入数据。 步骤2:模型初始化 代码 我们使用gensim库的Word2Vec类创建一个CBOW模型,并配置一些模型的超参数,例如最小词频、嵌入向量大小、窗口大小和训练算法(CBOW = 0)。 步骤3:模型训练 代码 在训练期间,CBOW模型会分析输入数据,并调整隐藏层和输出层单元的偏差和权重,以减少预测的实际目标词嵌入与实际目标词之间的误差。这被称为反向传播。更多的训练轮次会给出更准确的输出。 步骤4:词嵌入 代码 在此步骤中,模型正在学习词嵌入。 步骤5:检查余弦相似度 代码 输出 The Cosine Similarity between 'girl' and 'boy': 0.61204993724823 我们将计算两个词之间的余弦相似度。它将告诉我们这两个词在意义上有多相似。 我们可以分析词语及其嵌入之间的相似性。意义或上下文相似的词应该彼此靠近。 |
引言 多类分类术语用于目标是将输入样本分配到三个或更多离散类别之一。这个问题在机器学习中很常见,在图像识别、自然语言处理、生物信息学等领域都有应用...
7 分钟阅读
人工智能的演进带来了知识和处理各种事实形式的巨大进步。近年来最突破性的趋势之一是 OpenAI 的 CLIP(对比语言-图像预训练),这是一个连接文本和视觉数据之间鸿沟的多模态模型。通过结合……
阅读 10 分钟
Vaswani 等人在论文“Attention is All You Need”中给出的 Transformer 模型已成为自然语言处理 (NLP) 的新王者。因此,Transformer 的主要组成部分之一是所谓的注意力机制,它使模型能够确定如何...
11 分钟阅读
操作真实阅读系统的超参数的期望对于系统学习模型的整体性能至关重要。选择合适的超参数对模型的准确性和泛化能力有巨大影响。然而,由于搜索区域是高维且非凸的,因此找到...
阅读 8 分钟
迁移学习是一种深度学习中的强大技术,当一个用于解决一个问题的模型被重新用作一个相似但不同的问题的起点时。它利用了先前训练的模型所获得的经验,从而可以更快地……
阅读 12 分钟
?打印模型摘要以了解神经网络的结构和参数至关重要。尽管 Keras 具有基本的 model.summary() 方法,但在 PyTorch 中,可以使用另一个命令实现相同的功能。在本文中,我们将指导您如何……
阅读 12 分钟
在大数据时代,企业和组织被海量数据所淹没。从中提取有价值的结论非常复杂,传统的分析技术常常被证明是无效的。机器学习是一种最先进的技术,它彻底改变了我们分析数据的方式...
阅读 4 分钟
机器学习(ML)正在重塑营销人员与目标受众互动、优化活动和驱动转化的方式。通过利用数据驱动的见解和预测分析,营销人员可以创建个性化的报告,自动化重复性任务,并做出更明智的决策。本文探讨了机器学习如何塑造...
阅读 8 分钟
在不断变化的机器学习领域,对复杂而准确的模型的需求是持续不断的。在这种追求中,受试者工作曲线 (AUC-ROC) 区域成为一个灯塔,指明了更好地评估和比较二元分类模型的方法。AUC-ROC 曲线包含了……
阅读 6 分钟
互补朴素贝叶斯(CNB)算法 朴素贝叶斯算法是众多非常流行且常用的机器学习算法之一,用于分类。朴素贝叶斯算法有多种应用方式,例如高斯朴素贝叶斯、多项式朴素贝叶斯等。互补...
阅读 6 分钟
我们请求您订阅我们的新闻通讯以获取最新更新。
我们提供所有技术(如 Java 教程、Android、Java 框架)的教程和面试问题
G-13, 2nd Floor, Sec-3, Noida, UP, 201301, India