Python GloVe的全面实现

2025年3月3日 | 阅读 5 分钟

在本教程中，我们将学习 GloVe 以及 Python 实现。让我们来探讨这个主题。

本教程包含以下内容

引言
理解 GloVe：概述
设置环境
结论

引言

在不断发展的自然语言处理 (NLP) 领域，词嵌入已成为理解和表示单词之间语义联系的强大工具。在众多可用技术中，GloVe (Global Vectors for Word Representation) 以其捕捉全局统计数据和局部上下文的能力脱颖而出。GloVe 由斯坦福大学的研究人员开发，结合了基于计数和基于预测的方法的优点，使其成为许多 NLP 任务的首选。

理解 GloVe：概述

在直接进入 GloVe 实现之前，了解 GloVe 的原理很重要。该方法将大量文本中的词共现统计数据转换为词向量空间，其中单词之间的距离反映了它们的语义相关性。与其他模型（如 Word2Vec，它根据上下文预测单词）不同，GloVe 构建了一个全局词-上下文矩阵并对其进行因子分解以生成词向量。

环境设置

要开始，我们需要一些必要的库。确保我们已经安装了Python，以及 NumPy、SciPy 和 matplotlib，用于高效的数值运算和可视化。我们可以使用 pip 安装它们。

步骤 1：数据准备

在实现 GloVe 之前，我们需要做的第一件事是准备我们的文本数据。我们需要大量的文本数据来检索词向量。

步骤 2：构建共现矩阵

现在我们需要构建一个共现矩阵，它存储在定义窗口大小内频繁一起出现的词对的出现次数。

步骤 3：加权和平滑

为了管理词对的不同重要性，GloVe 采用了一种加权函数，该函数会削弱频繁词的贡献，并增强稀有但重要的共现对。

步骤 4：初始化参数

现在我们随机初始化词向量和偏差项。这些向量将在训练过程中进行优化。

步骤 5：训练 GloVe 模型

GloVe 算法的原理主要涉及最小化加权最小二乘目标函数。我们使用随机梯度下降 (SGD) 来相应地更新词向量和偏差的值。

步骤 6：提取最终词向量

在词嵌入的最后一步，每个词向量与其上下文向量相加。

步骤 7：模型评估

最后，我们可以通过探索词类比或将它们应用于下游 NLP 任务来分析生成的词向量的质量。使用 t-SNE 等技术可视化嵌入也可以提供有关模型捕捉语义关系的程度的见解。

实施

 
import re
import numpy as np
from collections import Counter
from itertools import permutations
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
# Preprocess the text
def preprocess_text(text):
    text=text.lower()
    text=re.sub(r'\d+','',text)
    text=re.sub(r'\s+',' ',text)
    text=re.sub(r'[^\w\s]', '',text)
    return text.strip()
# Sample corpus 
corpus = """ A Comprehensive Python Implementation of GloVe Tutorial in JavaTpoint"""
processed_corpus = preprocess_text(corpus)
words = processed_corpus.split()
# Build the co-occurrence matrix
window_size = 5
cooccurrence_matrix = Counter()
for i, word in enumerate(words):
    start = max(i - window_size, 0)
    end = min(i + window_size + 1, len(words))
    context = words[start:i] + words[i+1:end]
    for context_word in context:
        cooccurrence_matrix[(word, context_word)] += 1
vocab = {word: i for i, word in enumerate(set(words))}
# Weighting and smoothing
def weighting_function(x, x_max=100, alpha=0.75):
    if x < x_max:
        return (x / x_max) ** alpha
    return 1
X_max = 100
alpha = 0.75
weights = {pair: weighting_function(count, X_max, alpha) for pair, count in cooccurrence_matrix.items()}
# Initialize parameters
embedding_dim = 50
W = np.random.rand(len(vocab), embedding_dim)
W_context = np.random.rand(len(vocab), embedding_dim)
b = np.random.rand(len(vocab))
b_context = np.random.rand(len(vocab))
# For storing gradients
gradsq_W = np.ones((len(vocab), embedding_dim))
gradsq_W_context = np.ones((len(vocab), embedding_dim))
gradsq_b = np.ones(len(vocab))
gradsq_b_context = np.ones(len(vocab))
# Training the GloVe model
learning_rate = 0.05
epochs = 100
for epoch in range(epochs):
    for (word_i, word_j), count in cooccurrence_matrix.items():
        i, j = vocab[word_i], vocab[word_j]
        weight = weights[(word_i, word_j)]
        cost = np.dot(W[i], W_context[j]) + b[i] + b_context[j] - np.log(count)
        f_cost = weight * cost
        W[i] -= learning_rate * f_cost * W_context[j] / np.sqrt(gradsq_W[i])
        W_context[j] -= learning_rate * f_cost * W[i] / np.sqrt(gradsq_W_context[j])
        b[i] -= learning_rate * f_cost / np.sqrt(gradsq_b[i])
        b_context[j] -= learning_rate * f_cost / np.sqrt(gradsq_b_context[j])
        gradsq_W[i] += (f_cost * W_context[j]) ** 2
        gradsq_W_context[j] += (f_cost * W[i]) ** 2
        gradsq_b[i] += f_cost ** 2
        gradsq_b_context[j] += f_cost ** 2
# Extracting the final word vectors
word_vectors = W + W_context
# Visualizing the embeddings using t-SNE
def plot_embeddings(vocab, vectors, perplexity=5):
    tsne=TSNE(n_components=2,perplexity=perplexity)
    reduced=tsne.fit_transform(vectors)
    plt.figure(figsize=(10,10))
    for i, label in enumerate(vocab):
        x, y = reduced[i, :]
        plt.scatter(x, y)
        plt.annotate(label, (x, y))
    plt.show()
# Adjust the perplexity to be less than the number of words in your vocabulary
plot_embeddings(list(vocab.keys()), word_vectors, perplexity=min(5, len(vocab)-1))   

输出

A Comprehensive Python Implementation of GloVe

代码解释

下面是代码的简单解释

文本预处理：通过将文本转换为小写、去除数字、多余空格和标点符号来清理和处理文本数据。
构建共现矩阵：代码扫描文本，计算在一定窗口大小内（例如，彼此相隔五个词以内）单词一起出现的频率。这些计数存储在一个矩阵中，其中每对单词都有一个相应的计数。
加权和降噪：为了赋予词对不同的重要性，应用了加权函数。该函数使稀有但有意义的词对更重要，并减少了非常频繁的词对的影响。
初始化词向量：词向量（将代表每个单词）和一些相关参数用随机值初始化。这些向量将在训练期间进行调整。
训练模型：代码然后使用一种称为随机梯度下降 (SGD) 的过程来训练 GloVe 模型。这包括迭代地更新词向量以最小化预测词共现与实际词共现之间的差异。
提取最终词向量：训练后，通过将词向量与其上下文向量混合来生成最终的词嵌入（词向量）。
使用 t-SNE 可视化：然后使用一种称为 t-SNE 的技术对最终词向量进行可视化，该技术将数据的维度最小化到 2D，以便我们可以表示和观察相似单词的组合方式。调整 `perplexity` 参数以确保其适合词汇表中的单词数量。

结论

在本模块中，我们已经看到了 Python 中的 GloVe 实现，它通过代码示例和相关解释，让我们对词嵌入如何捕捉文本中的语义关系有了更深入的了解。

下一个主题Python 中的共识聚类实现

Python GloVe的全面实现

引言

理解 GloVe：概述

环境设置

实施

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

其他

Python GloVe的全面实现

引言

理解 GloVe：概述

环境设置

实施

结论

相关帖子

Python中的base64.b64decode()

Python中的Oracle数据库连接

在Pandas DataFrame中将NaN值替换为零

在Python中按行拆分Pandas DataFrame

C#和Python的区别

获取Python中所有空目录的列表

Python中的累积分布

使用Python requests发送带有标头和主体的POST请求

使用 Python NLTK 进行自然语言处理 (NLP)

Python中的模幂运算

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器