机器学习中的矩阵分解

2025 年 2 月 3 日 | 阅读 12 分钟

矩阵分解是数学应用于机器学习的最强大工具之一，用于将复杂的数据结构分解为易于处理的形式。在这方面，如果机器学习从业者能适当理解和应用矩阵分解技术，它们对于提高模型性能、计算效率以及洞察底层数据是不可或缺的。

矩阵分解简单来说就是将一个矩阵分解成若干个成分矩阵，这些成分矩阵相乘后可以重构出原始矩阵。这能轻易地简化许多数学运算，并应用于数据分析、降维或优化等多个领域。

基本上，矩阵分解旨在以某种形式表示矩阵，从而显式地揭示矩阵的内在属性，进而简化计算并提取有意义的模式。同时，有多种分解技术可供选择，用于不同类型的矩阵和应用，因此提供了灵活性和通用性。

矩阵分解的类型

现在，我们将介绍机器学习中几种关键的矩阵分解类型。

奇异值分解（SVD）：在众多矩阵分解方法中，奇异值分解（SVD）是最重要的方法之一。通过这个过程，一个给定的矩阵被分解成三个基本矩阵，这三个矩阵共同提供了一种分析和操作原始矩阵特性的途径。SVD 在降维过程中非常有用，有助于将数据集简化为其最重要的特征，并丢弃噪声或无关信息。它常用于主成分分析（PCA）中，将数据投影到低维空间，同时保留最大方差。此外，SVD 还应用于推荐系统，通过分解用户和物品之间的交互矩阵来识别决定偏好的潜在因素。SVD 的通用性很强，可以处理任何矩阵，这使得它在机器学习、图像处理和信号处理等许多领域都非常方便。
特征值分解：特征值分解，也称为谱分解，是一种应用于方阵的方法。特征值分解将一个矩阵分解为特征向量和特征值，这对于了解线性变换的属性非常重要。这种分解使我们能够推断出那些以线性方程为模型的系统的行为。在机器学习中，特征值分解是主成分分析的核心，该分析旨在寻找数据中方差最大的方向。通过分析协方差矩阵，这项技术是降维和特征提取的核心。它在稳定性分析、振动分析以及求解线性方程组中也扮演着重要角色，其中特征值提供了关于系统行为的非常重要的信息。尽管这种方法很有效，但它要求矩阵是方的且可对角化，因此其适用性可能比其他分解技术有限。
LU 分解：LU 分解是一种矩阵分解技术，其中一个矩阵被表示为一个下三角矩阵和一个上三角矩阵的乘积。这种分解在求解线性方程组、矩阵求逆、计算行列式以及其他一些相关运算中非常有用。由于其计算效率高和实现简单，数值分析中优先使用 LU 分解，特别是对于大型矩阵。它将一个矩阵表示为更简单的上三角和下三角形式的乘积，从而将复杂的操作分解为可管理的任务来解决线性系统。LU 分解用于高斯消元法，并通过分解系数矩阵来简化方程的求解。此外，求解大型线性系统的迭代方法也使用它。因此，它是科学计算和工程应用的重要工具之一。但是，它要求矩阵是方的且非奇异，在某些情况下，可能需要采用主元选择策略来处理数值不稳定性。
QR 分解：QR 分解是将一个矩阵分解为一个正交矩阵和一个上三角矩阵的乘积的方法。它在解决线性系统、特征值问题和最小二乘法拟合中有广泛应用。正交矩阵包含单位向量，确保了各种计算中的数值稳定性。特别是在数值方法中，QR 分解非常有用，因为它可以帮助在不直接求逆矩阵的情况下进行运算，从而增加了操作的稳定性和效率。它在通过格拉姆-施密特过程正交化向量以及回归分析中的优化算法中都有应用。其正交性保证了计算的稳定性；因此，QR 分解对于要求精度的应用来说是可靠的。处理非方阵的能力以及该方法的数值稳定性，使其在理论和实践领域都非常通用。
Cholesky 分解：Cholesky 分解是专为正定矩阵设计的一种特殊方法。它将一个矩阵分解为一个下三角矩阵及其转置的乘积，为求解线性方程组和矩阵求逆提供了一种简化的方法。特别地，这种分解在优化问题中非常方便，能同时提高计算效率和数值稳定性。Cholesky 分解的主要应用在于机器学习，特别是在包含协方差矩阵的模型中，如高斯过程和卡尔曼滤波器。它通过促进矩阵逆和行列式的快速计算，在概率建模和数据分析中扮演着关键角色。下三角矩阵中的元素是原始矩阵元素的平方根。这确保了计算的高效性和稳定性。尽管对于正定矩阵非常有用，但这种分解不适用于非正定矩阵的场景；因此，其应用仅限于特定情况。
非负矩阵分解（NMF）：非负矩阵分解是一种矩阵分解技术，它将一个输入矩阵分解为两个非负矩阵。它特别适用于由非负值组成的数据，例如图像、文本和音频数据。NMF 的应用包括聚类和主题建模，它可以发现数据中的潜在结构和模式。强加的非负性约束确保了分解出的成分保持可理解性；因此，它推动了 NMF 在许多需要人类理解的现实世界应用中的普及。在主题建模中，NMF 用于识别文档的主题。在这里，每个文档被表示为潜在主题的线性组合。由于该算法能够在没有任何正交性约束的情况下发现有意义的模式，它能找到可解释的、基于部分的表示。因此，NMF 成为从图像处理到生物信息学等广泛领域中一种相当通用的工具。

代码

现在，我们将构建一个模型，用于将新闻文章分为不同的类别，我们将使用矩阵分解作为主要技术。

导入库

#import important libraries
import numpy as np 
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt
import os

#EDA and preprocessing
import re
import nltk.corpus
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from string import digits

#modeling
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF
from sklearn.metrics import accuracy_score
import sklearn.metrics as metrics
import itertools
from sklearn.cluster import KMeans
from sklearn.model_selection import train_test_split

读取数据集

#label file paths
dir_path = '/kaggle/input/learn-ai-bbc/'
train_path = dir_path + 'BBC News Train.csv'
solution_sample_path = dir_path + 'BBC News Sample Solution.csv'
test_path = dir_path + 'BBC News Test.csv'

#import data
train = pd.read_csv(train_path)
solution_sample = pd.read_csv(solution_sample_path)
test = pd.read_csv(test_path)

EDA（探索性数据分析）

现在，让我们来看一下比赛提供的数据集。根据经验，在进行任何模型构建或模型训练之前，最好先查看一下你正在处理的数据。通常建议在进行任何探索性数据分析（EDA）之前，先将数据分成训练集和测试集，因为作为研究人员，你不希望因结果而产生偏见，这可能导致过拟合。因此，我们不会查看或试验所提供的测试数据，仅将其用于测试模型。

#look at what we are trying to submit 
solution_sample

输出

Matrix Decomposition in Machine Learning

我们需要创建一个包含已分类文章、文章ID（ArticleID）及其所属类别的数据框（dataframe）。我们还发现，每个文章ID都是唯一的，而类别则会重复出现。既然我们知道了最终目标的数据结构，那就让我们继续处理训练数据本身。

我们可以在下面的数据框中看到，我们有三列，分别是：

ArticleID：标识文章的唯一编号。

Test：文章标题和文本。

Category：用户分配给文章的类别。

# Checking the type of data
train.info()

输出

所有这些信息都如预期般呈现。我们有两个对象类型的列和一个整数类型的列（用于ID）。似乎没有缺失的行。由于我们处理的是文本数据，因此无法真正确定像 9999 或 0 这样的值是否是缺失值。在继续之前，让我验证一下数据中没有重复的文章。通过以下代码，我们能够知道我们有 1490 个唯一的 ID。此外，回想一下数据框将有 1490 行的事实，因为我们可以假定一篇文章是唯一的，我们可以继续形成一些令人放心的假设。我还检查了有多少个类别值。我们可以在下面看到有五个值：business（商业）、tech（科技）、politics（政治）、sport（体育）和 entertainment（娱乐）。

# Check for repeated articles
train['ArticleId'].nunique()

输出

我们首先想看的是几段文本，以了解它们在数据框中是如何保存的。为此，我们将查看第一行。我们可以看到文本以标题开头，然后是相当数量的文本，这应该是文章的正文。我们可以判断它已经经过某种程度的预处理，因为没有大写字符。我们也可以假设不会有拼写错误。大小写和拼写是自然语言处理中两个比较重要的元素。我们很庆幸数据已经以这种方式被处理过了。

# first row 
train['Text'][0]

输出

现在，在运行一些模型之前，让我们尽可能地将数据可视化。我们可以看到，总的来说，每个类别的条目数量大致相等。这很好，因为如果一个或两个类别在数据中严重不足或过多，可能会导致我们的模型产生偏见，和/或在部分或全部测试数据上表现不佳。

fig, ax = plt.subplots(figsize=(8, 5))
sns.histplot(
    data = train,
    x = 'Category',
    hue = 'Category',
    palette = 'colorblind',
    legend = False,
    ).set(
        title = 'Category Counts');

输出

现在，在文本数据处理中，需要使文本对计算机“可读”。我们通过移除标点符号来做到这一点。

移除停用词——常见的英语单词，如 'to', 'the', 'of' 等。

def clean_text(dataframe, text_col):
    '''
    A helper function that takes a dataframe 
    and removes punctuation and stopwords.
    '''
    #remove all punctuation
    dataframe['no_punct'] = dataframe[text_col].apply(lambda row: re.sub(r'[^\w\s]+', '', row))
    
    #remove numbers 
    dataframe['no_punct_num'] = dataframe['no_punct'].apply(lambda row: re.sub(r'[0-9]+', '', row))
    
    #remove stopwords
    stop_words = stopwords.words('english')
    dataframe['no_stopwords'] = dataframe['no_punct_num'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop_words)]))
    
    #remove extra spaces
    dataframe['clean_text'] = dataframe['no_stopwords'].apply(lambda x: re.sub(' +', ' ', x))
    return

#clean dataframe text column
clean_text(train, 'Text')

输出

此外，在清理了数据框的文本单元格之后，我们还将对文本进行分词和词形还原。分词意味着将一串单词分割成一个单词列表。例如，“He is a boy” 会被转换为 ['He', 'is', 'a', 'boy']。在分词中，每个词都被切分开，以便之后在训练模型时更容易使用。之后我们将对文本进行词形还原。可以选择词形还原或词干提取。对于这个项目，我选择了词形还原，因为它比词干提取保留了更多的信息。词形还原的一个例子是，将 'running', 'horses', 和 'adjustable' 这些词，还原为 'run', 'horse', 和 'adjust'。这保留了词语的大致含义，但能让模型更好地学习。此外，我们还要确保所有单词都是小写的。

# tokenize text function
wordnet_lemmatizer = WordNetLemmatizer()
def lemmatizer(text):
    ''' 
    A helper function to lemmatize an entire sentence/string
    '''
    lem = [wordnet_lemmatizer.lemmatize(word.lower()) for word in text] 
    return lem

def tokenize_lemmatize(dataframe, text_col):
    '''
    A helper function to tokenize then lemmatize the string.
    Also, add a column that counts the number of words in that string.
    '''
    dataframe['tokenized'] = dataframe.apply(lambda row: nltk.word_tokenize(row[text_col]), axis=1)
    dataframe['lemmatized'] = dataframe['tokenized'].apply(lambda string: lemmatizer(string))
    dataframe['num_words'] = dataframe['lemmatized'].apply(lambda lst: len(lst))
    return

下面是清理后我们看到的结果：每篇文章的词数。大多数文章大约有 200 个词。然而，如图所示，我们也有一些严重的异常值，达到了 750 多个词！实际上，我们将移除这些异常值，因为它们可能会在之后影响我们的模型，此外还会产生更多的特征或单词，需要在模型中进行计算。

# number of tokens (words) per article
fig, ax = plt.subplots(figsize=(15, 5))
sns.histplot(
    data = train, 
    x = 'num_words',
    palette = 'colorblind',
    ).set(
        title = 'Number of Words per Article');

输出

#remove outlier articles (longer than 750 words)
train = train[train['num_words'] < 750]
len(train)

输出

下面是每个类别词数的箱形图。在每个类别内部，我们也看到相当多的异常值，这次我们将保留它们。我们还看到，每个类别的平均词数相似，其中“科技”和“政治”类别的词数和方差比其他主题要多。

# words per category
fig, ax = plt.subplots(figsize=(15, 5))
sns.boxplot(
    data = train, 
    x = 'num_words', 
    y = 'Category',
    palette = 'colorblind'
    ).set(
        title = 'Number of Words Per Category');

输出

模型

在这里，我们将构建并训练我们的模型。

train_df = train.copy()

def predict(w_matrix):
    sortedW = np.argsort(w_matrix)
    predictions_number, maxValue = sortedW.shape
    predictions = [[sortedW[i][maxValue - 1]] for i in range(predictions_number)]
    topics = np.empty(predictions_number, dtype = np.int64)
    for i in range(predictions_number):
        topics[i] = predictions[i][0]
    return topics

def permute_label(ytdf,yp,n=5):
    """
    ytdf: labels dataframe object
    yp: clustering label prediction output
    Returns permuted label order and accuracy. 
    Example output: (1, 3, 4, 2, 0), 0.74 
    """
    perms = list(itertools.permutations([0, 1, 2, 3, 4]))    #create permutation list
    best_labels = []
    best_acc = 0 
    current = {}
    labels = ['business', 'tech', 'politics', 'sport', 'entertainment']
    for perm in perms:
        for i in range(n):
            current[labels[i]] = perm[i]
            if len(current) == 5:
                conditions = [
                    (ytdf['Category'] == current['business']),
                    (ytdf['Category'] == current['tech']),
                    (ytdf['Category'] == current['politics']),
                    (ytdf['Category'] == current['sport']),
                    (ytdf['Category'] == current['entertainment'])]
                ytdf['test'] = ytdf['Category'].map(current)
                current_accuracy = accuracy_score(ytdf['test'], yp)
                if current_accuracy > best_acc: 
                    best_acc = current_accuracy
                    best_labels = perm
                    ytdf['best'] = ytdf['test']
    return best_labels, best_acc

#create vectorizer
tfidvec = TfidfVectorizer(min_df = 2,
                          max_df = 0.95,
                          norm = 'l2',
                          stop_words = 'english')
tfidvec_train = tfidvec.fit_transform(train_df['clean_text'])

#create model
model_nmf = NMF(n_components=5, 
                init='nndsvda', 
                solver = 'mu',
                beta_loss = 'kullback-leibler',
                l1_ratio = 0.5,
                random_state = 101)
model_nmf.fit(tfidvec_train)

#view results
yhat_train = predict(model_nmf.transform(tfidvec_train))
order_label, accuracy = permute_label(train_df, yhat_train )

对于这个使用矩阵分解的模型，我发现以上是获得最高准确率的最佳参数组合。我还通过更改 TfidfVectorizer 和/或 NMF 模型的参数尝试了其他组合。特别地，我在 TfidfVectorizer 中调整了 min_df 和 max_df。

使用了 0.85、0.90、0.95 的 max_df 值。

这些分别使用了 0、1 和 2 的 min_df 值。

它使用 'frobenius' 和 'kullback-leibler' 作为 beta_loss。

它使用 'mu' 和 'cd' 作为求解器。

#show the best labels for the trained model 
dictionary_of_label = {4:'business', 2:'tech', 1:'politics', 0:'sport', 3:'entertainment'}
for i in range(5):
    print(f'{order_label[i]}:  {dictionary_of_label[order_label[i]]}')

输出

#first clean testing data as we did with the training data
clean_text(test, 'Text')
tfidvec_test = tfidvec.transform(test['clean_text'])
test_yhat = predict(model_nmf.transform(tfidvec_test))
#create a submission dataframe
test_predictions = pd.DataFrame(columns=['ArticleId', 'Category', 'yhat'])
test_predictions['ArticleId'] = test['ArticleId']
test_predictions['yhat'] = yhat_test
test_predictions['Category'] = test_predictions['yhat'].apply(lambda i: label_dict[i])

#delete columns unneeded for submission
test_predictions = test_predictions.drop('yhat', 1)
print(test_predictions.head(15))

输出

模型比较

我们被要求使用无监督学习，通过矩阵分解模型对文本文章进行分类。传统上，如果我们有预先标记的文本（我们确实有），监督模型在这种类型的数据上会表现得更好。因此，我们将把上面的无监督学习模型与下面的监督模型进行比较。由于没有指明要使用哪种监督模型，为了方便起见，让我们创建一个 KMeans 聚类模型。为了保险起见，让我们再次导入数据，因为我们将使用另一个新模型。

#import data
train = pd.read_csv(train_path)
test = pd.read_csv(test_path)

#clean data
clean_text(train, 'Text')

#split data into X and y
train_y = train['Category'].values
train_X = train['clean_text'].values

#create a new vectorizer for the supervised learning model
supervised_tfidfvec= TfidfVectorizer(min_df = 2,
                          max_df = 0.95,
                          norm = 'l2',
                          stop_words = 'english')
train_tfSuper = tfidfvec_supervised.fit_transform(train_X) 

#create a KMeans Model and train
means = KMeans(n_clusters = 5, 
                init = 'k-means++', 
                algorithm = 'full', 
                random_state = 101)
super_yhat_train= kmeans.fit_predict(train_tfSuper)

#get accuracy
train_y_df = pd.DataFrame(train_y, columns=['Category'])
order_label, accuracy = permute_label(train_y_df, yhat_train_super)
print('accuracy=', accuracy)
print(order_label, '\n')

#show label order
dictionary_of_label = {3:'business', 1:'tech', 4:'politics', 2:'sport', 0:'entertainment'}
for i in range(5):
    print(f'{order_label[i]}:  {dictionary_of_label[order_label[i]]}')

输出

现在，让我们在测试集上测试这个模型。同样，所有之前在训练集上做过的数据清理步骤，都需要在这里重复一遍。

看来我们的训练准确率达到了 93.69%，但测试准确率只有 62.99%。这似乎强烈表明我们的模型对训练数据过拟合，在对新数据进行预测时表现极差。如果我们想训练一个更强大的监督学习模型，可以使用集成方法和/或 K 折交叉验证技术，或者使用不同的模型，如决策树、随机森林、支持向量机等。然而，由于本课程专注于无监督学习技术，并且这是本项目的主要焦点，所以我们将停止对我们的 KMeans 模型与矩阵分解模型的比较。

下一个主题机器学习算法

机器学习中的矩阵分解

矩阵分解的类型

代码

导入库

读取数据集

EDA（探索性数据分析）

模型

模型比较

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

机器学习中的矩阵分解

矩阵分解的类型

代码

导入库

读取数据集

EDA（探索性数据分析）

模型

模型比较

相关帖子

计算峰度

聚类分析指南：应用、最佳实践

赤池信息准则 (AIC)

理解梯度裁剪

机器学习中的安置预测

Keras 中的 TimeDistributed 层

机器学习中的图像字幕生成

机器学习中的图像处理

半监督学习

提高 ML 模型准确性的方法

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器