用于机器学习的稀疏矩阵

2025年6月19日 | 阅读 12 分钟

稀疏矩阵在机器学习中发挥着不可或缺的作用，尤其是在处理具有许多零值的高维数据时。这可以减少计算量和内存使用量，最小化内存占用，并提高处理大型数据集的速度。本文旨在全面介绍稀疏矩阵：它们是什么，在机器学习中的用途，以及对可扩展高效建模的贡献。

稀疏矩阵是一种矩阵，其中大部分元素是零；而稠密矩阵则包含大部分非零元素。稀疏矩阵的实际应用通常出现在自然语言处理（NLP）、计算机视觉和推荐系统中，这些领域包含大量数据，其中包含大量零。稀疏矩阵在内存方面更轻量，因为它只存储非零元素的位置和值，从而优化了内存和功耗。

稀疏矩阵在机器学习中至关重要，因为它们具有内存和计算效率，尤其是在处理具有许多零的大型数据集时。通过仅存储非零值，它们可以显著减少内存使用并加快计算速度，因为算法可以跳过零。这使得矩阵乘法等运算更快。稀疏矩阵还优化了存储，能够更好地管理NLP和大数据等领域中常见的海量数据集。

处理稀疏矩阵

使用 Python 的 scipy.sparse 模块有多种处理稀疏矩阵的方法。以下是一些广泛使用的稀疏矩阵格式：

Compressed Sparse Row (CSR)：这是最常用的格式之一。压缩稀疏行（CSR）格式以一种天然支持高效行切片和快速矩阵向量乘法的方式组织数据。因此，它适用于频繁的基于行的操作和大规模计算。
Compressed Sparse Column (CSC)：CSC 格式针对列切片进行了优化，并支持高效的矩阵分解。因此，当频繁访问列或转换矩阵时，它非常适用。
Dictionary of Keys (DOK)：对于动态构建和灵活的元素修改，字典键（DOK）格式非常有用。将矩阵表示为行和列坐标的字典意味着可以直接添加或修改值。这使得 DOK 成为增量构建稀疏矩阵的便捷选择，尽管一旦矩阵完成，可能需要将其转换为其他格式以获得最佳操作。
Coordinate List (COO)：坐标列表（COO）格式在初始化稀疏矩阵时方便且流行。COO 格式存储每个元素及其行和列索引，因此从原始坐标数据构建稀疏矩阵非常容易。COO 格式的矩阵通常会转换为 CSR 或 CSC 以进行后续操作，因为它不提供优化的操作。

稀疏矩阵在机器学习中的应用

稀疏矩阵在机器学习领域的不同领域得到了广泛应用，包括但不限于以下方面：

自然语言处理 (NLP)：在 NLP 中，数据通常是文本文档，以极高维空间的向量形式表示，每个维度对应词汇表中的不同元素。例如，词袋模型或 TF-IDF 表示中的大部分条目都是零，因为文档只包含整体词汇表的一小部分。稀疏矩阵通过仅存储非零计数来支持高效处理这些大型特征空间。
推荐系统：最频繁的用户-项目交互将保留在稀疏矩阵中，因为用户几乎不可能与所有项目进行交互，因此大部分条目将为零。这些稀疏矩阵有助于高效地维护此数据结构，从而以最小的存储要求进行推荐。
图像处理：图像数据也可以表示为矩阵，其中像素值构成条目。在某些图像（如二值图像或阈值图像）中，大部分像素条目为零。因此，稀疏矩阵可用于以节省内存并加速处理的方式存储图像数据，例如，在将模式识别或压缩算法应用于图像时。
图数据表示：在机器学习中，图通常表示为邻接矩阵。那些稀疏的图（即，大多数节点只有少量连接）通常最好使用稀疏矩阵表示，这样无需存储不必要的零，从而实现图算法的可扩展性。

机器学习中稀疏矩阵的挑战

在使用稀疏矩阵时，需要考虑各种挑战和注意事项。

有限的操作：稀疏矩阵可能使某些矩阵操作比预期的效率低下或更加复杂。并非所有算法都支持稀疏数据，通常需要特殊技术或库。例如，特定的分解和一些转换可能不像处理普通全尺寸稀疏矩阵那样容易执行。
模型兼容性：并非所有机器学习模型都能够处理稀疏矩阵。虽然线性模型在数据非常稀疏时不会损失太多性能，但更复杂的模型（如神经网络）可能会出现问题，除非它们是专门为稀疏输入设计的。基于所有元素交互的模型在稀疏数据上表现可能较差。
转换开销：即使是稀疏和稠密格式之间，或不同稀疏格式之间的简单转换，也会产生计算开销。每种格式（如 CSR 或 CSC）都针对特定任务进行了优化，格式之间的转换通常会影响管道的速度和效率。
数据操作的复杂性：稀疏矩阵可能会增加简单数据操作的复杂性，而这些操作在索引或切片时非常常见。由于数据和索引是分开存储的，因此与稠密矩阵相比，访问或修改值可能更加复杂，使得数据操作更具挑战性。
某些模型的信息精度损失：如果零条目对特定任务有信息量，那么稀疏矩阵中可能会丢失重要信息。虽然稀疏格式对大多数任务都非常高效，但如果零值有意义，它们的缺失可能会严重降低模型性能。

现在，我们将通过稀疏矩阵来演示内存使用量的减少。

稀疏矩阵的内存使用量减少

该数据集对于可用的 16 GB 内存来说太大了。具体来说，训练输入由 105,942 列和 228,942 行组成，总计 97 GB。另一方面，训练目标占 105,942 列和 23,418 行，约为 10 GB。测试输入则占 55,935 列和 228,942 行，总计 13 GB。由于数据量巨大，无法一次性全部加载到内存中。然而，数据本身包含大量零，因此具有高度稀疏性。

我们无法加载整个数据集。因此，为了研究数据集的稀疏性，我们只取前 5000 行，以便在内存限制内进行分析。

 
import os
import numpy as np
import pandas as pd
import scipy.sparse as sps
from tqdm import tqdm as tqdm
import gc

Dir_Data = "/kaggle/input/open-problems-multimodal/"

SUBMISSON = os.path.join(Dir_Data,"sample_submission.csv")

Ids_Eval = os.path.join(Dir_Data,"Ids_Eval.csv")

metadata_FPCEll = os.path.join(Dir_Data,"metadata.csv")

input_train SFP_CITE_ = os.path.join(Dir_Data,"train_cite_inputs.h5")
target_trainSFP_CITE_ = os.path.join(Dir_Data,"train_cite_targets.h5")
TEST_INPUTSFP_CITE_ = os.path.join(Dir_Data,"test_cite_inputs.h5")

input_train SFP_MULTIOME_ = os.path.join(Dir_Data,"train_multi_inputs.h5")
_target_trainSFP_MULTIOME = os.path.join(Dir_Data,"train_multi_targets.h5")
TEST_INPUTSFP_MULTIOME_ = os.path.join(Dir_Data,"test_multi_inputs.h5")

SUBMISSIONFP_ = os.path.join(Dir_Data,"sample_submission.csv")
FP_Ids_Eval = os.path.join(Dir_Data,"Ids_Eval.csv")

datadf = pd.read_hdatadf(input_train SFP_MULTIOME_, start=0, stop=5000)

datadf.info(memory_usage='deep')  

输出

现在，我们将计算每列中的非零值数量。

 
nvz = datadf.astype(bool).sum()
nvz.sort_values()   

输出

可以通过计算非零值占总值的比例来确定 DataFrame 的整体稀疏性。

 
nvz_total = nvz.sum()
val_total = datadf.shape[0] * datadf.shape[1]
nvz_total / val_total   

输出

 
0.021427460230101947

由于非零值的数量仅占加载数据集总量的 2%，因此我们可以轻松地说该数据集非常稀疏。因此，数据集的其余部分也应如此；如果我们使用不同的数据结构，就可以消除这种内存浪费。

 
del datadf, nvz, nvz_total, val_total
gc.collect()   

输出

内存优化

Multiome 中的数据本质上是稀疏的，而稀疏矩阵是处理内存使用效率最高的方式，可以让我们以更少的内存开销加载数据。更具体地说，CSR 矩阵通过三个一维数组在内存使用方面是最佳的，同时还具有与矩阵稀疏性相关的某些特殊结构。数据数组仅包含非零元素，并以最紧凑的形式存储，直接对应于数据的实际值。索引数组的形状与数据数组相同；它包含每个非零值的列索引。然后，ptr_ind 数组通过标记数据数组和索引数组中每个行的边界，方便地访问行。从给定的数据数组中获取行 `i` 的所有条目就像在数据数组中切片索引 `ptr_ind[i]` 到 `ptr_ind[i+1]` 之间一样。索引数组也是如此。由于这是一个内存密集型数据集 Train-Multi-Inputs，我们可以通过分块数据按顺序构建这三个数组，从而在内存限制内管理大型数据集。

为了进一步优化性能，我们还在 Cython 代码中计算了 ptr_ind 数组，这可以将处理时间减少几个数量级，因为它使得行索引的压缩最优化，从而有效将时间缩短一半。

 
%load_ext Cython

%%cython
cimport numpy as np
import numpy as np
from tqdm import tqdm, trange
import cython
cimport cython


ctypedef np.int64_t INT64_t

@cython.boundscheck(False)
@cython.wraparound(False)
cpdef np.ndarray[INT64_t, ndim=1] create_ptr_ind(INT64_t[:] row_index, int pos_start, int nrows):
    cdef int shape = row_index.shape[0]
    res = np.zeros(nrows, dtype=np.int64)
    cdef INT64_t[:] res_view = res
    
    cdef int i
    cdef int curr_row = 0
    cdef int prev = row_index[0]
    
    for i in range(shape):
        if row_index[i] != prev:
            curr_row += 1
            res_view[curr_row] = i
            prev = row_index[i]
    # res_view[curr_row + 1] = shape
    return res + pos_start   

输出

 
def csr_array_create(file_path_h5):
    def size_check(xs, ys, datas):
        return (xs.nbytes + ys.nbytes + datas.nbytes) * 1e-9

    print(f"\n\nProcessing File {file_path_h5}")
    barp = tqdm()

    # Initializing the Variables
    size_chunk = 1000 # Keep it low
    rows_loaded = size_chunk
    start = 0
    pos_start = 0
    pointer_file = 0

    # Initialize CSR arrays
    ptr_ind = np.array([], dtype=np.int64)
    index = np.array([], dtype=np.int32)
    s_data = np.array([], dtype=np.float32)
    
    prefix_filename = file_path_h5.split('/')[-1].replace('.h5', '')

    while size_chunk == rows_loaded:

        # Check the current size: if the total sum of sizes is> 7GB, then save three arrays and re-initialize them
        size_gb = size_check(ptr_ind, index, s_data)
        if size_gb > 7.0:
            barp.set_description(f"Total size is {size_gb}. Saving ..")
            np.save(f"{prefix_filename}_ptr_ind_{pointer_file}.npy", ptr_ind)
            np.save(f"{prefix_filename}_index_{pointer_file}.npy", index)
            np.save(f"{prefix_filename}_data_{pointer_file}.npy", s_data)
            # Re-initialize
            ptr_ind = np.array([], dtype=np.int64)
            index = np.array([], dtype=np.int32)
            s_data = np.array([], dtype=np.float32)
            # Increment pointer
            pointer_file += 1

        barp.set_description("Reading .h5 chunk")
        datadf = pd.read_hdatadf(file_path_h5, start=start, stop=start+size_chunk)
        barp.set_description("Extracting non-zero values")
        coords_x, coords_y = datadf.values.nonzero()
        data_tmp = datadf.values[datadf.values != 0.0]

        rows_loaded = datadf.shape[0]

        # Convert types
        coords_y = coords_y.astype(np.int32, copy=False)
        data_tmp = data_tmp.astype(np.float32, copy=False)

        # Compress coords_x
        barp.set_description("Compressing rows values")
        coords_x = create_ptr_ind(coords_x, pos_start=pos_start, nrows=rows_loaded)

        gc.collect()

        # Updating the variables
        barp.set_description("Update variables")
        pos_start += coords_y.shape[0]
        start += size_chunk
        # Appending the data at the end of each array
        ptr_ind = np.hstack((ptr_ind, coords_x))
        index = np.hstack((index, coords_y))
        s_data = np.hstack((s_data, data_tmp))

        barp.update(rows_loaded)

    print('Done. Save last files')
    np.save(f"{prefix_filename}_ptr_ind_{pointer_file}.npy", ptr_ind)
    np.save(f"{prefix_filename}_index_{pointer_file}.npy", index)
    np.save(f"{prefix_filename}_data_{pointer_file}.npy", s_data)
    
    del ptr_ind, index, s_data   

我们可以向数组添加最后一个元素，它表示索引或数据数组的长度，因为 ptr_ind 数组的形状是 (行数)，而不是 (行数 + 1)。

 
Number_ROWS  = 105942
Number_COLS  = 228942

input_train  = sps.load_npz('../input/open-problems-msci-multiome-sparse-matrices/train_multiome_input_sparse.npz')

def size_get (m_sparse ):
    size_gb = (m_sparse .index.nbytes + m_sparse .ptr_ind.nbytes + m_sparse .data.nbytes) * 1e-9
    return f"Size: {size_gb} GB"
size_get (input_train )   

输出

其他 Multiome 文件（如 target_trains 和 test_inputs）也可以以更少的内存使用量保存。许多最先进的模型都可以使用稀疏矩阵作为训练数据，这加速了计算，并避免了繁琐且缓慢的迭代器。

现在，我们也可以使用稀疏矩阵对稀疏矩阵相关数据进行 EDA。

使用稀疏矩阵进行 EDA

稀疏矩阵在这方面非常有用，尤其是在处理 Multiome 数据时，因为 Multiome 数据集中 98% 的单元格包含零。将数据编码为稀疏矩阵可以节省大量内存。稀疏表示可以更有效地利用内存；内存需求低于 8GB，而不是稠密格式所需的约 90GB；这使得可以将完整的训练数据加载到内存中。现在，让我们通过 AmbrosM 来实际操作，我们将介绍一种处理 Multiome 数据的更优方法，并为 Kaggle 竞争者提供稀疏与稠密数据表示的直观比较。与 AmbrosM 的笔记本相比，关键区别在于数据以稀疏 CSR 格式呈现，并且 PCA 或 TruncatedSVD 应用于整个训练集，而不是仅限于 6000 行 x 4000 列的选定子集。

保留了 16 个组件，而不是 AmbrosM 笔记本中的 4 个，并且 Ridge 回归应用于 50,000 行，而不是 6,000 行。尽管此笔记本处理的数据量更大，但仅需约 10 分钟即可完成，而 AmbrosM 的方法需要一个小时。竞赛数据已预先编码为稀疏矩阵，可直接用于 Multiome 预测，而 CITEseq 预测则来自 VuongLam 的公开笔记本，目前该笔记本仍保持最高评分。

 
import numpy as np
from colorama import Fore, Back, Style
from matplotlib.ticker import MaxNLocator
import os, gc, pickle
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.pipeline import make_pipeline, Pipeline
from sklearn.linear_model import Ridge, LinearRegression, Lasso
from sklearn.metrics import mean_squared_error
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.model_selection import KFold
from sklearn.preprocessing import StandardScaler, scale
from sklearn.decomposition import PCA, TruncatedSVD
from sklearn.dummy import DummyRegressor


import scipy
import scipy.sparse   

以下函数计算 true_y 和 pred_y 之间每行的皮尔逊相关系数，然后对所有这些相关系数取平均值。

 
 def correlation_score(true_y, pred_y):
    "We will assign a score based on the competition's regulations. 
 It is thought that the forecasts are not always accurate. Yields the mean of the Pearson correlation coefficient for every sample.

         """
    if type(true_y) == pd.DataFrame: true_y = true_y.values
    if type(pred_y) == pd.DataFrame: pred_y = pred_y.values
    if true_y.shape != pred_y.shape: raise ValueError("Shapes are different.")
    corrsum = 0
    for i in range(len(true_y)):
        corrsum += np.corrcoef(true_y[i], pred_y[i])[1, 0]
    return corrsum / len(true_y)  

首先，我们加载 Multiome 的所有训练输入数据。这应该不到一分钟。

 
%%time
input_train = scipy.sparse.load_npz("../input/multimodal-single-cell-as-sparse-matrix/train_multi_inputs_values.sparse.npz")   

输出

PCA

我们无法直接将 PCA 应用于稀疏矩阵，因为 PCA 首先需要“中心化”数据，这会破坏稀疏性。我们改用 TruncatedSVD，它基本上是“无中心化的 PCA”。我们可能需要对其进行一些更好的归一化，但出于简化的目的，我们将省略它。

 
%%time
pca = TruncatedSVD(n_components=16, random_state=1)
input_train  = pca.fit_transform(input_train s)   

输出

然而，Sklearn 的 Ridge 回归不接受稀疏矩阵作为目标值，尽管它们可以作为输入。因此，目标值需要转换为稠密格式。稀疏输入数据和稠密目标数据都可以存储在内存中，但这会导致 Ridge 回归过程内存不足。因此，从现在开始，我们将使用训练数据的一个子集（50,000 行）。

 
np.random.seed(42)
all_rI = np.arange(input_train s.shape[0])
np.random.shuffle(all_rI)
s_r_I = all_rI[:50000]
input_train s = input_train s[s_r_I]

%%time
target_train = scipy.sparse.load_npz("../input/multimodal-single-cell-as-sparse-matrix/train_multi_targets_values.sparse.npz")   

输出

 
target_train = target_train[s_r_I]
target_train = target_train.todense()
gc.collect()   

输出

Sklearn 抱怨说数组比矩阵更好。遗憾的是，Kaggle 上可用的旧版 Scipy 版本不支持稀疏数组，只支持稀疏矩阵。因此，警告将被抑制。

 
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
%%time
# Cross-validation

kf = KFold(n_splits=5, shuffle=True, random_state=1)
score_list = []
for fold, (idtr_X, idva_X) in enumerate(kf.split(input_train s)):
    model = None
    gc.collect()
    tr_X = input_train s[idtr_X] # creates a copy, https://numpy.com.cn/doc/stable/user/basics.copies.html
    y_tr = target_train[idtr_X]
    del idtr_X

    model = Ridge(copy_X=False)
    model.fit(tr_X, y_tr)
    del tr_X, y_tr
    gc.collect()

    # We validate the model
    va_X = input_train s[idva_X]
    va_Y = target_train[idva_X]
    del idva_X
    va_Y_pred = model.predict(va_X)
    mse = mean_squared_error(va_Y, va_Y_pred)
    corrscore = correlation_score(va_Y, va_Y_pred)
    del va_X, va_Y

    print(f"Fold {fold}: mse = {mse:.5f}, corr =  {corrscore:.3f}")
    score_list.append((mse, corrscore))

# Show overall score
result_datadf = pd.DataFrame(score_list, columns=['mse', 'corrscore'])
print(f"{Fore.GREEN}{Style.BRIGHT}{input_train s.shape} Average  mse = {result_datadf.mse.mean():.5f}; corr = {result_datadf.corrscore.mean():.3f}{Style.RESET_ALL}")   

输出

 
# After retraining the model, we remove the unnecessary training data.

model, score_list, result_datadf = None, None, None # free the RAM occupied by the old model
gc.collect()
model = Ridge(copy_X=False) # we overwrite the training data
model.fit(input_train s, target_train)

del input_train s, target_train # free the RAM
_ = gc.collect()

%%time
x_mul_test = scipy.sparse.load_npz("../input/multimodal-single-cell-as-sparse-matrix/test_multi_inputs_values.sparse.npz")
x_mul_test = pca.transform(x_mul_test)
test_pred = model.predict(x_mul_test)
del x_mul_test
gc.collect()   

输出

下一个主题机器学习的概率和统计书籍

用于机器学习的稀疏矩阵

处理稀疏矩阵

稀疏矩阵在机器学习中的应用

机器学习中稀疏矩阵的挑战

稀疏矩阵的内存使用量减少

内存优化

使用稀疏矩阵进行 EDA

PCA

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

用于机器学习的稀疏矩阵

处理稀疏矩阵

稀疏矩阵在机器学习中的应用

机器学习中稀疏矩阵的挑战

稀疏矩阵的内存使用量减少

内存优化

使用稀疏矩阵进行 EDA

PCA

相关帖子

Keras 中的自动编码器分类

贝叶斯主动学习与最优实验设计

VGGNet-16 架构

如何保存机器学习模型

机器学习中的生存分析

连续机器学习

用于数据驱动湍流建模的机器学习方法

堆叠生成对抗网络

机器学习中的漂移

Extra Trees 分类器

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器