OneVsRestClassifier

2025年3月17日 | 阅读 7 分钟

根据实例的属性识别其类别标签是机器学习分类任务中的一个常见挑战。多类别分类将类区分的思想应用于有两个以上潜在类的情况，而二元分类只处理二元分类。一种流行的多类别分类方法是 OneVsRestClassifier，它为处理此类任务提供了一种直接而有效的方法。

OneVsRestClassifier，有时也称为 One-vs-All (OvA)，是一种将多类别分类问题分解为多个二元分类问题的方法。它将问题分解为多个二元分类任务，将每个类别视为一个单独的二元分类问题，而不是直接从多个选项中预测类别标签。简单地说，它将每个类别视为正类，将其他类别视为负类，为每个类别训练一个不同的二元分类器。

OneVsRestClassifier 的优点

以下是 OneVsRestClassifier 的一些优点：

集成学习的应用：OneVsRestClassifier 方法结合了多个二元分类器的预测，从而通过设计利用了集成学习的概念。通过利用每个分类器捕获的多种视角，这种分类器集成可以产生更可靠和准确的预测。
特征重要性和正则化的重要性：OneVsRestClassifier 允许独立地为每个二元分类任务使用正则化技术和特征重要性分析。通过减少过拟合和识别每个类别的关键特征，可以提高泛化性能。
易于灵活性：OneVsRestClassifier 允许为每个类别的决策标准进行单独设置，从而具有灵活性。这使得实践者可以根据特定的应用程序需求或领域专业知识来调整判断阈值，或改变精确率和召回率之间的权衡。
类别平衡的便捷性：类别不平衡，即某些类别可能比其他类别拥有的实例少得多，这是现实世界数据集中一个常见的问题。通过将每个类别视为一个独特的二元分类问题，OneVsRestClassifier 可以帮助解决类别不平衡问题。通过这样做，分类器可以专注于将少数类与其他类区分开来，这可能会提高整体性能。
易于理解：OneVsRestClassifier 能够有效地处理复杂的多类别分类问题。由于它独立训练多个二元分类器，将计算工作分配给多个分类器，因此它可以扩展到具有许多类别或特征的数据集。
通用性：任何支持二元分类的分类技术，例如决策树、逻辑回归和支持向量机 (SVM)，都可以与 OneVsRestClassifier 一起使用。由于其适应性，实践者可以根据数据集的具体情况和当前情况使用各种分类器。

OneVsRestClassifier 的缺点

OneVsRestClassifier 有许多优点，但也存在一些局限性。以下是 OneVsRestClassifier 的一些优点：

复杂性：OneVsRestClassifier 将多类别分类问题分解为多个二元分类任务，这简化了问题，但它也可能产生复杂性，特别是在处理大量类别时。多个二元分类器可能难以管理和理解，并且在模型的验证和评估过程中，这样做可能需要更多的时间和精力。
类关系丢失：OneVsRestClassifier 会独立处理每个类别，而忽略它们之间可能存在的任何依赖关系或联系。在类别不相互排斥的情况下，这种方法可能无法充分捕捉数据中看到的复杂分层结构或类间交互，从而导致性能不理想。
无法捕捉类别相关性：当类别之间存在依赖关系或相关性时，OneVsRestClassifier 可能无法充分表示它们之间的关系。分类任务的二元特性可能导致对底层类别相关性的过度简化，从而削弱预测性能并提供区分度较低的模型。
过拟合：当独立训练多个二元分类器时，过拟合的可能性更大，特别是当特征数量相对于样本数量较多时。由于训练集特有的噪声或不相关模式，二元分类器泛化到新数据的能力可能会受到阻碍。

代码

使用此方法为每个类别训练一个分类器。每个类别都与每个其他类别进行分类。这种技术具有可解释性以及计算经济性（只需要 n_classes 个分类器）。检查关联的分类器可以提供有关该类别的见解，因为每个类别都由单个分类器表示。这是一个合理的默认选项，也是最广泛使用的方法之一。

数据集

BBC 新闻文章数据集以预处理的矩阵格式提供，仅供非商业和学术用途。

它包括来自 BBC 新闻网站的 2225 篇论文，涉及 2004 年至 2005 年期间的五类主题文章。
五类标签（科技、体育、政治、娱乐和商业）

导入库

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')


# NLTK modules
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

import re

from gensim.models import Word2Vec # Word2Vec module

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer, TfidfTransformer
from sklearn.preprocessing import LabelEncoder, Normalizer
from sklearn.decomposition import TruncatedSVD, NMF
from sklearn.pipeline import Pipeline
from sklearn.naive_bayes import GaussianNB, MultinomialNB
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.linear_model import SGDClassifier, LogisticRegression
from sklearn.multiclass import OneVsRestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score


# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

输出

读取数据集

我们现在将加载数据集。

news_data = pd.read_csv('/kaggle/input/bbc-fulltext-and-category/bbc-text.csv')

# Basic info of the dataset
print(f"Shape : {news_data.shape}, \n\nColumns: {news_data.columns}, \n\nCategories: {news_data.category.unique()}")

# print sample data
news_data.head().append(news_data.tail())

输出

EDA

让我们看一下数据的组成。

# Plot category data
plt.figure(figsize=(10,6))
sns.countplot(news_data.category)
plt.show()

输出

数据准备

我们将创建一个 DataPreparation 类，并在其中使用输入数据（news_data）创建一个名为 data_prep 的实例。然后调用 preprocess 方法执行预处理步骤，从而得到包含预处理文本数据的 cleanse_df DataFrame。

这种方法提高了代码的可重用性、可读性和可维护性，使得为各种 NLP 任务预处理文本数据更加容易。此外，类结构允许根据需要定制和扩展预处理功能。

class DataPreparation:
    def __init__(self, data, column='text'):
        self.df = data
        self.column = column
    
    def preprocess(self):
        self.tokenize()
        self.remove_stopwords()
        self.remove_non_words()
        self.lemmatize_words()
        
        return self.df
    
    def tokenize(self):
        self.df['clean_text'] = self.df[self.column].apply(nltk.word_tokenize)
        print("Tokenization is done.")
    
    def remove_stopwords(self):
        stopword_set = set(nltk.corpus.stopwords.words('english'))
        
        rem_stopword = lambda words: [item for item in words if item not in stopword_set]
        
        self.df['clean_text'] = self.df['clean_text'].apply(rem_stopword)
        print("Remove stopwords done.")
    
    def remove_non_words(self):
        """
            Remove all non alpha characters from the text data
            :numbers: 0-9
            :punctuation: All english punctuations
            :special characters: All english special characters
        """
        regpatrn = '[a-z]+'
        rem_special_chars = lambda x: [item for item in x if re.match(regpatrn, item)]
        self.df['clean_text'] = self.df['clean_text'].apply(rem_special_chars)
        print("Removed non english characters is done.")
        
    def lemmatize_words(self):
        lemma = nltk.stem.wordnet.WordNetLemmatizer()
        
        on_word_lemma = lambda x: [lemma.lemmatize(w, pos='v') for w in x]
        
        self.df['clean_text'] = self.df['clean_text'].apply(on_word_lemma)
        print("Lemmatization on the words.")


# Preprocessing activities on the data
data_prep = DataPreparation(news_data)

cleanse_df = data_prep.preprocess()

输出

特征工程

我们现在将使用指定的计数向量器 (CountVectorizer) 和 TF-IDF 向量器 (TF-IDF Vectorizer) 对文本数据进行向量化。

def vectorize(vector, X_train, X_test):
    vector_fit = vector.fit(X_train)
    
    X_train_vec = vector_fit.transform(X_train)
    X_test_vec = vector_fit.transform(X_test)
    
    print("Vectorization is completed.")
    return X_train_vec, X_test_vec

def label_encoding(y_train):
    """
        Encode the given list of class labels
        :y_train_enc: returns list of encoded classes
        :labels: actual class labels
    """
    lbl_enc = LabelEncoder()
    
    y_train_enc = lbl_enc.fit_transform(y_train)
    labels = lbl_enc.classes_
    
    return y_train_enc, labels


# Encode the class labels
y_enc_train, labels = label_encoding(news_data['category'])

# Split from the loaded dataset
X_train, X_valid, y_train, y_test = train_test_split(news_data['text'], y_enc_train, test_size=0.2, shuffle=True)

输出

# Bag of words (BOW) matrix
bow_vector = CountVectorizer(ngram_range=(1, 1), analyzer='word', max_features=5000, max_df=2, min_df=1)
bow_vector.fit(X_train) 



pipe = Pipeline([('bow', bow_vector),
                ('tfidf', TfidfTransformer())]).fit(X_train)


train_tfidf = pipe.transform(X_train)
valid_tfidf = pipe.transform(X_valid)
print(train_tfidf.shape, valid_tfidf.shape)

输出

我们需要将 TF-IDF 向量（train_tfidf 和 valid_tfidf）的维度减少到 2000 维，用于训练集和验证集。

 
def lsa_reduction(X_train, X_test, n_comp=120):
    svd = TruncatedSVD(n_components=n_comp)
    normalizer = Normalizer()
    
    lsa_pipe = Pipeline([('svd', svd),
                        ('normalize', normalizer)]).fit(X_train)
    
    train_reduced = lsa_pipe.transform(X_train)
    test_reduced = lsa_pipe.transform(X_test)
    return train_reduced, test_reduced
    
def lsa_nmf_reduction(X_train, X_test, n_comp=120):
    nmf = NMF(n_components=n_comp)
    normalizer = Normalizer()
    
    lsa_pipe = Pipeline([('nmf', nmf),
                        ('normalize', normalizer)]).fit(X_train)
    
    train_reduced = lsa_pipe.transform(X_train)
    test_reduced = lsa_pipe.transform(X_test)
    return train_reduced, test_reduced


xtrain_svd, xtest_svd = lsa_reduction(train_tfidf, valid_tfidf, 2000)

# NMF dimensionality function is called only for Multinomial Naive Bayes
# xtrain_svd, xtest_svd = lsa_nmf_reduction(train_tfidf, valid_tfidf)

模型

sgd = SGDClassifier(random_state=0,loss='log',alpha=0.01,penalty='elasticnet')
lr = LogisticRegression(C=1.0)
svc = SVC(kernel='linear')
nb = MultinomialNB()

# One vs Restclassifier
orc_clf = OneVsRestClassifier(estimator=svc).fit(xtrain_svd, y_train)


print(orc_clf.get_params)
print(orc_clf.intercept_)

输出

# Predict the test data
y_pred = orc_clf.predict(xtest_svd)

求值

我们现在将查看用于模型评估的各种指标。

print("Accuracy: %1.3f \nPrecision: %1.3f \nRecall: %1.3f \nF1-Score: %1.3f\n" % (accuracy_score(y_test, y_pred),
                                                                                     precision_score(y_test, y_pred, average='micro'),
                                                                                     recall_score(y_test, y_pred, average='micro'),
                                                                                     f1_score(y_test, y_pred, average='micro')))

输出

从准确率来看，它似乎相当不错。

下一话题机器学习最佳程序

OneVsRestClassifier

OneVsRestClassifier 的优点

OneVsRestClassifier 的缺点

导入库

读取数据集

EDA

数据准备

特征工程

模型

求值

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

OneVsRestClassifier

OneVsRestClassifier 的优点

OneVsRestClassifier 的缺点

导入库

读取数据集

EDA

数据准备

特征工程

模型

求值

相关帖子

医学影像中的目标识别

使用 Scikit Learn 的梯度提升分类器

高斯判别分析

什么是 1 维卷积神经网络

机器学习中的腺病毒疾病预测

K-Means 聚类算法

机器学习历史

蛙跳算法

机器学习中的提前停止

GIS 的组成部分

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器