Python 中的 XGBoost ML 模型

2024年8月29日 | 阅读 8 分钟

XGBoost 库实现了梯度提升决策树，旨在提高速度和执行效率，这是机器学习 (ML) 中最重要的方面。

XgBoost：Python 的 XgBoost (Extreme Gradient Boosting) 库由华盛顿大学的学者推出。它是用 C++ 编写的 Python 模块，通过梯度提升训练来帮助机器学习模型算法。

梯度提升：这是一种人工智能方法，用于分类和回归任务等。它将预测模型呈现为弱预测模型（通常称为决策树）的集合。

基础梯度提升是如何工作的？

应该优化损失函数，这意味着比结果更好地降低损失函数。
为了进行预测，模型中使用了弱学习器。
该模型使用了决策树，并且以一种贪婪的方式使用它们，这意味着根据 Gini 杂质等选择最佳分割点，或者最小化损失函数。
加性模型用于组合所有弱模型，最小化损失函数。
树一棵一棵地添加，确保现有的树在决策树中不被改变。通常使用梯度下降过程来查找最佳超参数，之后进一步更新权重。

在本教程中，您将了解如何安装和构建您的第一个 Python XGBoost 模型。

XGBoost 可以提供比其他机器学习模型算法更好的解决方案。事实上，自推出以来，它已成为处理结构化数据的“最先进”的机器学习模型算法。

是什么让 XGBoost 如此受欢迎？

性能和速度：最初基于 C++ 构建，它的速度与其他集成分类器一样快。
核心算法是可并行的：它可以利用多核计算机的强大功能，因为核心 XGBoost 算法是可并行的。此外，它还可以并行化到 GPU 和计算机网络上，从而可以在大型数据集上进行训练。
持续超越其他技术算法：它在许多机器学习基准数据集上都显示出更好的输出。
广泛的调优参数：XGBoost 内部具有适用于 scikit-learn 的 API、缺失值、正则化、交叉验证、用户定义的损失函数、树参数等的参数。

XGBoost (Extreme Gradient Boosting) 属于一类集成算法，并以梯度提升 (GBM) 框架为核心。

本教程的成果

在 Python 中安装 XGBoost。
准备数据和训练 XGBoost 模型。
使用 XGBoost 模型进行预测。

分步方法

安装 XGBoost
下载数据集1。
准备和加载数据。
训练模型。
进行预测并评估模型。
整合所有内容并运行最终示例。

步骤 1：在 Python 中安装 XGBoost

如果我们在 SciPy 环境中工作，可以使用 pip 轻松地在 Python 中安装 XGBoost。

例如

安装命令

更新 XGBoost 命令

安装 XGBoost 的另一种方法是运行最新的 GitHub 代码，这需要您克隆 XGBoost 项目并执行手动构建和安装。

例如，要在 Mac OS X 上构建不带多线程的 XGBoost（已通过 MacPorts 或自制 libtool 安装 GCC），我们可以输入

git clone ---recursive https://github.com/dml/xgboost
cd xgboost
cp makes/minimum.mk .//config.mk
make -j4
cd python-package
python setup.py install 

步骤 2：问题描述

本教程将使用 Pima 印第安人糖尿病发病率数据集。

该数据集1 包含 8 个描述患者临床细节的数据变量和一个结果变量，用于指示患者是否将在 5 年或更短的时间内出现糖尿病。

这对于第一个 XGBoost 模型来说是一个不错的数据集1，因为所有数据变量都是数值型的，而且问题是一个简单的二元分类问题。对于 XGBoost 算法来说，这不是一个好问题，因为数据集1 相对较小，问题也比较简单。

下载此数据集1 并将其放入当前工作目录中，文件名为“pima-Indians--diabetes.CSV”。

怀孕	葡萄糖水平	血压	皮肤厚度	胰岛素水平	BMI	糖尿病遗传函数	年龄	结果
6	148	72	35	0	33.6	0.627	50	1
1	86	66	78	0	76.6	0.461	41	0
8	184	64	0	0	74.4	0.677	47	1
1	88	66	74	84	78.1	0.167	71	0
0	147	40	46	168	44.1	7.788	44	1
6	116	74	0	0	76.6	0.701	40	0
4	78	60	47	88	41	0.748	76	1
10	116	0	0	0	46.4	0.144	78	0
7	187	70	46	644	40.6	0.168	64	1
8	176	86	0	0	0	0.747	64	1
4	110	87	0	0	47.6	0.181	40	0
10	168	74	0	0	48	0.647	44	1
10	148	80	0	0	77.1	1.441	67	0
1	188	60	74	846	40.1	0.488	68	1
6	166	77	18	176	76.8	0.687	61	1
7	100	0	0	0	40	0.484	47	1
0	118	84	47	740	46.8	0.661	41	1
7	107	74	0	0	78.6	0.764	41	1
1	104	40	48	84	44.4	0.184	44	0
1	116	70	40	86	44.6	0.678	47	1
4	176	88	41	746	48.4	0.704	77	0
8	88	84	0	0	46.4	0.488	60	0
7	186	80	0	0	48.8	0.461	41	1
8	118	80	46	0	78	0.764	78	1
11	144	84	44	146	46.6	0.764	61	1
10	176	70	76	116	41.1	0.706	41	1
7	147	76	0	0	48.4	0.767	44	1
1	87	66	16	140	74.7	0.487	77	0
14	146	87	18	110	77.7	0.746	67	0
6	117	87	0	0	44.1	0.447	48	0
6	108	76	76	0	46	0.646	60	0
4	168	76	46	746	41.6	0.861	78	1
4	88	68	11	64	74.8	0.767	77	0
6	87	87	0	0	18.8	0.188	78	0
10	177	78	41	0	77.6	0.617	46	0
4	104	60	44	187	74	0.866	44	0

步骤 3：加载和准备数据

在本节中，我们将从文件中加载数据并准备好以用于训练和评估 XGBoost 模型。

准备机器学习模型的过程包括向机器学习算法（即学习算法）提供训练数据以供学习。训练数据应包含正确答案，这被称为目标变量或目标属性。

我们将从导入本教程中需要使用的类和函数开始。

例如

from numpy import loadtxt
from xgboost import XGBClassifier
from sklearn.model_selection import train, test, split
from sklearn.metrics import accuracy_score 
loadtext().
#loading data
dataset1 = loadtxt('pima--indians--diabetes.csv', delimiter=",")
# spliting data into (Y) output patterns and (X) input patterns
X = dataset1[:,0:8]
Y = dataset1[:,8]
# spliting data into train and test sets
Seed1 = 7
test_sizes = 0.33
X1_train , X1_test  , y1_train , y1_test= train_test_split(X, Y, test_sizes = test_sizes, random_state=seed1)

说明

接下来，使用 NumPy 的 `genfromtxt` 函数将 CSV 文件加载为 NumPy 数组。

现在，通过指定列的索引，使用 NumPy 格式将列（特征或属性）分离为 (Y) 输出模式和 (X) 输入模式。

最后，我们应该将其拆分为测试集和训练集。训练集将用于准备 XGBoost 模型，而测试集将用于进行新预测，我们可以从中评估模型的性能。

我们将使用 scikit-learn 库中的 `train_test_split()` 函数。我们还指定随机数生成器的种子，以便每次执行此模型时都能获得相同的数据分割。

步骤 4：训练 XGBoost 模型

说明

XGBoost 提供了一个包装器类，允许模型在 scikit-learn 框架中被视为分类器或回归器。

这意味着 XGBoost 模型可以完全利用 scikit-learn 库。

对于分类，XGBoost 模型称为 `XGBClassifier`。我们可以创建它并将其拟合到我们的训练数据集。模型使用 scikit-learn API 和 `model.fit()` 函数进行拟合。

为了训练模型，可以在构造函数的参数列表中传递参数。所以这里，我们使用合理的默认值。此外，通过打印模型，我们可以观察到训练好的 XGBoost 模型的信息。

例如

# fiting model no training data
model = XGBClassifier()
model.fit(X1_train , y1_train)
print(model)

步骤 5：使用 XGBoost 模型进行预测

我们可以在测试数据集上使用已拟合的模型进行预测。

例如

# make predictions for test data
y_prediction = model.predict(X1_test  )
predictions = [round(value) for value in y_prediction]
# evaluating predictions
Accuracy1 = accuracy_score(y1_test  , predictions)
print("Accuracy: %.2f%%" % (accuracy1 * 100.0))

说明

我们使用 scikit-learn 函数 `model.predict()` 进行预测。

由于这是一个二元分类问题，每次预测都是数据模式属于正类的概率。默认情况下，XGBoost 模型做出的预测是准确的概率。通过将它们四舍五入到 1 或 0，我们可以轻松地将它们转换为二元类别值。

现在，要对数据进行预测，需要使用已拟合的模型。为了确定预测的效率，将预测值与实际值进行比较。使用 scikit-learn 库的 `accuracy_score()` 函数来查找准确率。

步骤 6：整合所有前面的步骤

源代码

from numpy import loadtxt
from xgboost import XGBClassifier
from sklearn.model_selection import train, test, split
from sklearn.metrics import accuracy_score
# loading data
dataset1 = loadtxt('pima--indians--diabete.csv', delimiter = ",")
# spliting data into X and y
X1 = dataset1[:,0:8]
Y1 = dataset1[:,8]
# spliting data into test and train sets
seed1 = 7
test_sizes = 0.33
X1_train , X1_test  , y1_train , y1_test= train_test_split(X1, Y1, test_sizes=test_sizes, random_state=seed1)
model = XGBClassifier()
model.fit(X1_train , y1_train )
# making prediction for test data
y_prediction = model.predict(X1_test  )
prediction = [round(value) for value in y_prediction]
accuracy1 = accuracy_score(y1_test  , prediction)
print("Accuracy = %.2f%" % (accuracy1 * 100.0))

注意：鉴于评估系统或算法的性质以及数学结果精度上的差异，结果可能会有所不同。我们可以多次运行模型并找出平均结果。

输出

运行此模型会产生以下结果。

Accuracy = 77.95%

考虑到模型的性能和问题的内在复杂性，我们在该问题上获得了不错的准确率得分，这是我们所期望的。

结论

在这篇文章中，您了解了如何在 Python 中开发您的第一个 XGBoost 模型。

具体来说，您学会了

如何安装 XGBoost 并准备好在您的系统上与 Python 一起使用。
如何使用 scikit-learn 库进行预测并评估已训练的 XGBoost 模型的性能。
如何准备数据并在标准机器学习数据集1 上训练您的第一个 XGBoost 模型。

下一个主题Python 中的简单 FLAMES 游戏

← 上一个下一个 →

Python 中的 XGBoost ML 模型

基础梯度提升是如何工作的？

是什么让 XGBoost 如此受欢迎？

本教程的成果

分步方法

步骤 1：在 Python 中安装 XGBoost

步骤 2：问题描述

步骤 3：加载和准备数据

步骤 4：训练 XGBoost 模型

步骤 5：使用 XGBoost 模型进行预测

步骤 6：整合所有前面的步骤

注意：鉴于评估系统或算法的性质以及数学结果精度上的差异，结果可能会有所不同。我们可以多次运行模型并找出平均结果。

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Python 问题

Python 中的 XGBoost ML 模型

基础梯度提升是如何工作的？

是什么让 XGBoost 如此受欢迎？

本教程的成果

分步方法

步骤 1：在 Python 中安装 XGBoost

步骤 2：问题描述

步骤 3：加载和准备数据

步骤 4：训练 XGBoost 模型

步骤 5：使用 XGBoost 模型进行预测

步骤 6：整合所有前面的步骤

注意：鉴于评估系统或算法的性质以及数学结果精度上的差异，结果可能会有所不同。我们可以多次运行模型并找出平均结果。

结论

相关帖子

从 Python 函数返回两个值

Python os.listdir() 方法

Sklearn 中的交叉验证

Python 中的析构函数

使用 Python 进行 Google 搜索包

查找列表中只出现一次的元素，其中所有其他元素都出现两次

Python 中的 break 语句

在 Python 中旋转链表

使用 Python 创建 BMI 计算器

Python 程序旋转图像

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器