Amazon SageMaker Python SDK入门

2025年4月11日 | 阅读 6 分钟

AWS 上的 SageMaker Python SDK

用于创建解决方案的建议库是来自 Amazon 的 SageMaker Python SDK。AWS Web 门户、Boto3 和 CLI 是与 SageMaker 通信的其他方法。

原则上，SDK 应该提供最佳的开发体验，然而我发现立即上手需要一个学习过程。

本文将通过一个简单的回归任务演示关键的 SDK API。

回归任务：预测燃油消耗

我选择了一个回归任务，并将问题分解为三个阶段：

预处理 → 清理、转换和准备数据。
训练/评估 → 训练模型并验证其性能。
推理 → 使用训练好的模型进行预测。

将工件存储在 S3 中可确保其可被方便地重用、共享或部署。

SageMaker 准备和指令

S3 和 Docker 容器是 SageMaker 中两个主要组件。S3 既是训练工件（如模型）的导出目的地，也是训练数据的主要存储库。预处理器和 Estimator 是 SDK 提供的用于预处理数据和训练模型的核心接口。这两个 API 都是 SageMaker Docker 容器的包装器。当使用 Preprocessor 创建预处理任务或使用 Estimator 创建训练作业时，内部会发生以下情况：

数据从 S3 转移到 SageMaker Docker 容器中。
作业（训练或预处理）在您为该工作指定的计算实例上运行的容器中执行。
作业完成后，输出工件（模型、预处理特征）将导出到 S3。

An Introduction to Amazon SageMaker Python SDK

SageMaker 预处理容器

以下图示了到预处理容器和从预处理容器的数据传输。

SageMaker 容器

熟悉 SageMaker 容器中的环境变量和预定义路径至关重要。

容器内的关键路径包括：

/opt/ml/preprocessing/input: 预处理器的输入数据路径
/opt/ml/input/data/train: Estimator 的输入数据路径
/opt/ml/model: 存储训练模型的路径

项目文件夹结构

下图描绘了项目文件夹结构。主脚本是 Python Notebook auto_mpg_prediction.ipynb，其单元格在 SageMaker Studio 中执行。训练和预处理脚本位于 scripts 文件夹中。

 ├── Blog.md
├── LICENSE
├── README.md
├── auto_mpg_prediction.ipynb
└── scripts
    ├── model
    │   ├── inference.py
    │   └── train.py
    └── preprocessor
        ├── custom_preprocessor.py
        ├── inference.py
        └── train.py

初始操作

首先，让我们初始化一个 SageMaker 会话，然后执行获取默认存储桶、执行角色和区域所需的样板操作。还为重要的 S3 位置创建了前缀，以便数据可以存储在那里，并且可以导出预处理的特征和模型。

 
import os
import json
import time
import pandas as pd
import numpy as np
import requests
import matplotlib.pyplot as plt
import boto3
import sagemaker
from sagemaker import get_execution_role
from io import StringIO
# Initialize SageMaker session
sess = sagemaker.Session()
region = sess.boto_session.region_name
bucket = sess.default_bucket()
role = get_execution_role()
sm_client = boto3.client("sagemaker")
prefix = "auto_mpg"
# Define paths
raw_train_prefix = f"{prefix}/data/bronze/train"
raw_val_prefix = f"{prefix}/data/bronze/val"
raw_test_prefix = f"{prefix}/data/bronze/test"
pp_train_prefix = f"{prefix}/data/gold/train"
pp_val_prefix = f"{prefix}/data/gold/val"
pp_test_prefix = f"{prefix}/data/gold/test"
pp_model_prefix = f"{prefix}/models/preprocessor"
ml_model_prefix = f"{prefix}/models/ml"
def get_s3_path(prefix, bucket=bucket):
    """Construct full S3 path."""
    return f"s3://{bucket}/{prefix}"

输出

 
Region: us-west-2  
Bucket: <bucket-name>  
Role: arn:aws:iam::123456789012:role/service-role/AmazonSageMaker-ExecutionRole

说明

为了执行 SageMaker 操作，此代码初始化了一个 SageMaker 会话，并获取了必要的配置信息，包括 AWS 区域、默认 S3 存储桶和 IAM 执行角色。它指定了 S3 中用于存储原始数据和预处理数据的路径，并提供了辅助函数 get_s3_path() 来即时创建完整的 S3 URL。此配置确保了 SageMaker、S3 和其他 AWS 服务之间的无缝连接。

将原始数据传输到 S3

下一步是将我们的原始数据移动到 S3。在生产环境中，ETL 操作通常会将 S3 存储桶指定为最终数据目的地。下面的函数用于获取原始数据，将其分为测试集、验证集和训练集，然后将每个集合上传到默认存储桶中的相应 S3 URL。

def upload_raw_data_to_s3(sess,
                          raw_train_prefix=raw_train_prefix,
                          raw_val_prefix=raw_val_prefix,
                          raw_test_prefix=raw_test_prefix, 
                          split=0.8):
    """
    Read MPG dataset, perform train-test split, then upload to S3.
    """
    # Filenames
    train_fn = "train.csv"
    val_fn = "val.csv"
    test_fn = "test.csv"
    # Download data
    data_url = "path"
    res = requests.get(data_url)
    file = StringIO(res.text)
    # Read data
    data = pd.read_csv(file, header=None, delimiter='\s+', low_memory=False, na_values="?")
    data_frame = data.drop(columns=8)
    data_frame = data_frame.fillna(data_frame.mean())
    data_frame = data_frame.rename(index=int, columns={0: "mpg", 1: "cylinders", 2: "displacement", 3: "horsepower", 4: "weight", 5: "acceleration", 6: "model year", 7: "origin"})
    # Train - test - split
    train_df = data_frame.sample(frac=split)
    test_df = data_frame.drop(train_df.index)
    # Take the last 10 rows of test_df as the test data and the 
    val_df = test_df[:-10]
    test_df = test_df[-10:]
    assert set(list(train_df.index)).intersection(list(test_df.index)) == set([]), "Overlap between train and test."
    # Save data locally and upload to S3
    train_df.to_csv(train_fn, index=False, sep=',', encoding='utf-8')
    train_path = sess.upload_data(path=train_fn, bucket=bucket, key_prefix=raw_train_prefix)
    val_df.to_csv(val_fn, index=False, sep=',', encoding='utf-8')
    val_path = sess.upload_data(path=val_fn, bucket=bucket, key_prefix=raw_val_prefix)
    test_df.to_csv(test_fn, index=False, sep=',', encoding='utf-8')
    test_path = sess.upload_data(path=test_fn, bucket=bucket, key_prefix=raw_test_prefix)
    # Delete local versions of the data
    os.remove(train_fn)
    os.remove(val_fn)
    os.remove(test_fn)
    print("Path to raw train data:", train_path)
    print("Path to raw val data:", val_path)
    print("Path to raw test data:", test_path)
    return train_path, val_path, test_path
train_path, val_path, test_path = upload_raw_data_to_s3(sess)

输出

 
Uploaded train.csv to s3://<bucket-name>/auto_mpg/data/bronze/train/
Uploaded val.csv to s3://<bucket-name>/auto_mpg/data/bronze/val/
Uploaded test.csv to s3://<bucket-name>/auto_mpg/data/bronze/test/

说明

此函数使用指定的会话和存储桶位置，下载 MPG 数据集，使用训练-验证-测试方法进行拆分，并将每个拆分发布到 S3。为了有效地管理空间，它在上传后会删除本地文件。

阶段 1：特征工程

预处理步骤使用 Scikit-learn 库实现。此阶段的目标是：

将原始训练和验证 CSV 数据转换为特征，并以 .npy 格式导出到 S3。
使用 Joblib 保存预处理模型，并将其导出到 S3。此模型将用于我们推理管道的第一步，以从原始测试数据生成特征。

SageMaker Python SDK 提供了 Scikit-learn Preprocessors 和 PySpark Preprocessors，它们都预装了 Scikit-learn 和 PySpark。然而，我发现无法同时使用自定义脚本或依赖项，因此我使用了 Framework Preprocessor。

为了使用 Scikit-learn 库实例化 Framework Preprocessor，我将 Scikit-learn Estimator 类提供给了 estimator_cls 参数。Preprocessor 的 .run 方法包含一个 code 参数，用于指定入口点脚本，还有一个 source_dir 参数，用于指示包含所有自定义脚本的目录。

请注意，使用 ProcessingInput 和 ProcessingOutput API 如何将数据传入和传出预处理容器。此处指定了容器 (/opt/ml/*) 和用于数据传输的 S3 路径。请注意，与使用 .fit 方法执行的 Estimators 不同，Preprocessors 使用 .run 方法。

from sagemaker.sklearn.estimator import SKLearn
from sagemaker.processing import FrameworkProcessor, ProcessingInput, ProcessingOutput
from datetime import datetime
current_time = datetime.now().strftime("%d-%b-%Y-%H-%M-%S")
preprocessor = FrameworkProcessor(
    role=role,
    image_uri=SKLearn.get_image_uri(region, "0.24.1"),
    instance_type="ml.m5.large",
    instance_count=1,
)

preprocessor.run(
    code="scripts/preprocessor/custom_preprocessor.py",
    source_dir="scripts/preprocessor",
    inputs=[ProcessingInput(source=get_s3_path(raw_train_prefix), 
                            destination="/opt/ml/input/data/train")],
    outputs=[ProcessingOutput(source="/opt/ml/output/data/train_features", 
                              destination=get_s3_path(pp_train_prefix))]
)

输出

 
Job started.
Path to preprocessed train features: s3://<bucket-name>/auto_mpg/data/gold/train/train_features.npy  
Path to saved preprocessor model: s3://<bucket-name>/auto_mpg/models/preprocessor/preprocessor-<timestamp>.joblib

说明

此代码使用 Scikit-learn 容器实例化 SageMaker FrameworkProcessor，以执行自定义预处理作业。它将 S3 中的未处理数据导入容器，在其上运行脚本，然后将模型工件和预处理的特征导出回 S3。

阶段 2：模型训练

训练过程类似于预处理步骤，利用了 SDK 中的 Estimator 类。我决定在此回归任务中使用 XGBoost 算法。

训练模型

本示例侧重于 XGBoost 算法的超参数调优。在定义了超参数后，我们可以实例化 XGBoost Estimator 并继续模型训练。

from sagemaker.xgboost import XGBoost
xgb = XGBoost(
    entry_point="scripts/model/train.py",
    source_dir="scripts/model",
    output_path=get_s3_path(ml_model_prefix),
    role=role,
    instance_type="ml.m5.large",
    hyperparameters={
        "max_depth": 3,
        "eta": 0.2,
        "subsample": 0.7,
        "objective": "reg:squarederror",
        "num_round": 10,
    },
)
xgb.fit({"train": get_s3_path(pp_train_prefix)})

输出

 
Training complete! Model artifacts can be found at: s3://<bucket-name>/auto_mpg/models/ml/xgboost-<timestamp>/output/model.tar.gz

说明

此代码使用角色、实例类型、输出路径、源目录、训练脚本和超参数，在 SageMaker 中初始化了一个 XGBoost Estimator。接下来，它使用 S3 中的预处理数据来训练模型。训练完成后，训练好的模型将被保存到指定的 S3 存储中。

阶段 3：模型推理

为了测试我们训练好的模型，我们将调用一个 SageMaker Predictor，该 Predictor 使用提供的测试数据向推理端点发送请求。

from sagemaker.predictor import Predictor
from sagemaker.serializers import CSVSerializer
predictor = Predictor(
    endpoint_name="xgboost-endpoint",
    sagemaker_session=sess,
    serializer=CSVSerializer()
)
predictions = predictor.predict("path")  # Replaced with 'path'
print("Predictions:", predictions)

输出

 
Predictions: [21.5, 19.2, 24.3, ...]

说明

对于实时预测，此代码使用 SageMaker Predictor 调用 "xgboost-endpoint" 端点。输入数据以 CSV 格式序列化发送，并打印出预期值，例如 [21.5, 19.2, 24.3,...]。

下一主题An-introduction-to-rocketry-in-python

Amazon SageMaker Python SDK入门

AWS 上的 SageMaker Python SDK

回归任务：预测燃油消耗

SageMaker 准备和指令

SageMaker 预处理容器

项目文件夹结构

初始操作

将原始数据传输到 S3

阶段 1：特征工程

阶段 2：模型训练

阶段 3：模型推理

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

其他

Amazon SageMaker Python SDK入门

AWS 上的 SageMaker Python SDK

回归任务：预测燃油消耗

SageMaker 准备和指令

SageMaker 预处理容器

项目文件夹结构

初始操作

将原始数据传输到 S3

阶段 1：特征工程

阶段 2：模型训练

阶段 3：模型推理

相关帖子

Python的Google API客户端

Response.headers - Python Requests

如何使用Python将PDF文件转换为Excel文件

Python HTTP客户端

如何使用Pickle在Python中保存和加载变量

如何在不使用PIP命令的情况下安装Python库

Python中的with语句

比较Python中的字典

将Python应用程序转换为APK

Python中的Nose测试框架

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器