机器学习中的电力消耗预测

2024年11月13日 | 阅读 16 分钟

Electricity Consumption Prediction Using Machine Learning

在当今快节奏的世界中，电力消耗在满足现代社会能源需求方面占有至关重要的地位。随着对电力需求的不断增长，优化能源使用变得极其重要。幸运的是，技术的进步促使机器学习的出现，这是一种能够以惊人的准确性预测电力消耗的强大工具。

预测电力消耗是一项复杂的任务。它需要分析大量的历史数据，例如过去的电力使用情况、天气模式、一天中的时间以及季节性变化。虽然传统方法提供了一些见解，但它们通常难以捕捉这些变量之间错综复杂的联系。

机器学习，作为人工智能的一个分支，使计算机能够从数据中学习并进行预测，而无需显式编程。机器学习算法在从海量数据集中发现隐藏模式和相关性方面表现出色，使其成为电力消耗预测的理想选择。

使用机器学习进行电力消耗预测的优势

使用机器学习进行电力消耗预测具有许多优势，可以彻底改变我们管理和优化能源资源的方式。一些主要优势包括：

准确的预测：机器学习算法可以精确地分析历史数据并识别复杂的模式，从而实现更准确的电力消耗预测。这种准确性有助于公用事业公司和电网运营商更有效地规划未来需求，确保稳定可靠的能源供应。
需求响应管理：机器学习模型可以分析历史消耗模式来预测高峰需求时段。这些见解使公用事业公司能够实施需求响应策略，鼓励消费者将电力使用转移到非高峰时段，从而减轻高峰时段对电网的压力。
可再生能源整合：机器学习可以根据天气模式预测电力消耗，从而更好地整合太阳能和风能等可再生能源。通过将可再生能源发电与高峰需求时段相匹配，我们可以进一步减少对化石燃料的依赖并促进可持续发展。
客户赋能：机器学习可以为个人消费者提供个性化的电力消耗预测。这使用户能够就其能源使用做出明智的决定，从而可能节省成本并实现更可持续的生活方式。
电网稳定性和可靠性：准确的电力消耗预测有助于电网运营商维持电网的稳定性和可靠性。通过预测需求变化，他们可以更有效地平衡能源的生产和分配，降低停电风险并确保电网平稳运行。
成本优化：机器学习模型可以优化能源的生产和分配，从而为能源供应商和消费者节省成本。这些成本优化可以带来更具竞争力的电力价格和更好的财务成果，造福所有利益相关者。

使用机器学习进行电力消耗预测的挑战

使用机器学习预测电力消耗也伴随着挑战。虽然机器学习提供了有前景的解决方案，但了解在此过程中可能出现的障碍至关重要。一些主要挑战包括：

数据质量和数量：准确预测的基本要求之一是高质量的数据。数据不足或不一致可能导致结果不可靠。此外，获取足够多的历史数据可能具有挑战性，尤其是在新的或不断发展的领域。
数据模式的复杂性：电力消耗数据通常受多种因素影响，例如天气条件、节假日和工业活动。识别和建模这些复杂模式可能具有挑战性，需要复杂的算法。
季节性和天气变化：电力消耗表现出强烈的季节性和与天气相关的变化。将这些波动纳入预测模型可能很复杂，因为它涉及处理非线性关系。
非平稳性：由于技术发展、人口增长或经济变化，电力消耗模式可能随时间而变化。使预测模型能够处理非平稳数据对于准确的长期预测至关重要。
模型选择和调优：有许多机器学习算法可供选择，为特定数据集选择最合适的算法可能具有挑战性。微调模型的超参数对于实现最佳性能也至关重要。

关于数据集

该数据集是西班牙 2014 年至 2018 年电力需求、发电和价格的每日时间序列。它来自 ESIOS，这是一个由 REE（Red Electrica Española，西班牙传输系统运营商）管理的网站。

TSO 的主要职能是运行电力系统并投资于新的输电（高压）基础设施。

(https://www.ree.es/en/about-us/business-activities/electricity-business-in-Spain)

作为系统运营商，REE 预测电力需求并提供和运行日常操作。作为日常操作的结果，会产生 PBF（基本运行计划）。这是一个基本的发电调度（在此基础上，会触发各种机制来确保供应）。

能源和价格数据可从以下网址下载：https://www.esios.ree.es/en

OMIE（Iberian Electricity Market Operator）负责运行这些日常操作，并提供有趣的数据。

http://www.omie.es/en/inicio

内容

保留原始值，因此显示了一些西班牙语名称。列名描述了每个时间序列，因此我提供了每个名称的描述。

Demanda programada PBF total (MWh)：计划总需求 (MWh)
Demanda real (MW)：实际需求功率 (MW)
Energía asignada en Mercado SPOT Diario España (MWh)：在西班牙每日现货市场交易的能源 (MWh)
Energía asignada en Mercado SPOT Diario Francia (MWh)：在法国每日现货市场交易的能源 (MWh)
Generación programada PBF Carbón (MWh)：计划的煤炭发电量 (MWh)
Generación programada PBF Ciclo combinado (MWh)：计划的联合循环发电量 (MWh)
Generación programada PBF Eólica: (MWh)：计划的风力发电量 (MWh)
Generación programada PBF Gas Natural Cogeneración (MWh)：计划的天然气热电联产发电量 (MWh)
Generación programada PBF Nuclear (MWh)：计划的核发电量 (MWh)
Generación programada PBF Solar fotovoltaica (MWh)：计划的光伏发电量 (MWh)
Generación programada PBF Turbinación bombeo (MWh)：计划的抽水蓄能发电量 (MWh)
Generación programada PBF UGH + no UGH (MWh)：计划的总水力发电量 (MWh)
Generación programada PBF total (MWh)：计划的总发电量 (MWh)
Precio mercado SPOT Diario ESP (€/MWh)：西班牙每日现货市场价格 (€/MWh)
Precio mercado SPOT Diario FRA (€/MWh)：法国每日现货市场价格 (€/MWh)
Precio mercado SPOT Diario POR (€/MWh)：葡萄牙每日现货市场价格 (€/MWh)
Rentas de congestión mecanismos implícitos diario Francia exportación (€/MWh)：法国每日出口现货价格 (€/MWh)
Rentas de congestión mecanismos implícitos diario Francia importación (€/MWh)：法国每日进口现货价格 (€/MWh)
Rentas de congestión mecanismos implícitos diario Portugal exportación (€/MWh)：葡萄牙每日出口现货价格 (€/MWh)
Rentas de congestión mecanismos implícitos diario Portugal importación (€/MWh)：葡萄牙每日进口现货价格 (€/MWh)

注意：保留了原始数据格式，以防需要附加从 Esios 下载的新数据。因此，地理列为空。

代码

导入库

import pandas as pd
import datetime as dt
import numpy as np
import datetime as dt
import matplotlib.pyplot as plt
import seaborn as sns
from  scipy.stats import skew, kurtosis, shapiro

读取数据集

path = "/kaggle/input/spain_energy_market.csv"
data = pd.read_csv(path, sep=",", parse_dates=["datetime"])
data = data[data["name"]=="Demanda programada PBF total"]#.set_index("datetime")
data["date"] = data["datetime"].dt.date
data.set_index("date", inplace=True)
data = data[["value"]]
data = data.asfreq("D")
data = data.rename(columns={"value": "energy"})
data.info()     

输出

data.plot(title="Energy Demand")
plt.ylabel("MWh")
plt.show()

输出

我们很幸运！数据集中没有缺失值，并且有四年的数据可供我们使用。现在，让我们深入研究令人兴奋的部分，并计算一些与日期相关的特征，以使我们的分析继续进行。

data["year"] = data.index.year
data["qtr"] = data.index.quarter
data["mon"] = data.index.month
data["week"] = data.index.week
data["day"] = data.index.weekday
data["ix"] = range(0,len(data))
data[["movave_7", "movstd_7"]] = data.energy.rolling(7).agg([np.mean, np.std])
data[["movave_30", "movstd_30"]] = data.energy.rolling(30).agg([np.mean, np.std])
data[["movave_90", "movstd_90"]] = data.energy.rolling(90).agg([np.mean, np.std])
data[["movave_365", "movstd_365"]] = data.energy.rolling(365).agg([np.mean, np.std])

plt.figure(figsize=(20,16))
data[["energy", "movave_7"]].plot(title="Daily Energy Demand in Spain (MWh)")
plt.ylabel("(MWh)")
plt.show()

输出

EDA（探索性数据分析）

分析目标变量涉及研究其季节性和趋势。我们的目标是直观地理解时间序列数据的模式和波动，而无需过多依赖分解等统计技术。通过图形化检查数据，我们可以深入了解可能存在的潜在模式和趋势。

目标分析（正态性）

mean = np.mean(data.energy.values)
std = np.std(data.energy.values)
skew = skew(data.energy.values)
ex_kurt = kurtosis(data.energy)
print("Skewness: {} \nKurtosis: {}".format(skew, ex_kurt+3))

输出

在数据分布方面，负偏度表明数据并非完美对称，并且具有较长的左尾。此外，低于 3 的峰度值表明与正态分布相比，分布的尾部略薄。这种特性被称为“低峰度”，表明遇到极端值的可能性比正态分布低。

def shapiro_test(data, alpha=0.05):
    stat, pval = shapiro(data)
    print("H0: Data was drawn from a Normal Ditribution")
    if (pval<alpha):
        print("pval {} is lower than significance level: {}, therefore null hypothesis is rejected".format(pval, alpha))
    else:
        print("pval {} is higher than significance level: {}, therefore null hypothesis cannot be rejected".format(pval, alpha))
        
shapiro_test(data.energy, alpha=0.05)

输出

sns.distplot(data.energy)
plt.title("Target Analysis")
plt.xticks(rotation=45)
plt.xlabel("(MWh)")
plt.axvline(x=mean, color='r', linestyle='-', label="\mu: {0:.2f}%".format(mean))
plt.axvline(x=mean+2*std, color='orange', linestyle='-')
plt.axvline(x=mean-2*std, color='orange', linestyle='-')
plt.show()

输出

总的来说，数据不呈现正态分布，因为它显示出比正态分布数据更短的左尾和更低的观察极端值的可能性。

# Insert the rolling quantiles to the monthly returns
data_rolling = data.energy.rolling(window=90)
data['q10'] = data_rolling.quantile(0.1).to_frame("q10")
data['q50'] = data_rolling.quantile(0.5).to_frame("q50")
data['q90'] = data_rolling.quantile(0.9).to_frame("q90")

data[["q10", "q50", "q90"]].plot(title="Volatility Analysis: 90-rolling percentiles")
plt.ylabel("(MWh)")
plt.show()

输出

data.groupby("qtr")["energy"].std().divide(data.groupby("qtr")["energy"].mean()).plot(kind="bar")
plt.title("Coefficient of Variation (CV) by qtr")
plt.show()

输出

data.groupby("mon")["energy"].std().divide(data.groupby("mon")["energy"].mean()).plot(kind="bar")
plt.title("Coefficient of Variation (CV) by month")
plt.show()

输出

data[["movstd_30", "movstd_365"]].plot(title="Heteroscedasticity analysis")
plt.ylabel("(MWh)")
plt.show()

输出

在考虑季度和月份等较短时间段时，波动性趋于变化，但在长期（年度窗口）内，波动性相对稳定。因此，潜在的预测因子需要考虑方差中的季节性模式。

data[["movave_30", "movave_90"]].plot(title="Seasonal Analysis: Moving Averages")
plt.ylabel("(MWh)")
plt.show()

输出

sns.boxplot(data=data, x="qtr", y="energy")
plt.title("Seasonality analysis: Distribution over quaters")
plt.ylabel("(MWh)")
plt.show()

输出

sns.boxplot(data=data, x="day", y="energy")
plt.title("Seasonality analysis: Distribution over weekdays")
plt.ylabel("(MWh)")
plt.show()

输出

正如预期的那样，在考虑季度和星期几（星期一表示为 0）时，数据中观察到了明显的季节性模式。

data_mon = data. energy.resample("M").agg(sum).to_frame("energy")
data_mon["ix"] = range(0, len(data_mon))
data_mon[:5]

输出

sns.regplot(data=data_mon,x="ix", y="energy")
plt.title("Trend analysis: Regression")
plt.ylabel("(MWh)")
plt.xlabel("")
plt.show()

输出

sns.boxplot(data=data["2014":"2017"], x="year", y="energy")
plt.title("Trend Analysis: Annual Box-plot Distribution")
plt.ylabel("(MWh)")
plt.show()

输出

能源需求显示出积极的线性趋势，或略微衰减的趋势，这可归因于从衰退中复苏带来的稳定经济增长。

特征工程

当前的挑战在于开发能够有效处理季节性、趋势和波动变化的自动化特征。这些特征应能够适应数据中观察到的不断变化的模式和波动。

标准化数据是应用对尺度敏感的模型（如神经网络或支持向量机 (SVM)）的必要步骤。通过标准化数据，我们确保分布形状保持不变，而仅改变第一个和第二个矩，即均值和标准差。此过程允许使用这些特定的机器学习算法对数据进行更准确有效的建模。

data["target"] = data.energy.add(-mean).div(std)
sns.distplot(data["target"])
plt.show()

输出

features = []
corr_features=[]
targets = []
tau = 30 #forecasting periods

for t in range(1, tau+1):
    data["target_t" + str(t)] = data.target.shift(-t)
    targets.append("target_t" + str(t))
    
for t in range(1,31):
    data["feat_ar" + str(t)] = data.target.shift(t)
    #data["feat_ar" + str(t) + "_lag1y"] = data.target.shift(350)
    features.append("feat_ar" + str(t))
    #corr_features.append("feat_ar" + str(t))
    #features.append("feat_ar" + str(t) + "_lag1y")
        
    
for t in [7, 14, 30]:
    data[["feat_movave" + str(t), "feat_movstd" + str(t), "feat_movmin" + str(t) ,"feat_movmax" + str(t)]] = data.energy.rolling(t).agg([np.mean, np.std, np.max, np.min])
    features.append("feat_movave" + str(t))
    #corr_features.append("feat_movave" + str(t))
    features.append("feat_movstd" + str(t))
    features.append("feat_movmin" + str(t))
    features.append("feat_movmax" + str(t))
    
months = pd.get_dummies(data.mon,
                              prefix="mon",
                              drop_first=True)
months.index = data.index
data = pd.concat([data, months], axis=1)

days = pd.get_dummies(data.day,
                              prefix="day",
                              drop_first=True)
days.index = data.index
data = pd.concat([data, days], axis=1)


features = features + months.columns.values.tolist() + days.columns.values.tolist()

corr_features = ["feat_ar1", "feat_ar2", "feat_ar3", "feat_ar4", "feat_ar5", "feat_ar6", "feat_ar7", "feat_movave7", "feat_movave14", "feat_movave30"]

# Calculate correlation matrix
corr = data[["target_t1"] + corr_features].corr()

top5_mostCorrFeats = corr["target_t1"].apply(abs).sort_values(ascending=False).index.values[:6]


# Plot heatmap of correlation matrix
sns.heatmap(corr, annot=True)
plt.title("Pearson Correlation with 1 period target")
plt.yticks(rotation=0); plt.xticks(rotation=90)  # fix ticklabel directions
plt.tight_layout()  # fits plot area to the plot, "tightly"
plt.show()  # show the plot

输出

sns.pairplot(data=data[top5_mostCorrFeats].dropna(), kind="reg")
plt.title("Most important features Matrix Scatter Plot")
plt.show()

输出

一些特征，例如 AR_6（自回归滞后 6）和 MOVAVE_7（7 天移动平均），与目标变量表现出相对较强的线性相关性。为了验证此假设并进一步研究其预测能力，我们将构建各种模型并使用这些特征来评估它们的性能。通过评估模型的准确性和预测能力，我们可以确定这些特征在多大程度上为模型的整体预测能力做出了贡献。

模型构建

在此步骤中，我们使用 Scikit-Learn 中的一个方便的特征 MultiOutput Regression 构建了两个候选模型。此功能允许我们高效地自动拟合能够同时预测多个目标变量的模型。通过利用此框架，我们可以以简化的方式训练模型来预测多个目标变量。这不仅简化了建模过程，而且使我们能够有效地评估模型在多个目标上的性能。

首先，我们将使用线性回归拟合一个基线模型，并将其与更高级的模型（如随机森林）进行比较。线性回归模型不需要广泛的超参数调优，并为我们的分析提供了坚实的基础。但是，有几个考虑因素需要牢记：

非正态分布和变化方差：目标变量不遵循完美的正态分布，并且表现出不同的方差水平。这可能会影响线性回归的假设，该假设假定正态性和恒定方差。我们需要注意这些假设可能存在的偏差。
预测变量之间的多重共线性：预测变量之间存在高度多重共线性，这意味着一些预测变量彼此高度相关。这可能在解释这些预测变量对目标变量的个体影响方面带来挑战，并可能影响模型的性能。
观测值的非独立性：我们数据集中的观测值可能不是独立的，这违反了线性回归的一个关键假设。非独立性可能源于各种因素，例如数据中的时间依赖性或聚类。我们在解释模型结果和评估其准确性时需要考虑这一点。

另一方面，像随机森林这样的高级模型需要仔细的超参数调优才能实现最佳性能。通常，这是使用 GridSearch 和交叉验证 (CV) 等技术完成的。然而，使用传统的 CV 方法处理时间序列数据会带来挑战。这是因为数据不应该被打乱，因为它遵循特定的时间结构。

幸运的是，Scikit-Learn 提供了一个有用的解决方案，称为 TimeSeries Split。这项技术允许我们在时间感知的方式下执行 GridSearch，方法是保留数据的时序顺序。它将数据分成按时间顺序排列的折叠，确保每个折叠都尊重观测值的时间顺序。

通过使用 TimeSeries Split，我们可以通过不同的超参数组合来迭代地训练和评估我们的随机森林模型。这种方法使我们能够找到最大限度地提高模型在未见过的未来数据点上性能的最佳超参数集。

以时间感知的方式应用超参数调优对于时间序列数据至关重要，因为它确保了我们模型的性能更加现实和可靠。通过利用 Scikit-Learn 中的 TimeSeries Split 功能，我们可以有效地优化我们的随机森林模型，而不会违反数据的时序结构。

data_feateng = data[features + targets].dropna()
nobs= len(data_feateng)
print("Number of observations: ", nobs)

输出

数据拆分

为了确保对我们模型性能的无偏评估并进行彻底的残差分析，我们将 2018 年的数据点保留为一个单独的保留数据集。这意味着我们在模型开发过程中不会触碰这些数据。

X_train = data_feateng.loc["2014":"2017"][features]
y_train = data_feateng.loc["2014":"2017"][targets]

X_test = data_feateng.loc["2018"][features]
y_test = data_feateng.loc["2018"][targets]

n, k = X_train.shape
print("Total number of observations: ", nobs)
print("Train: {}{}, \nTest: {}{}".format(X_train.shape, y_train.shape,
                                              X_test.shape, y_test.shape))

plt.plot(y_train.index, y_train.target_t1.values, label="train")
plt.plot(y_test.index, y_test.target_t1.values, label="test")
plt.title("Train/Test split")
plt.xticks(rotation=45)
plt.show()

输出

基线模型：线性回归

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

reg = LinearRegression().fit(X_train, y_train["target_t1"])
p_train = reg.predict(X_train)
p_test = reg.predict(X_test)

RMSE_train = np.sqrt(mean_squared_error(y_train["target_t1"], p_train))
RMSE_test = np.sqrt(mean_squared_error(y_test["target_t1"], p_test))

print("Train RMSE: {}\nTest RMSE: {}".format(RMSE_train, RMSE_test) )

输出

使用时间序列拆分训练随机森林以调优超参数

在此特定示例中，我们演示了 TimeSeriesSplit 框架的使用。通过这种方法，每个数据折叠的构建方式使得训练数据更接近预测周期的开始。

from sklearn.model_selection import TimeSeriesSplit, ParameterGrid

splits = TimeSeriesSplit(n_splits=3, max_train_size=365*2)
for train_index, val_index in splits.split(X_train):
    print("TRAIN:", len(train_index), "TEST:", len(val_index))
    y_train["target_t1"][train_index].plot()
    y_train["target_t1"][val_index].plot()
    plt.show()

输出

from sklearn.ensemble import RandomForestRegressor

splits = TimeSeriesSplit(n_splits=3, max_train_size=365*2)
rfr = RandomForestRegressor()
# Create a dictionary of hyperparameters to search
rfr_grid = {"n_estimators": [500], 
        'max_depth': [3, 5, 10, 20, 30], 
        'max_features': [4, 8, 16, 32, 59], 
        'random_state': [123]}
rfr_paramGrid = ParameterGrid(rfr_grid)

def TimeSplit_ModBuild(model, paramGrid, splits, X, y):
    from sklearn.model_selection import TimeSeriesSplit
    from sklearn.metrics import mean_squared_error

    #Loop over each time split and for each
    for train_index, val_index in splits.split(X_train):
        _X_train_ = X.iloc[train_index]
        _y_train_ = y.iloc[train_index]
        _X_val_ = X.iloc[val_index]
        _y_val_ = y.iloc[val_index]

        train_scores = []
        val_scores = []
        #models = []
        
        # Loop through the parameter grid, set the hyperparameters, and save the scores
        for g in paramGrid:
            model.set_params(**g)
            model.fit(_X_train_, _y_train_)
            p_train = model.predict(_X_train_)
            p_val = model.predict(_X_val_)
            score_train = np.mean(mean_squared_error(_y_train_, p_train))
            score_val = np.mean(mean_squared_error(_y_val_, p_val))
            train_scores.append(score_train)
            val_scores.append(score_val)
            #models.append(model)
            best_idx = np.argmin(val_scores)
            
        print("Best-Fold HyperParams:: ", paramGrid[best_idx])
        print("Best-Fold Train RMSE: ", train_scores[best_idx])
        print("Best-Fold Val RMSE: ",val_scores[best_idx])
        print("\n")
        
    #Return the most recent model
    return train_scores, val_scores, best_idx


CV_rfr_tup = TimeSplit_ModBuild(rfr, rfr_paramGrid, splits, X_train, y_train["target_t1"])

输出

best_rfr_idx = CV_rfr_tup[2]
best_rfr_grid = rfr_paramGrid[best_rfr_idx]
best_rfr = RandomForestRegressor().set_params(**best_rfr_grid).\
    fit(X_train.loc["2016":"2017"], y_train.loc["2016":"2017", "target_t1"])

与线性回归相比，使用随机森林可以显著提高性能。但是，必须谨慎行事，因为随机森林模型是通过对数据进行自举来构建的，这可能会导致数据集丢失一些时间结构。

特征重要性

# Get feature importances from our random forest model
importances = best_rfr.feature_importances_

# Get the index of importance from greatest importance to least
sorted_index = np.argsort(importances)[::-1]
sorted_index_top = sorted_index[:10]
x = range(len(sorted_index_top))

# Create tick labels 
labels = np.array(features)[sorted_index_top]
plt.bar(x, importances[sorted_index_top], tick_label=labels)
plt.title("Feature importance analyisis")
# Rotate tick labels to vertical
plt.xticks(rotation=45)
plt.show()

输出

模型结果与相关性分析的结果不符，这凸显了复杂关系和交互对模型性能的影响。这一点至关重要，尤其是在处理 ARIMA 等模型时。

模型评估

在评估模型性能时，选择平均绝对百分比误差 (MAPE) 作为性能指标，而不是常用的均方根误差 (RMSE)。MAPE 被认为更适合此分析，因为它更容易理解和沟通。MAPE 将使用一个周期的超前模型来计算测试周期。

p_train = best_rfr.predict(X_train)
train_resid_1step = y_train["target_t1"]- p_train

p_test = best_rfr.predict(X_test)
test_resid_1step = y_test["target_t1"]- p_test

test_df = y_test[["target_t1"]]*std+mean
test_df["pred_t1"] = p_test*std+mean
test_df["resid_t1"] = test_df["target_t1"].add(-test_df["pred_t1"])
test_df["abs_resid_t1"] = abs(test_df["resid_t1"])
test_df["ape_t1"] = test_df["resid_t1"].div(test_df["target_t1"])

test_MAPE = test_df["ape_t1"].mean()*100
print("1-period ahead forecasting MAPE: ", test_MAPE)

输出

test_df[["target_t1", "pred_t1"]].plot()

plt.title("1-period ahead Forecasting")
plt.ylabel("(MWh)")
plt.legend()
plt.show()

输出

MAPE 值略高于 10%，考虑到电力需求与天气状况的高度相关性，这非常出色。此外，重要的是要注意，二月份经历了异常寒冷的气温，这使得结果更加惊人。

plt.scatter(y=y_train["target_t1"],x=p_train, label="train")
plt.scatter(y=y_test["target_t1"],x=p_test, label="test")
plt.title("1-period ahead Actual vs forecasting ")
plt.ylabel("Actual")
plt.xlabel("Forecast")
plt.legend()
plt.show()

输出

通过绘制实际值与预测值，我们可以直观地评估模型拟合训练数据并将其泛化到测试数据的能力。

残差分析

test_resid_1step.plot.hist(bins=10, title="Test 1-step ahead residuals distribution")
plt.xlabel("Residuals")
plt.show()

输出

test_resid_1step.plot(title="Test 1-step ahead residuals time series")
plt.ylabel("Residuals")
plt.show()

输出

plt.scatter(x=y_test["target_t1"].values, y=test_resid_1step.values)
plt.title("Test 1-step ahead residuals vs Actual values")
plt.ylabel("Residuals")
plt.xlabel("Actual values")
plt.show()

输出

预测

多周期超前模型构建

一旦确定了最佳的超参数集，我们就可以使用最新和最相关的数据训练一个新的随机森林模型实例。通常，建议至少有两年的数据来生成长期的每日预测。让我们继续使用 MultiOutput Regression 功能重新训练一系列随机森林模型。

multi_rfr = RandomForestRegressor().set_params(**best_rfr_grid).\
    fit(X_train.loc["2016":"2017"], y_train.loc["2016":"2017"])

p_train = multi_rfr.predict(X_train)
train_resid_1step = y_train- p_train

p_test = multi_rfr.predict(X_test)
test_resid_1step = y_test- p_test

最后，重要的是评估多个周期的预测准确性，使用 MAPE（平均绝对百分比误差）指标，并确定其是否保持一致和稳定。

periods = [1, 7, 14, 30]

ytest_df = y_test*std+mean
ptest_df = pd.DataFrame(data=p_test*std+mean, index=test_df.index, columns=["pred_t" + str(i) for i in range(1, 31)])
test_df = pd.concat([ytest_df, ptest_df], axis=1)

test_MAPE = []

for t in periods:
    test_df["resid_t" + str(t)] = test_df["target_t" + str(t)].add(-test_df["pred_t" + str(t)])
    test_df["abs_resid_t" + str(t)] = abs(test_df["resid_t" + str(t)])
    test_df["ape_t" + str(t)] = test_df["abs_resid_t" + str(t)].div(test_df["target_t" + str(t)])
    test_MAPE.append(round(test_df["ape_t" + str(t)].mean(), 4)*100)

print("MAPE test: ", test_MAPE)

输出

mape_df = pd.DataFrame(index=periods, data={"test_MAPE": test_MAPE})
mape_df.plot(kind="bar", legend=False)
plt.title("Mean Absolute Percent Error in Test")
plt.xlabel("Forecasting Period")
plt.ylabel("%")
plt.xticks(rotation=0)
plt.show()

输出

正如预期的那样，在考虑较短周期时，预测准确性会提高。值得注意的是，拥有更多数据并不总是保证更好的结果。此外，MAPE 随着预测范围的扩大而趋于增加，但总体而言，它显示出相对稳定的模式。

实际值 vs. 预测值

如前所述，评估模型拟合的便捷方法是绘制实际值与预测值，并检查数据点的分布。

#f, ax = plt.subplots(nrows=3,ncols=2)
for t in periods:
    test_df[["target_t" + str(t), "pred_t" + str(t)]].plot(x="pred_t" + str(t), y="target_t" + str(t) ,kind="scatter")
    plt.title("{}-period(s) ahead forecasting".format(t))
    plt.xlabel("Forecasted (MWh)")
    plt.ylabel("Actual values (MWh)")
    plt.xticks(rotation=45)
    plt.show()

输出

很明显，随着预测周期的延长，数据点的分散度增加，尤其是对于极端值。

预测 30 天

forecast_range = pd.date_range(start=np.max(test_df.index.values), periods=tau, freq="D")
len(forecast_range)

输出

forecast = []
for t in range(0, tau):
    #print(-(t+1), (t))
    forecast = p_test[-(t+1):,(t)]*std+mean

test_df["target_t1"].plot()
plt.scatter(x=test_df.index, y=test_df["pred_t1"], c="r", alpha=0.2, label="test preds")
plt.plot(forecast_range, forecast, c="r", alpha=0.5, label="forecasting")
plt.ylabel("(MWh)")
plt.xticks(rotation=45)
plt.title("Forecasting Daily Electricity Consumption (MWh) in Spanish Market (2018)")
plt.show()

输出

机器学习的未来展望

机器学习在能源行业具有巨大的潜力。通过分析包括电力使用、天气模式和季节性变化在内的海量历史数据，机器学习算法可以提供准确的预测。像变量之间复杂的相互作用等挑战正通过先进的技术得到解决。该领域的未来看起来充满希望，准确性不断提高，物联网和智能电网数据不断整合，以及实时预测分析。这将实现高效的能源分配、需求侧响应以及可再生能源的无缝整合。此外，机器学习将支持能源基础设施的预测性维护，并促进能源节约和可持续发展。人工智能与人类专业知识的合作至关重要，透明的人工智能模型将建立信任和责任感。总而言之，机器学习将彻底改变能源行业，并为更可持续、更高效的能源生态系统铺平道路。

结论

使用机器学习进行电力消耗预测是能源行业的一项游戏规则改变者。通过利用数据和高级算法的力量，我们正在为高效的能源管理和更绿色的明天解锁新的可能性。随着机器学习的不断发展，我们可以期待一个电力消耗将变得更加可持续、经济实惠和环保的未来。拥抱这种尖端方法将为更光明、更可持续的能源未来铺平道路。

下一主题数据分析与机器学习

机器学习中的电力消耗预测

使用机器学习进行电力消耗预测的优势

使用机器学习进行电力消耗预测的挑战

关于数据集

内容

注意：保留了原始数据格式，以防需要附加从 Esios 下载的新数据。因此，地理列为空。

代码

导入库

读取数据集

EDA（探索性数据分析）

目标分析（正态性）

特征工程

模型构建

数据拆分

基线模型：线性回归

使用时间序列拆分训练随机森林以调优超参数

特征重要性

模型评估

残差分析

预测

多周期超前模型构建

实际值 vs. 预测值

预测 30 天

机器学习的未来展望

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

机器学习中的电力消耗预测

使用机器学习进行电力消耗预测的优势

使用机器学习进行电力消耗预测的挑战

关于数据集

内容

注意：保留了原始数据格式，以防需要附加从 Esios 下载的新数据。因此，地理列为空。

代码

导入库

读取数据集

EDA（探索性数据分析）

目标分析（正态性）

特征工程

模型构建

数据拆分

基线模型：线性回归

使用时间序列拆分训练随机森林以调优超参数

特征重要性

模型评估

残差分析

预测

多周期超前模型构建

实际值 vs. 预测值

预测 30 天

机器学习的未来展望

结论

相关帖子

机器学习中的转置卷积

AIC 和 BIC

机器学习中的数据可视化工具

联合、边缘和条件概率

CatBoost 与 XGBoost

使用机器学习在数据中查找模式

机器学习在国防/军事领域的应用

机器学习中的森林覆盖类型预测

什么是雅可比矩阵？

新颖性检测

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器