机器学习中的销售预测

2025年6月24日 | 阅读 14 分钟

机器学习是一种强大的工具，可用于预测销售并改善业务成果。在本文中，我们将讨论如何使用机器学习来预测销售以及可以用于此目的的不同方法。

机器学习销售预测方法

预测销售最常用的方法之一是回归分析。该方法涉及使用历史销售数据来训练一个可以预测未来销售的模型。该模型可以考虑过去的销售、营销活动和经济指标等因素来做出预测。
另一种流行的销售预测方法是时间序列分析。该方法涉及使用历史销售数据来识别销售随时间变化的模式和趋势。然后，模型可以利用这些模式来预测未来的销售。此方法特别适用于预测季节性行业的销售，例如零售和旅游业。
另一种方法是使用基于决策树的算法，例如随机森林、梯度提升等。当有许多影响销售的因素时，这些算法特别有用，例如产品特性、客户人口统计信息和市场状况。该算法可以帮助识别最重要的因素并利用它们来做出预测。
除了这些方法之外，还可以通过使用神经网络来预测销售。神经网络是一种机器学习算法，可以学习识别数据中的模式。它们可以在大量的销售数据上进行训练，并可以预测未来的销售。
还可以通过使用聚类算法来预测销售，这些算法可以帮助识别相似的客户群体。然后，可以使用这些信息来创建有针对性的营销活动并改进销售策略。

使用 Python 进行销售预测

那么，现在我们将尝试使用各种机器学习技术来预测销售。

代码

1. 导入库

# EDA Libraries:

import pandas as pd
import numpy as np

import matplotlib.colors as col
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

import datetime
from pathlib import Path  
import random

# Scikit-Learn models:

from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.ensemble import RandomForestRegressor
from xgboost.sklearn import XGBRegressor
from sklearn.model_selection import KFold, cross_val_score, train_test_split

# LSTM:

import keras
from keras.layers import Dense
from keras.models import Sequential
from keras.callbacks import EarlyStopping
from keras.utils import np_utils
from keras.layers import LSTM


# ARIMA Model:

import statsmodels.tsa.api as smt
import statsmodels.api as sm
from statsmodels.tools.eval_measures import rmse


import pickle
import warnings

2. 数据加载与探索

在将数据转换为每个模型将使用的结构之前，必须先加载数据。最基本的形式是，每行数据反映 10 家商店中一家商店一天的销售额。由于我们的目标是预测月度销售额，我们将首先将所有商店和天数相加，以获得总月度销售额。

warnings.filterwarnings("ignore", category=FutureWarning)
dataset = pd.read_csv('../input/demand-forecasting-kernels-only/sample_submission.csv')
df = dataset.copy()
df.head()

输出

现在，我们将创建一个函数，用于提取 CSV 文件，然后将其转换为 pandas 数据框。

def load_data(file_name):
    """Returns a pandas dataframe from a csv file."""
    return pd.read_csv(file_name)

df_s.tail()

# To view basic statistical details about dataset:

df_s['sales'].describe()

df_s['sales'].plot()

输出

def monthlyORyears_sales(data,time=['monthly','years']):
    data = data.copy()
    if time == "monthly":
        # Drop the day indicator from the date column:
        data.date = data.date.apply(lambda x: str(x)[:-3])
    else:
        data.date = data.date.apply(lambda x: str(x)[:4])
       
   # Sum sales per month:
    data = data.groupby('date')['sales'].sum().reset_index()
    data.date = pd.to_datetime(data.date)
       
    return data

上述函数返回一个数据框，其中每行代表按月计算的总销售额，列包括“日期”和“销售额”。

m_df = monthlyORyears_sales(df_s,"monthly")

m_df.to_csv('./monthly_data.csv')

m_df.head(10)

输出

在上述数据框中，现在每行代表商店在特定月份的总销售额。

y_df = monthlyORyears_sales(df_s,"years")
y_df

输出

在上述数据框中，现在每行代表商店在特定年份的总销售额。

layout = (1, 2)

raw = plt.subplot2grid(layout, (0 ,0))
law = plt.subplot2grid(layout, (0 ,1))

years = y_df['sales'].plot(kind = "bar",color = 'mediumblue', label="Sales",ax=raw, figsize=(12,5))
months = m_df['sales'].plot(marker = 'o',color = 'darkorange', label="Sales", ax=law)

years.set(xlabel = "Years",title = "Distribution of Sales Per Year")
months.set(xlabel = "Months", title = "Distribution of Sales Per Mounth")

sns.despine()
plt.tight_layout()

years.legend()
months.legend()

输出

<matplotlib.legend.Legend at 0x27280058fa0>

注意

有许多替代模型可用于预测时间序列，包括加权移动平均模型和自回归积分移动平均（ARIMA）模型。其中一些需要先去除趋势和季节性。例如，如果您正在分析网站上的活跃访客数量，并且该数量每月增长 10%，则您需要从时间序列中排除此趋势。要获得最终预测，您需要在模型训练并开始进行预测后将趋势加回来。同样，如果您试图预测防晒霜的月度销售额，您可能会看到明显的季节性：由于防晒霜在夏季销售良好，因此每年都会重复相同的模式。

通过计算每一步的值与一年前的值之间的差值，例如，您将能够从时间序列中消除这种季节性（此技术称为差分）。同样，要获得最终预测，您需要在模型训练并进行多次预测后重新添加季节性模式。

3. EDA（探索性数据分析）

我们将计算每个月销售额之间的差值，并将其添加为数据框中的新列，以使其平稳。

sales_time() 函数将以天、年和月为单位打印商店的总耗时。

def sales_time(data):
    """Time interval of dataset:"""

    data.date = pd.to_datetime(data.date)
    n_of_days = data.date.max() - data.date.min()
    n_of_years = int(n_of_days.days / 365)
   
    print(f"Days: {n_of_days.days}\nYears: {n_of_years}\nMonth: {12 * n_of_years}")

sales_time(df_s)

输出

 
# Let's sell it per store:

def sales_per_store(data):
    sales_by_store = data.groupby('store')['sales'].sum().reset_index()
   
    fig, ax = plt.subplots(figsize=(8,6))
    sns.barplot(sales_by_store.store, sales_by_store.sales, color='darkred')
   
    ax.set(xlabel = "Store Id", ylabel = "Sum of Sales", title = "Total Sales Per Store")
   
    return sales_by_store

上述函数表示每个商店的销售额。

输出

上图表示每个商店的总销售额。

从上图可以看出，Store Id 2 的销售额最高，为6120128，Store Id 7 的销售额最低，为5856169。

# Overall for five years:

average_m_sales = m_df.sales.mean()
print(f"Overall Average Monthly Sales: ${average_m_sales}")

def avarage_12months():
# Last one year (this will be the forecasted sales):
    average_m_sales_1y = m_df.sales[-12:].mean()
    print(f"Last 12 months average monthly sales: ${average_m_sales_1y}")
avarage_12months()

输出

4. 确定时间序列的平稳性

基本思想是模拟或估计序列中存在的趋势和季节性，然后将其减去以获得平稳序列。然后，该序列可以使用统计预测技术。通过重新添加趋势和季节性限制，预测值将随后被转换回原始尺度。

def time_plot(data, x_col, y_col, title):
    fig, ax = plt.subplots(figsize = (15,8))
    sns.lineplot(x_col, y_col, data = data, ax = ax, color = 'darkblue', label='Total Sales')
   
    s_mean = data.groupby(data.date.dt.year)[y_col].mean().reset_index()
    s_mean.date = pd.to_datetime(s_mean.date, format='%Y')
    sns.lineplot((s_mean.date + datetime.timedelta(6*365/12)), y_col, data=s_mean, ax=ax, color='red', label='Mean Sales')  
   
    ax.set(xlabel = "Years",
           ylabel = "Sales",
           title = title)


time_plot(m_df, 'date', 'sales', 'Monthly Sales Before Diff Transformation' )

输出

5. 差分

我们将使用这种方法来计算序列中后续词语之间的差值。通过差分通常可以消除变化的均值。

def get_diff(data):
    """Calculate the difference in sales month over month:"""
   
    data['sales_diff'] = data.sales.diff()
    data = data.dropna()
   
    data.to_csv('./stationary_df.csv')
   
    return data

stationary_df = get_diff(m_df)
time_plot(stationary_df, 'date', 'sales_diff',
          'Monthly Sales After Diff Transformation')

输出

现在，我们将为各种模型类型设置数据，以便它代表月度销售额，并且已被修改为平稳。

为此，我们将定义两个不同的结构

一个将用于 ARIMA 建模。
其余模型将使用另一个。

ARIMA 建模

ARIMA（自回归积分移动平均）是一种流行的时间序列预测模型，用于单变量时间序列数据。

ARIMA 模型拟合时间序列数据以预测未来值。拟合 ARIMA 模型的过程包括选择AR、I 和 MA 分量的阶数，以及每个分量的系数。这些系数使用最大似然估计或数值优化等优化算法进行估计。然后可以使用生成的模型为时间序列的未来值生成预测。

def build_arima_data(data):
    """Generates a CSV file with a datetime index and a dependent sales column for ARIMA modelling."""
   
    da_data = data.set_index('date').drop('sales', axis=1)
    da_data.dropna(axis=0)
   
    da_data.to_csv('./arima_df.csv')
   
    return da_data

datatime_df = build_arima_data(stationary_df)
datatime_df # ARIMA Dataframe

输出

观察滞后

观察滞后是 ARIMA 建模过程中的一个重要步骤。观察滞后的目标是确定 ARIMA 模型中自回归 (AR) 分量的阶数。自回归分量基于时间序列的过去值，AR 分量的阶数决定了用作预测变量的过去值的数量。

要观察滞后，通常会绘制时间序列的自相关函数 (ACF) 和偏自相关函数 (PACF)。ACF 是时间序列与其滞后版本之间相关性的图，而 PACF 是时间序列与其滞后值之间相关性的图，同时控制了任何中间滞后的影响。

为了构建一个新的数据框供其他模型使用，我们将每个字符分配给前一个月的销售额。我们将查看自相关图和偏自相关图，并使用 ARIMA 建模中选择滞后的指南来决定在我们的特征集中包含多少个月。通过这种方式，我们可以为 ARIMA 模型和回归模型保持恒定的回顾时间。

def plots_lag(data, lags=None):
    """Convert dataframe to datetime index"""
    dt_data = data.set_index('date').drop('sales', axis=1)
    dt_data.dropna(axis=0)
   
   
    law  = plt.subplot(122)
    acf  = plt.subplot(221)
    pacf = plt.subplot(223)
   
    dt_data.plot(ax=law, figsize=(10, 5), color='orange')
    # Plot the autocorrelation function:
    smt.graphics.plot_acf(dt_data, lags=lags, ax=acf, color='mediumblue')
    smt.graphics.plot_pacf(dt_data, lags=lags, ax=pacf, color='mediumblue')
   
    # Will also adjust the spacing between subplots to minimize the overlaps:
    plt.tight_layout()

plots_lag(stationary_df, lags=24);

输出

回归建模

回归建模是一种统计方法，用于对因变量和一个或多个自变量之间的关系进行建模。回归建模的目的是识别自变量和因变量之间的关系，并利用这种关系来预测因变量。

让我们创建一个 CSV 文件，其中包含销售额、因变量以及每个滞后的先前销售额的列，以及每行的月份。EDA 用于构建 12 个滞后特征。回归建模使用数据。

# Let's create a data frame for transformation from time series to supervised:

def built_supervised(data):
    supervised_df = data.copy()

    # Create a column for each lag:
    for i in range(1, 13):
        col_name = 'lag_' + str(i)
        supervised_df[col_name] = supervised_df['sales_diff'].shift(i)

    # Drop null values:
    supervised_df = supervised_df.dropna().reset_index(drop=True)

    supervised_df.to_csv('./model_df.csv', index=False)
   
    return supervised_df
   

model_df = built_supervised(stationary_df)
model_df

输出

我们将分离数据，以便最后 12 个月属于测试集，其余数据用于训练模型。

训练和测试数据

def train_test_split(data):
    data = data.drop(['sales','date'], axis=1)
    train , test = data[:-12].values, data[-12:].values
   
    return train, test

train, test = train_test_split(model_df)
print(f"Shape of  Train: {train.shape}\nShape of  Test: {test.shape}")

输出

6. 数据缩放

数据缩放是指转换数据集中变量的值，使其处于相似的范围。这通常是为了防止某些变量因其较大的尺度而对模型产生不当影响。

def scale_data(train_set,test_set):
    """Scales data using MinMaxScaler and separates data into X_train, y_train,
    X_test, and y_test."""
   
    # Apply Min Max Scaler:
    scaler = MinMaxScaler(feature_range=(-1, 1))
    scaler = scaler.fit(train_set)
   
    # Reshape training set:
    train_set = train_set.reshape(train_set.shape[0],
                                  train_set.shape[1])
    train_set_scaled = scaler.transform(train_set)
   
    # Reshape test set:
    test_set = test_set.reshape(test_set.shape[0],
                                test_set.shape[1])
    test_set_scaled = scaler.transform(test_set)
   
    X_train, y_train = train_set_scaled[:, 1:], train_set_scaled[:, 0:1].ravel() # returns the array, flattened!
    X_test, y_test = test_set_scaled[:, 1:], test_set_scaled[:, 0:1].ravel()
   
    return X_train, y_train, X_test, y_test, scaler


X_train, y_train, X_test, y_test, scaler_object = scale_data(train, test)
print(f"Shape of X Train: {X_train.shape}\nShape of y Train: {y_train.shape}\nShape of X Test: {X_test.shape}\nShape of y Test: {y_test.shape}")

输出

7. 反向缩放

反向缩放是指将一组缩放后的变量转换回其原始尺度。当您希望根据原始变量而不是缩放后的变量来解释建模分析的结果时，可能需要这样做。反向缩放过程取决于用于缩放数据的方法。

def re_scaling(y_pred, x_test, scaler_obj, lstm=False):
    """For visualizing and comparing results, undoes the scaling effect on predictions."""
   # y_pred: model predictions
   # x_test: features from the test set used for predictions
   # scaler_obj: the scalar objects used for min-max scaling
   # lstm: indicate if the model run is the lstm. If True, additional transformation occurs
   
    # Reshape y_pred:
    y_pred = y_pred.reshape(y_pred.shape[0],
                            1,
                            1)

    if not lstm:
        x_test = x_test.reshape(x_test.shape[0],
                                1,
                                x_test.shape[1])

    # Rebuild test set for inverse transform:
    pred_test_set = []
    for index in range(0, len(y_pred)):
        pred_test_set.append(np.concatenate([y_pred[index],
                                             x_test[index]],
                                             axis=1) )

    # Reshape pred_test_set:
    pred_test_set = np.array(pred_test_set)
    pred_test_set = pred_test_set.reshape(pred_test_set.shape[0],
                                          pred_test_set.shape[2])

    # Inverse transform:
    pred_test_set_inverted = scaler_obj.inverse_transform(pred_test_set)

    return pred_test_set_inverted

现在我们有两个不同的数据结构

我们的 ARIMA 结构中有一个 DateTime 索引。
滞后是我们监督结构中的特征。

8. 预测数据框

def prediction_df(unscale_predictions, origin_df):
    """Generates a dataframe that shows the predicted sales for each month
    for plotting results."""
   
    # unscale_predictions: the model predictions that do not have min-max or other scaling applied
    # origin_df: the original monthly sales dataframe
   
    # Create a dataframe that shows the predicted sales:
    result_list = []
    sales_dates = list(origin_df[-13:].date)
    act_sales = list(origin_df[-13:].sales)

    for index in range(0, len(unscale_predictions)):
        result_dict = {}
        result_dict['pred_value'] = int(unscale_predictions[index][0] + act_sales[index])
        result_dict['date'] = sales_dates[index + 1]
        result_list.append(result_dict)

    df_result = pd.DataFrame(result_list)

    return df_result

模型分数

模型分数函数是衡量预测模型准确性或性能的函数。分数函数提供了模型做出准确预测的能力的量化度量，并用于比较不同的模型并为特定任务选择最佳模型。

这个辅助函数会将我们预测的均方根误差 (RMSE) 和平均绝对误差 (MAE) 保存到比较模型的性能。

model_scores = {}

def get_scores(unscale_df, origin_df, model_name):
    """Prints the root mean squared error, mean absolute error, and r2 scores
    for each model. Saves all results in a model_scores dictionary for
    comparison."""
   
    rmse = np.sqrt(mean_squared_error(origin_df.sales[-12:],
                                      unscale_df.pred_value[-12:]))
   
    mae = mean_absolute_error(origin_df.sales[-12:],
                              unscale_df.pred_value[-12:])
   
    r2 = r2_score(origin_df.sales[-12:],
                  unscale_df.pred_value[-12:])
   
    model_scores[model_name] = [rmse, mae, r2]

    print(f"RMSE: {rmse}\nMAE: {mae}\nR2 Score: {r2}")

Graph

使用这个 plot_results() 函数，它将绘制模型的折线图。

def plot_results(results, origin_df, model_name):
# results: a dataframe with unscaled predictions

    fig, ax = plt.subplots(figsize=(15,5))
    sns.lineplot(origin_df.date, origin_df.sales, data=origin_df, ax=ax,
                 label='Original', color='blue')
    sns.lineplot(results.date, results.pred_value, data=results, ax=ax,
                 label='Predicted', color='red')
   
   
    ax.set(xlabel = "Date",
           ylabel = "Sales",
           title = f"{model_name} Sales Forecasting Prediction")
   
    ax.legend(loc='best')
   
    filepath = Path('./model_output/{model_name}_forecasting.svg')  
    filepath.parent.mkdir(parents=True, exist_ok=True)
    plt.savefig(f'./model_output/{model_name}_forecasting.svg')

   

def regressive_model(train_data, test_data, model, model_name):
    """Runs regressive models in SKlearn framework. First, calls scale_data
    to split into X and y and scale the data. Then fits and predicts. Finally,
    predictions are unscaled, scores are printed, and results are plotted and
    saved."""
   
    # Split into X & y and scale data:
    X_train, y_train, X_test, y_test, scaler_object = scale_data(train_data,
                                                                 test_data)

    # Run sklearn models:
    mod = model
    mod.fit(X_train, y_train)
    predictions = mod.predict(X_test) # y_pred=predictions

    # Undo scaling to compare predictions against original data:
    origin_df = m_df
    unscaled = re_scaling(predictions, X_test, scaler_object) # unscaled_predictions
    unscaled_df = prediction_df(unscaled, origin_df)

    # Print scores and plot results:
    get_scores(unscaled_df, origin_df, model_name)
    plot_results(unscaled_df, origin_df, model_name)

建模

我们将为我们的任务使用基础回归模型

线性回归
随机森林回归器
XGBoost
LSTM

现在我们将尝试通过每个模型找到 RMSE、MAE 和 R2 分数。

1. 线性回归

线性回归是一种统计方法，用于对因变量和一个或多个自变量之间的线性关系进行建模。它是一种监督学习，这意味着它用于根据输入变量进行预测。

输出

随机森林回归器

随机森林回归器是一种用于回归问题的集成学习方法。它是决策树算法的扩展，其中将多个决策树组合形成一个森林。

regressive_model(train, test, RandomForestRegressor(n_estimators=100, max_depth=20),
          'RandomForest')

输出

3. XGBOOST

XGBoost 回归是 XGBoost 算法在回归问题中的一个特定实现，其目标是预测连续的目标变量。它可以处理自变量和因变量之间的线性关系和非线性关系，还可以处理大型数据集和缺失数据。

regressive_model(train, test, XGBRegressor(n_estimators=100,max_depth=3,
                                           learning_rate=0.2,objective='reg:squarederror'), 'XGBoost')

输出

LSTM

LSTM 是一种循环神经网络，特别适用于预测序列数据。

def lstm_model(train_data, test_data):
    """Runs a long-short-term-memory neural net with two dense layers.
    Generates predictions that are then unscaled.
    Scores are printed, and the results are plotted and saved."""
    # train_data: dataset used to train the model
    # test_data: dataset used to test the model
   
   
    # Split into X & y and scale data:
    X_train, y_train, X_test, y_test, scaler_object = scale_data(train_data, test_data)
   
    X_train = X_train.reshape(X_train.shape[0], 1, X_train.shape[1])
    X_test = X_test.reshape(X_test.shape[0], 1, X_test.shape[1])
   
   
    # Build LSTM:
    model = Sequential()
    model.add(LSTM(4, batch_input_shape=(1, X_train.shape[1], X_train.shape[2]),
                   stateful=True))
    model.add(Dense(1))
    model.add(Dense(1))
    model.compile(loss='mse', optimizer='adam', metrics=['accuracy'])
    model.fit(X_train, y_train, epochs=50, batch_size=1, verbose=1,
              shuffle=False)
    predictions = model.predict(X_test,batch_size=1)
   
    # Undo scaling to compare predictions against original data:
    origin_df = m_df
    unscaled = re_scaling(predictions, X_test, scaler_object, lstm=True)
    unscaled_df = prediction_df(unscaled, origin_df)
   
    get_scores(unscaled_df, origin_df, 'LSTM')
    plot_results(unscaled_df, origin_df, 'LSTM')
   


lstm_model(train,test)

输出

ARIMA 建模

datatime_df.index = pd.to_datetime(datatime_df.index)


def sarimax_model(data):
    # Model:
    sar = sm.tsa.statespace.SARIMAX(data.sales_diff, order=(12, 0, 0),
                                    seasonal_order=(0, 1, 0, 12),
                                    trend='c').fit()
   
    # Generate predictions:
    start, end, dynamic = 40, 100, 7
    data['pred_value'] = sar.predict(start=start, end=end, dynamic=dynamic)
    pred_df = data.pred_value[start+dynamic:end]
   
    data[["sales_diff","pred_value"]].plot(color=['blue', 'Red'])
    plt.legend(loc='upper left')
   
    model_score = {}
   
    rmse = np.sqrt(mean_squared_error(data.sales_diff[-12:], data.pred_value[-12:]))
    mae = mean_absolute_error(data.sales_diff[-12:], data.pred_value[-12:])
    r2 = r2_score(data.sales_diff[-12:], data.pred_value[-12:])
    model_scores['ARIMA'] = [rmse, mae, r2]
   
    print(f"RMSE: {rmse}\nMAE: {mae}\nR2 Score: {r2}")
   
    return sar, data, pred_df

sar, datatime_df, predictions = sarimax_model(datatime_df)

输出

比较模型

在构建预测模型过程中，比较不同的机器学习模型是一个重要步骤。在比较模型时，应考虑几个因素，包括；准确性、训练时间、可伸缩性、模型复杂性、过拟合、可解释性、灵活性、预测时间等。

但在我们这里，我们将考虑 RMSE、MAE 和 R2 分数。

def create_results_df():
    results_dict = pickle.load(open("model_scores.p", "rb"))
   
    results_dict.update(pickle.load(open("ARIMAmodel_scores.p", "rb")))
   
    results_df = pd.DataFrame.from_dict(results_dict, orient='index',
                                        columns=['RMSE', 'MAE','R2'])
   
    results_df = results_df.sort_values(by='RMSE', ascending=False).reset_index()
   
    results_df.to_csv('./results.csv')
   
    fig, ax = plt.subplots(figsize=(12, 5))
    sns.lineplot(np.arange(len(results_df)), 'RMSE', data=results_df, ax=ax,
                 label='RMSE', color='darkblue')
    sns.lineplot(np.arange(len(results_df)), 'MAE', data=results_df, ax=ax,
                 label='MAE', color='Cyan')
   
    plt.xticks(np.arange(len(results_df)),rotation=45)
    ax.set_xticklabels(results_df['index'])
    ax.set(xlabel = "Model",
           ylabel = "Scores",
           title = "Model Error Comparison")
    sns.despine()
   
    plt.savefig(f'./model_output/compare_models.png')
   
    return results_df
   
   
results = create_results_df()
results

输出

average = 894478.3333333334
XGBoost = results.MAE.values[4]
percentage_off = round(XGBoost/average*100,2)

print(f"With XGBoost, prediction is within {percentage_off}% of the actual.")

输出

在比较模型时，我们发现 XGBoost 的 RMSE 分数最低，为 13574.854582，这表明它在所有其他模型中的准确性最高。

通过百分比测试，我们发现 XGBoost 的预测占实际预测的 1.3%。

总的来说，机器学习可以成为预测销售和改善业务成果的强大工具。无论您是使用回归分析、时间序列分析、基于决策树的算法还是神经网络，机器学习都可以帮助您做出更准确的预测并采取行动来提高您的销售额。

注意：需要注意的是，与任何预测模型一样，预测的准确性将取决于用于训练模型的数据的质量和数量。因此，要设计一个好的模型，就必须对数据和潜在的业务问题有深刻的理解。

结论

总而言之，机器学习可以是企业手中预测销售和做出明智决策的强大工具。通过结合各种算法、历史数据和神经网络，企业可以提高销售额并为未来做出更好的决策。

下一主题Markov-models-in-action-predicting-user-needs-with-precision-and-efficiency

机器学习中的销售预测

机器学习销售预测方法

使用 Python 进行销售预测

代码

1. 导入库

2. 数据加载与探索

注意

3. EDA（探索性数据分析）

4. 确定时间序列的平稳性

5. 差分

ARIMA 建模

观察滞后

回归建模

训练和测试数据

6. 数据缩放

7. 反向缩放

8. 预测数据框

模型分数

Graph

建模

1. 线性回归

随机森林回归器

3. XGBOOST

LSTM

ARIMA 建模

比较模型

注意：需要注意的是，与任何预测模型一样，预测的准确性将取决于用于训练模型的数据的质量和数量。因此，要设计一个好的模型，就必须对数据和潜在的业务问题有深刻的理解。

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

机器学习中的销售预测

机器学习销售预测方法

使用 Python 进行销售预测

代码

1. 导入库

2. 数据加载与探索

注意

3. EDA（探索性数据分析）

4. 确定时间序列的平稳性

5. 差分

ARIMA 建模

观察滞后

回归建模

训练和测试数据

6. 数据缩放

7. 反向缩放

8. 预测数据框

模型分数

Graph

建模

1. 线性回归

随机森林回归器

3. XGBOOST

LSTM

ARIMA 建模

比较模型

注意：需要注意的是，与任何预测模型一样，预测的准确性将取决于用于训练模型的数据的质量和数量。因此，要设计一个好的模型，就必须对数据和潜在的业务问题有深刻的理解。

结论

相关帖子

置信区间

数据科学与机器学习编码的区别

为什么要在机器学习模型中设置随机状态？

BERT 语言模型

Tensorflow 和 Keras 中的 Dropout 实现

逻辑回归的假设

什么是模型无关的方法？

机器学习在物联网中的作用是什么？

泰勒级数

非参数统计简介

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器