Caret R 包用于应用预测建模

2025 年 6 月 17 日 | 阅读 14 分钟

预测建模是一项极其重要的活动。它允许数据科学家和分析师使用历史数据来预测结果。R 语言中的 caret 包 - 分类与回归训练 (Classification And REgression Training) 是一个功能强大的工具，可以创建、评估和调整预测模型。由于其灵活性、易用性以及与几乎所有机器学习算法的广泛兼容性，它在应用预测建模领域尤其出名。

Caret R 包

R 语言中的 caret 包以统一的方式提供了模型构建和评估的交互。caret 的一些功能包括数据预处理、变量选择、模型训练、重采样和模型性能评估。实际上，caret 包通过提供统一的接口并将大量常用的模型导入到一个框架中，简化了处理各种机器学习算法的工作。这在快速原型设计和比较不同机器学习模型方面特别有用。

Caret 的主要特点之一是它能够访问 200 多种不同的机器学习算法，包括相对容易的简单线性回归模型，一直到像随机森林和梯度提升这样的复杂集成方法。

现在，我们将使用 caret 包进行预测建模，以获取数据集中房屋的价格。

导入包

library(tidyverse) 
library(recipes)
library(caret)
library(ggpubr)

输出

Caret R Package for Applied Predictive Modelling

我们需要加载数据。

datastrucTrain <- read.csv("../input/train.csv")
datastrucTest <- read.csv("../input/test.csv")

现在我们将两个数据集合并为一个统一集，这为我们提供了在所有数据上统一应用转换的空间。在测试集中，我们在 SalePrice 变量上附加一个 `NA` 值，并标记每个条目，以便我们能够跟踪这些数据中有多少来自原始训练集，有多少来自测试集。

datastrucTest <- datastrucTest %>% 
  mutate(SalePrice = as.integer(NA), indTrain = 0)

datastrucAllData <- datastrucTrain %>%
  mutate(indTrain = 1) %>%
  union(datastrucTest) %>%
  select(SalePrice, indTrain, everything())

datastrucAllData$indTrain <- as.factor(datastrucAllData$indTrain)

# Removing  the original sets
rm(datastrucTrain)
rm(datastrucTest)

输出

数据准备

实际的清理过程涉及多个转换。首先，将因子变量转换为文本格式，以实现一致的值校正。这种转换有助于更顺畅的数据准备，并确保每个变量的格式与其预期的分析用途一致。

datastrucAllData <- datastrucAllData %>%
  mutate_if(is.factor, as.character)

# Using training indicator as a factor
datastrucAllData$indTrain <- as.factor(datastrucAllData$indTrain)

现在我们将进行验证和纠正——标称和有序。这些分类字段包含不一致或错误。它们描述了一个离散值，在正常情况下，该值应该适合某种逻辑或有序结构。

# Normalize values for the Exterior1st / Exterior2nd fieldatastruc -> change value in excel to
#  Wd Sdng: Wood Siding
#  Wd Shng:	Wood Shingles
datastrucAllData <- datastrucAllData %>% mutate(Exterior1st = ifelse(Exterior1st=="Wdatastruching","Wdatastruchng",Exterior1st))
datastrucAllData <- datastrucAllData %>% mutate(Exterior1st = ifelse(Exterior1st=="Wd Sdng","Wdatastrucdng",Exterior1st))
datastrucAllData <- datastrucAllData %>% mutate(Exterior1st = ifelse(Exterior1st=="Wd Shng","Wdatastruchng",Exterior1st))

# Exterior2nd CmentBd the actual value is CemntBd (as well as Exterior1st) filter (datastrucAllData, Exterior1st == "CemntBd")
datastrucAllData <- datastrucAllData %>% mutate(Exterior2nd = ifelse(Exterior2nd=="CmentBd","CemntBd",Exterior2nd))
datastrucAllData <- datastrucAllData %>% mutate(Exterior2nd = ifelse(Exterior2nd=="Wd Sdng","Wdatastrucdng",Exterior2nd))
datastrucAllData <- datastrucAllData %>% mutate(Exterior2nd = ifelse(Exterior2nd=="Wd Shng","Wdatastruchng",Exterior2nd))
datastrucAllData <- datastrucAllData %>% mutate(Exterior2nd = ifelse(Exterior2nd=="Brk Cmn","BrkComm",Exterior2nd))

datastrucAllData <- datastrucAllData %>% mutate(MSZoning = ifelse(MSZoning=="C (all)","C",MSZoning))
datastrucAllData <- datastrucAllData %>% mutate(RoofMatl = ifelse(RoofMatl=="Tar&Grv","Tar",RoofMatl))

让我们查找缺失数据。一种方法是完全删除不完整的观测值，这会减小数据集，但也可能减小数据的大小和多样性。另一种方法是有效消除包含缺失值的变量（列），如果缺失数据集中在少数几列中。这可能导致重要特征的丢失。更复杂和创新的技术包括插补，即使用可用信息估计缺失值。替换甚至可以包括均值、中位数或众数；更复杂的过程可能包括 K-最近邻等算法或涉及的详尽过程。这取决于缺失的变量数量以及分析的需求，尽管插补在平衡数据保留和准确性方面具有很大价值。

missingData <- datastrucAllData %>%
  summarise_all(funs(sum(is.na(.)))) %>% 
  gather("column") %>%
  rename(NumNAs = value) %>% 
  mutate(PrcNAs = NumNAs/nrow(datastrucAllData)) %>% 
  filter(NumNAs!=0) %>%
  arrange(desc(PrcNAs))

head(missingData) # We present only the first

输出

通常，任何模型都会丢弃缺失值超过 80% 的变量。这主要是因为包含此类变量可能会在使用用于训练和验证的数据子集时导致一些错误。

# PoolQC - Pool quality
# MiscFeature - various features not covered in other categories
# Alley - the type of alley access
# Fence - fence quality

datastrucDeleteData <- filter(missingData, PrcNAs > 0.80) %>% select(column)

datastrucAllData <- datastrucAllData %>% 
    select(-c(datastrucDeleteData$column))

rm(datastrucDeleteData)

我们检查并调整剩余的重要缺失值。

# Utilities contain the same value and missing values, not required 
datastrucAllData <- select(datastrucAllData, -Utilities)

# Ordinal assigned text None
datastrucAllData <- mutate(datastrucAllData, FireplaceQu = ifelse(is.na(FireplaceQu),"None",FireplaceQu))
datastrucAllData <- mutate(datastrucAllData, GarageCond = ifelse(is.na(GarageCond),"None",GarageCond))
datastrucAllData <- mutate(datastrucAllData, GarageQual = ifelse(is.na(GarageQual),"None",GarageQual))
datastrucAllData <- mutate(datastrucAllData, GarageFinish = ifelse(is.na(GarageFinish),"None",GarageFinish))
datastrucAllData <- mutate(datastrucAllData, GarageType = ifelse(is.na(GarageType),"None",GarageType))
datastrucAllData <- mutate(datastrucAllData, BsmtFinType2 = ifelse(is.na(BsmtFinType2),"None",BsmtFinType2))
datastrucAllData <- mutate(datastrucAllData, BsmtQual = ifelse(is.na(BsmtQual),"None",BsmtQual))
datastrucAllData <- mutate(datastrucAllData, BsmtCond = ifelse(is.na(BsmtCond),"None",BsmtCond))
datastrucAllData <- mutate(datastrucAllData, BsmtExposure = ifelse(is.na(BsmtExposure),"None",BsmtExposure))
datastrucAllData <- mutate(datastrucAllData, BsmtFinType1 = ifelse(is.na(BsmtFinType1),"None",BsmtFinType1))
datastrucAllData <- mutate(datastrucAllData, MasVnrType = ifelse(is.na(MasVnrType),"None",MasVnrType))

# discrete and continuous to 0
datastrucAllData <- mutate(datastrucAllData, GarageYrBlt = ifelse(is.na(GarageYrBlt),0,GarageYrBlt))
datastrucAllData <- mutate(datastrucAllData, GarageCars = ifelse(is.na(GarageCars),0,GarageCars))
datastrucAllData <- mutate(datastrucAllData, GarageArea = ifelse(is.na(GarageArea),0,GarageArea))
datastrucAllData <- mutate(datastrucAllData, TotalBsmtSF = ifelse(is.na(TotalBsmtSF),0,TotalBsmtSF))
datastrucAllData <- mutate(datastrucAllData, BsmtFinSF1 = ifelse(is.na(BsmtFinSF1),0,BsmtFinSF1))
datastrucAllData <- mutate(datastrucAllData, BsmtFinSF2 = ifelse(is.na(BsmtFinSF2),0,BsmtFinSF2))
datastrucAllData <- mutate(datastrucAllData, BsmtUnfSF = ifelse(is.na(BsmtUnfSF),0,BsmtUnfSF))
datastrucAllData <- mutate(datastrucAllData, BsmtFullBath = ifelse(is.na(BsmtFullBath),0,BsmtFullBath))
datastrucAllData <- mutate(datastrucAllData, BsmtHalfBath = ifelse(is.na(BsmtHalfBath),0,BsmtHalfBath))
datastrucAllData <- mutate(datastrucAllData, MasVnrArea = ifelse(is.na(MasVnrArea),0,MasVnrArea))

datastrucAllData <- mutate(datastrucAllData, LotFrontage = ifelse(is.na(LotFrontage),mean(datastrucAllData$LotFrontage,na.rm = TRUE),LotFrontage))

# Nominal assign=normal values
datastrucAllData <- mutate(datastrucAllData, MSZoning = ifelse(is.na(MSZoning),"RL",MSZoning))
datastrucAllData <- mutate(datastrucAllData, Functional = ifelse(is.na(Functional),"Typ",Functional))
datastrucAllData <- mutate(datastrucAllData, Exterior1st = ifelse(is.na(Exterior1st),"VinylSd",Exterior1st))
datastrucAllData <- mutate(datastrucAllData, Exterior2nd = ifelse(is.na(Exterior2nd),"VinylSd",Exterior2nd))
datastrucAllData <- mutate(datastrucAllData, Electrical = ifelse(is.na(Electrical),"SBrkr",Electrical))
datastrucAllData <- mutate(datastrucAllData, KitchenQual = ifelse(is.na(KitchenQual),"TA",KitchenQual))
datastrucAllData <- mutate(datastrucAllData, SaleType = ifelse(is.na(SaleType),"WD",SaleType))

# Check the changes
missingData <- datastrucAllData %>%
  summarise_all(funs(sum(is.na(.)))) %>% 
  gather("column") %>%
  rename(NumNAs = value) %>% 
  mutate(PrcNAs = NumNAs/nrow(datastrucAllData)) %>% 
  filter(NumNAs!=0) %>%
  arrange(desc(PrcNAs))

head(missingData) 

输出

将有序变量转换为数值。

datastrucAllData$ExterQual <- factor(datastrucAllData$ExterQual, levels = rev(c("Ex","Gd","TA","Fa","Po")))
datastrucAllData$ExterQual <- as.numeric(c(datastrucAllData$ExterQual))

datastrucAllData$ExterCond <- factor(datastrucAllData$ExterCond, levels = rev(c("Ex","Gd","TA","Fa","Po")))
datastrucAllData$ExterCond <- as.numeric(c(datastrucAllData$ExterCond))

datastrucAllData$LotShape <- factor(datastrucAllData$LotShape, levels = rev(c("Reg","IR1","IR2","IR3")))
datastrucAllData$LotShape <- as.numeric(c(datastrucAllData$LotShape))

datastrucAllData$Landatastruclope <- factor(datastrucAllData$Landatastruclope, levels = rev(c("Gtl","Mod","Sev")))
datastrucAllData$Landatastruclope <- as.numeric(c(datastrucAllData$Landatastruclope))

datastrucAllData$BsmtQual <- factor(datastrucAllData$BsmtQual, levels = rev(c("Ex","Gd","TA","Fa","Po","None")))
datastrucAllData$BsmtQual <- as.numeric(c(datastrucAllData$BsmtQual))-1

datastrucAllData$BsmtCond <- factor(datastrucAllData$BsmtCond, levels = rev(c("Ex","Gd","TA","Fa","Po","None")))
datastrucAllData$BsmtCond <- as.numeric(c(datastrucAllData$BsmtCond))-1

datastrucAllData$BsmtExposure <- factor(datastrucAllData$BsmtExposure, levels = rev(c("Gd","Av","Mn","No","None")))
datastrucAllData$BsmtExposure <- as.numeric(c(datastrucAllData$BsmtExposure))-1

datastrucAllData$BsmtFinType1 <- factor(datastrucAllData$BsmtFinType1, levels = rev(c("GLQ","ALQ","BLQ","Rec","LwQ","Unf","None")))
datastrucAllData$BsmtFinType1 <- as.numeric(c(datastrucAllData$BsmtFinType1))-1

datastrucAllData$BsmtFinType2 <- factor(datastrucAllData$BsmtFinType2, levels = rev(c("GLQ","ALQ","BLQ","Rec","LwQ","Unf","None")))
datastrucAllData$BsmtFinType2 <- as.numeric(c(datastrucAllData$BsmtFinType2))-1

datastrucAllData$HeatingQC <- factor(datastrucAllData$HeatingQC, levels = rev(c("Ex","Gd","TA","Fa","Po")))
datastrucAllData$HeatingQC <- as.numeric(c(datastrucAllData$HeatingQC))

datastrucAllData$Electrical <- factor(datastrucAllData$Electrical, levels = rev(c("SBrkr","FuseA","FuseF","FuseP","Mix")))
datastrucAllData$Electrical <- as.numeric(c(datastrucAllData$Electrical))

datastrucAllData$KitchenQual <- factor(datastrucAllData$KitchenQual, levels = rev(c("Ex","Gd","TA","Fa","Po")))
datastrucAllData$KitchenQual <- as.numeric(c(datastrucAllData$KitchenQual))

datastrucAllData$Functional <- factor(datastrucAllData$Functional, levels = rev(c("Typ","Min1","Min2","Mod","Maj1","Maj2","Sev","Sal")))
datastrucAllData$Functional <- as.numeric(c(datastrucAllData$Functional))

datastrucAllData$FireplaceQu <- factor(datastrucAllData$FireplaceQu, levels = rev(c("Ex","Gd","TA","Fa","Po","None")))
datastrucAllData$FireplaceQu <- as.numeric(c(datastrucAllData$FireplaceQu))-1

datastrucAllData$GarageFinish <- factor(datastrucAllData$GarageFinish, levels = rev(c("Fin","RFn","Unf","None")))
datastrucAllData$GarageFinish <- as.numeric(c(datastrucAllData$GarageFinish))-1

datastrucAllData$GarageQual <- factor(datastrucAllData$GarageQual, levels = rev(c("Ex","Gd","TA","Fa","Po","None")))
datastrucAllData$GarageQual <- as.numeric(c(datastrucAllData$GarageQual))-1

datastrucAllData$GarageCond <- factor(datastrucAllData$GarageCond, levels = rev(c("Ex","Gd","TA","Fa","Po","None")))
datastrucAllData$GarageCond <- as.numeric(c(datastrucAllData$GarageCond))-1

datastrucAllData$PavedDrive <- factor(datastrucAllData$PavedDrive, levels = rev(c("Y","P","N")))
datastrucAllData$PavedDrive <- as.numeric(c(datastrucAllData$PavedDrive))

任何仍为字符格式的变量都将被视为标称变量。

datastrucAllData <- datastrucAllData %>% 
    mutate_if(is.character, as.factor)

datastrucAllData$MSSubClass <- as.factor(datastrucAllData$MSSubClass)

只有两个值的变量被转换为数字格式。例如，

Street: 一个因子变量的示例，它表示带有数字编码的事物，使用两个级别，例如“Grvl”和“Pave”。
CentralAir: 具有“N”和“Y”两个级别的因子变量也被编码为数值。

datastrucAllData$StreetPave[datastrucAllData$Street != "Pave"] <- "0"
datastrucAllData$StreetPave[datastrucAllData$Street == "Pave"] <- "1"
datastrucAllData$StreetPave <- as.numeric(datastrucAllData$StreetPave)
datastrucAllData <- select(datastrucAllData, -Street)

GrLivArea 代表地面以上居住面积（以平方英尺为单位）。数据集中有两个异常值，相对于训练集中的价格，其值异常高。这些行将被删除，因为该变量在预测过程中起着关键作用。

# rows deleted
datastrucDeleteData <- datastrucAllData %>% 
    filter(indTrain==1&GrLivArea>4500) %>% 
    select(Id, GrLivArea, SalePrice, indTrain)

datastrucAllData <- datastrucAllData %>%
  anti_join(datastrucDeleteData,by="Id")

LotArea 是地块面积（以平方英尺为单位）。有四个值明显超出范围。我们建议创建一个新变量，通过构造类型将这些异常值替换为中位数。

lotAreaMedian <- select(datastrucAllData,BldgType,LotArea) %>%
    group_by(BldgType) %>% 
    summarise(medianLotArea = median(LotArea))

f <- function(x){
  a <- as.numeric(lotAreaMedian[lotAreaMedian$BldgType==x,2])
  return(a)
}

datastrucAllData <- datastrucAllData %>%
    rowwise() %>%
    mutate(LotArea = ifelse(LotArea>=115149,f(BldgType),LotArea))

LowQualFinSF 是所有楼层低质量装修面积。有几个可疑的值，因此我们建议创建一个新变量，并将这些值修改为所有非零条目的中位数。

a <- datastrucAllData %>% 
    select(LowQualFinSF) %>% 
    filter(LowQualFinSF!=0) 

# all median to non zero
medianLowQualFinSF <- median(a$LowQualFinSF)

datastrucAllData <- datastrucAllData %>%
    rowwise() %>%
    mutate(LowQualFinSF = ifelse(LowQualFinSF>600,medianLowQualFinSF,LowQualFinSF))

MasVnrArea 指的是砖石贴面面积（以平方英尺为单位）。我们发现了一个异常值。

a <- datastrucAllData %>% 
    select(MasVnrArea) %>% 
    filter(MasVnrArea!=0) 

# All median to non zero 
medianMasVnrArea <- median(a$MasVnrArea)

datastrucAllData <- datastrucAllData %>%
  rowwise() %>%
    mutate(MasVnrArea = ifelse(MasVnrArea>1500,medianMasVnrArea,MasVnrArea))

WoodDeckSF 代表木制甲板的面积（以平方英尺为单位）。这个值很奇怪，但也许房子完全是木制的。由于该值在测试集中，因此无法进行训练，并且最终的模型也不会预测完全由木材建造的房屋的价格。因此，我们将其替换为基于表面积的中位数。

a <- datastrucAllData %>% 
    filter(WoodDeckSF!=0 & GrLivArea > 1300 & GrLivArea < 1400) %>% 
    select(WoodDeckSF)
    
medianWoodDeckSF <- median(a$WoodDeckSF)

datastrucAllData <- datastrucAllData %>%
    rowwise() %>%
    mutate(WoodDeckSF = ifelse(WoodDeckSF>1500,medianWoodDeckSF,WoodDeckSF))

SFPorchOpen 代表开放式门廊面积（以平方英尺为单位）。我们发现了一些异常值：一个在训练集中，有一个非常大的门廊但价格很低；另一个在测试集中，其表面积异常大。

a <- datastrucAllData %>% 
    filter(SFPorchOpen!=0 & GrLivArea > 700 & GrLivArea < 750) %>% 
    select(SFPorchOpen)
    
medianSFPorchOpen <- median(a$SFPorchOpen)

datastrucAllData <- datastrucAllData %>%
    rowwise() %>%
    mutate(SFPorchOpen = ifelse(SFPorchOpen>500&GrLivArea<1000,medianSFPorchOpen,SFPorchOpen))


a <- datastrucAllData %>% 
    filter(SFPorchOpen!=0 & GrLivArea > 2550 & GrLivArea < 2650) %>% 
    select(SFPorchOpen)
    
medianSFPorchOpen <- median(a$SFPorchOpen)

datastrucAllData <- datastrucAllData %>%
    rowwise() %>%
    mutate(SFPorchOpen = ifelse(SFPorchOpen>600,medianSFPorchOpen,SFPorchOpen))

EnclosedPorch 指的是封闭式门廊的面积（以平方英尺为单位）。测试集中似乎有一个异常值，其表面积异常大。

## Assigning Median Acc to area
a <- datastrucAllData %>% 
    filter(EnclosedPorch!=0 & GrLivArea > 1800 & GrLivArea < 1850) %>% 
    select(EnclosedPorch)
    
medianEnclosedPorch <- median(a$EnclosedPorch)

datastrucAllData <- datastrucAllData %>%
    rowwise() %>%
    mutate(EnclosedPorch = ifelse(SFPorchOpen>600,medianEnclosedPorch,EnclosedPorch))

RemodAdd 指的是翻新年份。在我看来，对于 1950 年之前建造的房屋，分配了翻新日期，而对于之后建造的房屋则不适用。我们将更正 1950 年之前建造房屋的翻新日期，并将其赋值为这些房屋首次建造的年份。

datastrucAllData <- datastrucAllData %>% 
  mutate(YearRemodAdd = ifelse(YearBuilt<1950 & YearRemodAdd==1950,YearBuilt,YearRemodAdd))

GarageYrBlt 指的是车库建造的年份。该变量的数据似乎不正确，因此我们将删除它。

特征工程

目标变量 SalePrice 不会通过 caret 进行修改。相反，它将直接使用 log 函数进行归一化，因为比赛是基于 SalePrice 对数的 RMSE。

datastrucAllDataRecipe <- datastrucAllData %>%
  mutate(SalePrice = log(SalePrice))

现在我们将分离数据。

datastrucTrain <- datastrucAllDataRecipe %>%
  filter(indTrain == 1) %>%
  select(SalePrice, everything()) %>%
  select(-c(Id,indTrain))

dim(datastrucTrain)

set.seed(123)
trainI  <- createDataPartition(y=datastrucTrain$SalePrice, p=0.7, list=F)

datastrucTrain.training <- datastrucTrain[trainI, ]
datastrucTrain.CV       <- datastrucTrain[-trainI, ]

输出

# Deleting the variables with variance next to 0.
recipe_OBJ <- recipe_OBJ %>% step_nzv(all_predictors())

# numerical variables'  standardization and scaling.
recipe_OBJ <- recipe_OBJ %>% step_center(all_numeric(), -SalePrice)
recipe_OBJ <- recipe_OBJ %>% step_scale(all_numeric(), -SalePrice)

# Nominal variable's binorization.
recipe_OBJ <- recipe_OBJ %>% step_dummy(all_nominal(), -all_outcomes())

# Deleting the variables for the dummy along with the variance next to 0
recipe_OBJ <- recipe_OBJ %>% step_nzv(all_predictors())

让我们检查 recipe 对象

输出

我们需要训练 recipe 对象。

recipe_trained <- prep(recipe_OBJ, training = datastrucTrain.training)
recipe_trained

输出

这两种转换都应用于训练集和测试集，因为这些数据集将用作后续过程的输入。因此，这意味着数据将始终以相似的方式准备好，并为建模做好准备，从而通过整个工作流程正确维护数据集的完整性和可比性。

datastrucAllDataRecipe.prep <- bake(recipe_trained, new_data = datastrucAllDataRecipe)

#We save the results including the Id and indTrain fieldatastruc in the datastrucAllData dataset
datastrucAllData <- cbind(datastrucAllDataRecipe[,1:3], datastrucAllDataRecipe.prep[,-1])

目标是利用 Caret 提供的各种特征减少技术之一，确保模型中只包含与目标变量相关的预测变量。

datastrucTrain <- datastrucAllData %>%
  filter(indTrain == 1) %>%
  select(SalePrice, everything()) %>%
  select(-c(Id,indTrain))

dim(datastrucTrain)

set.seed(123)
trainI  <- createDataPartition(y=datastrucTrain$SalePrice, p=0.7, list=F)

datastrucTrain.training <- datastrucTrain[trainI, ]
datastrucTrain.CV       <- datastrucTrain[-trainI, ]

datastrucTest <- datastrucAllData %>%
  filter(indTrain == 0) %>%
  select(SalePrice, everything())

输出

我们将使用随机森林来删除递归特征。

#We need to define the predictors' number to test.
subsets <- c(5, 10, 15, 16, 17, 18, 19, 20, 25, 30, 40, 50, 60, 70)

control <- rfeControl(functions = rfFuncs
                      ,method = "repeatedcv" # Validación cruzada
                      ,repeats = 5
                      ,verbose = FALSE)

t <- proc.time()
rf_rfe <- rfe(SalePrice ~ .
              , data = datastrucTrain.training         
              , sizes = subsets
              , metric = "RMSE"
              , rfeControl = control)
proc.time()-t   

#    user  system elapsed 
# 3044.24   16.42 3072.58 

rf_rfe

输出

基于 pickSizeTolerance 函数，重点介绍了具有最佳绝对 RMSE 和最佳性能的预测变量。

datastrucResults <- rf_rfe$results

# Metrics of Each size 
datastrucResults %>% 
  group_by(Variables) %>%
  summarise(media_RMSE = mean(RMSE), media_Rsquared = mean(Rsquared)) %>%
  arrange(media_RMSE)

输出

best <- pickSizeBest(select(datastrucResults,RMSE,Variables)
                              , metric = "RMSE"
                              , maximize = FALSE)
tolerance <- pickSizeTolerance(select(datastrucResults,RMSE,Variables)
                                  , metric = "RMSE"
                                  , maximize = FALSE)

# Decrease graph of RMSE
ggplot(data = datastrucResults, aes(x = Variables, y = RMSE)) +
  geom_line(color = "blue") +
  scale_x_continuous(breaks = unique(datastrucResults$Variables)) +
  geom_point() +
  geom_errorbar(aes(ymin = RMSE - RMSESD, ymax = RMSE + RMSESD),
                width = 0.2) +
  
  geom_point(data = filter(datastrucResults, Variables==best) 
             , shape=0, cex= 1.5, color = "red") +
  
  geom_point(data = filter(datastrucResults, Variables==tolerance)
             , shape = 4, cex= 1.5, color = "green") +

  theme_bw()

输出

我们遵循简约原则选择由“容差”指定的变量，该原则认为最简单的模型最有效。

datastrucVarSel001 <- as.data.frame(rf_rfe$optVariables) %>%
  rename(Var = 1) %>%
  rownames_to_column("VarOrder") %>%
  mutate(VarOrder = as.numeric(VarOrder), Var = as.character(Var)) 

# Selecting the best selectors
datastrucVarSel <- datastrucVarSel001 %>% top_n(0-tolerance, VarOrder)

# Save the dataset with the values that are selected
datastrucAllDataVarSel <- datastrucAllData %>% 
    select(SalePrice, indTrain, Id, c(datastrucVarSel$Var))

我们将使用各种机器学习算法来构建回归模型，以预测目标变量 SalePrice。

fnModelStudy <- function ( model , bParam = TRUE){
  
  pg1 <- ggplot(data = model$resample, aes(x = RMSE)) +
        geom_density(alpha = 0.5, fill = "gray50") +
        geom_vline(xintercept = mean(model$resample$RMSE),
                   linetype = "dashed") +
        theme_bw()

  pg2 <- ggplot(data = model$resample, aes(x = 1, y = RMSE)) +
        geom_boxplot(outlier.shape = NA, alpha = 0.5, fill = "gray50") +
        geom_jitter(width = 0.05) +
        labs(x = "") +
        theme_bw() +
        theme(axis.text.x = element_blank(), axis.ticks.x = element_blank())

  
  if (bParam){
    p3 <- plot(model)  
  }
  
  # Error
  predicciones <- predict(model
                          , newdata = datastrucTrain.CV
                          , type = "raw")

  # RMSE(predicciones, datastrucTrain.CV$SalePrice)
  # MAE(predicciones, datastrucTrain.CV$SalePrice)
  # R2(predicciones, datastrucTrain.CV$SalePrice, form = "traditional")
  
  
  term1 <- capture.output(summary(model$resample$RMSE, digits=3))
  term1 <- paste("Summary resample$RMSE", " ", paste(term1, collapse="\n"), sep = "\n")
  term1 <- text_grob(term1, size = 10)
  
  term2 <- capture.output(postResample(pred = predicciones, obs = datastrucTrain.CV$SalePrice))
  term2 <- paste("Test error", " ", paste(term2, collapse="\n"), sep = "\n")
  term2 <- text_grob(term2, size = 10)
  
  term3 <- capture.output(model$finalModel)
  term3 <- text_grob(paste(term3, collapse="\n"), size = 9)
  
  grid.arrange(term3, top="Final Model")
  grid.arrange(pg1, pg2, term1, term2, nrow = 2, top="RMSE obtained in the validation")
  
  if (bParam){
    grid.arrange(p3, nrow = 1, top="Evolution of the RMSE of the model based on hyperparameters")
  }
  
}

sTrain <- datastrucAllDataVarSel %>%
  filter(indTrain == 1) %>%
  select(SalePrice, everything()) %>%
  select(-c(Id,indTrain))

dim(datastrucTrain)

set.seed(123)
trainI  <- createDataPartition(y=datastrucTrain$SalePrice, p=0.7, list=F)

datastrucTrain.training <- datastrucTrain[trainI, ]
datastrucTrain.CV       <- datastrucTrain[-trainI, ]

datastrucTest <- datastrucAllDataVarSel %>%
  filter(indTrain == 0) %>%
  select(SalePrice, everything())

输出

在这里，将训练各种模型以评估哪个模型可能是最好的。

controlFit <- trainControl(method = "repeatedcv", 
                  number = 5,
                  repeats = 5, 
                  returnResamp = "final", 
                  verboseIter = FALSE,
                  allowParallel = TRUE)

现在我们将使用各种模型。

我们将首先进行 SVM。

hiperparametros <- expand.grid(sigma = c(seq(0.0014, 0.0024, by=0.0002))
                               ,C = (15:40))

t <- proc.time() 
svm_modelRadial <- train(SalePrice ~ .
                          , data = datastrucTrain.training
                          , method = "svmRadial"
                          , tuneGrid = hiperparametros
                          , metric = "RMSE"
                          , trControl = controlFit)
proc.time()-t    

输出

然后是 Elasticnet。

hiperparametros <- expand.grid(alpha=seq(0,2,by=.5),lambda=seq(0,0.1,by=.02))

t <- proc.time() 
glmnet_model <- train(SalePrice ~ .
                          , data = datastrucTrain.training
                          , method = "glmnet"
                          , tuneGrid = hiperparametros
                          , metric = "RMSE"
                          , trControl = controlFit)
proc.time()-t   

输出

继续进行 LASSO。

hiperparametros <- expand.grid(fraction=c(0.001,0.01,0.1,1))

t <- proc.time()
lasso_model <- train(SalePrice ~ .
                          , data = datastrucTrain.training
                          , method = "lasso"
                          , tuneGrid = hiperparametros
                          #, tuneLength = 10
                          , metric = "RMSE"
                          , trControl = controlFit)
proc.time()-t   

输出

我们不能忘记线性模型。

hiperparametros <- data.frame(parameter = "none")

t <- proc.time() # Inicia el cronómetro
lm_model <- train(SalePrice ~ .
                          , data = datastrucTrain.training
                          , method = "glm"
                          , tuneGrid = hiperparametros
                          , metric = "RMSE"
                          , trControl = controlFit)
proc.time()-t    

输出

最后，将进行 XGBoost。

hiperparametros <- expand.grid(
  nroundatastruc = seq(from = 500, to = 2500, by = 50),
  max_depth = 2,
  eta =  0.015,
  gamma = 0,
  colsample_bytree = 0.4,
  min_child_weight = 8,
  subsample = 0.5
)

t <- proc.time() 
xgboost_model <- train(SalePrice ~ .
                          , data = datastrucTrain.training
                          , method = "xgbTree"
                          , tuneGrid = hiperparametros
                          , metric = "RMSE"
                          , trControl = controlFit)
proc.time()-t    # Detiene el cronómetro

输出

模型比较

让我们进行模型比较。

models <- list(
  SVMR = svm_modelRadial
  ,GLMNET = glmnet_model
  ,GLM = lm_model
  ,LASSO = lasso_model
  ,XGBoost = xgboost_model
)

result_resamples <- resamples(models)

resamples_metricas <- result_resamples$values %>%
                         gather(key = "model", value = "value", -Resample) %>%
                         separate(col = "model", into = c("model", "metrica"),
                                  sep = "~", remove = TRUE)

# 
resamples_metricas %>% 
  group_by(model, metrica) %>% 
  summarise(mean = mean(value)) %>%
  spread(key = metrica, value = mean) %>%
  arrange(RMSE)

predictions <- extractPrediction(
                  models = models,
                  testX = datastrucTrain.CV[, -1],
                  testY = datastrucTrain.CV$SalePrice
                  )

metricas_type <- predictions %>%
                         group_by(object, dataType) %>%
                         summarise(RMSE = RMSE(pred, obs))

metricas <- metricas_type %>%
  spread(key = dataType, RMSE) %>%
  arrange(Test)

metricas

输出

现在我们将用图表来展示它。

dg <-resamples_metricas %>% 
  filter(metrica == "RMSE") %>%
  group_by(model) %>% 
  mutate(mean = mean(value)) %>%
  ungroup() 

ggplot(dg, aes(x = reorder(model, mean), y = value, color = model)) +
    geom_boxplot(alpha = 0.5, outlier.shape = NA) +
    geom_jitter(width = 0.2, alpha = 0.5) +
    scale_y_continuous(limits = c(0.051, 0.151)) +
    labs(title = "Validation: RMSE mean repeated-CV",
         subtitle = "Models sorted by average") +
    coord_flip() +
    theme(legend.position = "none")

ggplot(data = metricas_type,
       aes(x = object, y = RMSE,
           color = dataType, label = round(RMSE, 4))) +
  geom_point(size = 15) +
  scale_color_manual(values = c("orangered21", "gray51")) +
  geom_text(color = "white", size = 4) +
  scale_y_continuous(limits = c(0.051, 0.151)) +
  coord_flip() +
  labs(title = "RMSE training and test", 
       x = "model") +
  theme_bw() + 
  theme(legend.position = "bottom")

输出

我们将选择 RMSE 最低的模型。

下一话题机器学习专家在印度的薪资

Caret R 包用于应用预测建模

Caret R 包

导入包

数据准备

特征工程

模型比较

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

Caret R 包用于应用预测建模

Caret R 包

导入包

数据准备

特征工程

模型比较

相关帖子

使用 VGG16 和 Keras 进行迁移学习

自动编码器

线性模型

Extra Trees 分类器

机器学习中的 XGBoost 算法简介

导数在现实生活中的应用

机器学习中的注意力机制

机器学习中的假设

解释相关系数

ML 中的 LOOCV (留一法交叉验证)

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器