隔离森林

17 Mar 2025 | 5 分钟阅读

Isolation Forest 是一种新颖的异常检测方法，旨在定位数据集中的异常值或异常情况。与之前分析正常数据点的方法不同，Isolation Forest 提供了一种新方法，直接识别异常。Isolation Forest 的核心前提是，异常通常不常见且与常规情况不同，这使得它们更容易分离。

Isolation Forest 工作流程包括创建一组隔离树，每棵树通过随机选择特征并分割数据点来构建，直到每个点都隔离在其自己的叶节点中。异常旨在比典型实例需要更少的划分才能隔离，这使得它们更容易根据所有树上较低的平均路径长度进行识别。

代码

现在，我们将借助 Isolation Forest 优雅地查找和消除异常值（异常）。

导入库

import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import warnings

warnings.filterwarnings('ignore')
pd.reset_option('^display.', silent=True)

读取数据集

# Load the two datasets
X_train = pd.read_csv("../input/house-prices-advanced-regression-techniques/train.csv")
X_test = pd.read_csv("../input/house-prices-advanced-regression-techniques/test.csv")

# Seperate independent and dependent variable
num_train = len(X_train)
num_test = len(X_test)
y_train = X_train.SalePrice
X_train.drop(['SalePrice'], axis=1, inplace=True)

# Merge train and test data to simplify processing
df = pd.concat([X_train, X_test], ignore_index=True)

# Rename odd-named columns
df = df.rename(columns={"1stFlrSF": "FirstFlrSF",
                        "2ndFlrSF": "SecondFlrSF",
                       "3SsnPorch": "ThirdSsnPorch"})

# Shopw 5 samples
df.head()

输出

在运行 IsolationForest 之前，下一步是进行一些小的预处理。我们删除 NaN 数量较多（>1000）的列，并填充所有特征的缺失值。最后，我们验证没有缺失数据。

# Find columns with more than 1000 NaN's and drop them (see above)
columns = [col for col in df.columns if df[col].isnull().sum() > 1000]
df = df.drop(columns, axis=1)

# Fill LotFrontage with the median
df['LotFrontage'].fillna((df['LotFrontage'].mean()), inplace=True)

# No garage values means no year, area, or cars
for col in ['GarageYrBlt', 'GarageArea', 'GarageCars']:
    df[col] = df[col].fillna(0)
    
# No garage info means you don't have one
for col in ['GarageType', 'GarageFinish', 'GarageQual', 'GarageCond']:
    df[col] = df[col].fillna('None')

# Fill no basement
for col in ['BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinType2']:
    df[col] = df[col].fillna('None')

# Fill remaining categorical and numerical cols with None and 0
cat_columns = df.select_dtypes('object').columns
num_columns = [i for i in list(df.columns) if i not in cat_columns]
df.update(df[cat_columns].fillna('None'))
df.update(df[num_columns].fillna(0))

# Check for missing values 
print(df.isnull().values.any())

输出

隔离算法

当树从数据集的子集而不是完整数据集生成时，Isolation Forest (IF) 方法表现最佳。这与几乎所有其他策略都大相径庭，后者依赖于数据，并且需要更多数据才能提高准确性。子采样在这种方法中效果奇好，因为常规实例可能通过更接近异常值来扰乱隔离过程。在此示例中，我们将 max_samples=100，导致 Isolation Forest 为每个特征生成 100 个样本来训练基础估计器。

fit：使用特定特征的 max_samples 计数拟合基础估计器。
predict：如果观测值为异常值，则返回 -1，否则返回 1。
decision_function：使用拟合模型计算测量的异常分数。

stats 数据框仅包含原始样本值、其分数、IF 是否将其视为异常值，以及一些基本特征统计信息，例如最小值、最大值和中值。

from sklearn.ensemble import IsolationForest
rng = np.random.RandomState(0)

# Helper function to train and predict IF model for a feature
def train_and_predict_if(df, feature):
    clf = IsolationForest(max_samples=100, random_state=rng)
    clf.fit(df[[feature]])
    pred = clf.predict(df[[feature]])
    scores = clf.decision_function(df[[feature]])
    stats = pd.DataFrame()
    stats['val'] = df[feature]
    stats['score'] = scores
    stats['outlier'] = pred 
    stats['min'] = df[feature].min()
    stats['max'] = df[feature].max()
    stats['mean'] = df[feature].mean()
    stats['feature'] = [feature] * len(df)
    return stats

# Helper function to print outliers
def print_outliers(df, feature, n):
    print(feature)
    print(df[feature].head(n).to_string(), "\n")

# Run through all features and save the outlier scores for each feature
num_columns = [i for i in list(df.columns) if i not in list(df.select_dtypes('object').columns) and i not in ['Id']]
result = pd.DataFrame()
for feature in num_columns:
    stats = train_and_predict_if(df, feature)
    result = pd.concat([result, stats])
    
# Gather top outliers for each feature
outliers = {team:grp.drop('feature', axis=1) 
       for team, grp in result.sort_values(by='score').groupby('feature')}

# Print the top 10 outlier samples for a few selected features
n_outliers = 10
print_outliers(outliers, "LotArea", n_outliers)
print_outliers(outliers, "YearBuilt", n_outliers)
print_outliers(outliers, "BsmtUnfSF", n_outliers)
print_outliers(outliers, "GarageYrBlt", n_outliers)

输出

让我们看看结果。

LotArea 有四个主要异常值 (-1)，异常分数约为 -0.33，值超过 100,000。这些值与该属性的平均值 10168 相距甚远。我们可以看到 LotArea 的范围从 1300 到 215245，因此降低这四个观测值（总数）对该特征方差的影响可能有助于我们后续的建模方法。
YearBuilt 的变化小于 LotArea，最大异常分数约为 -0.25。这表明值与平均值相差不大。使用 IF 将未来的最低值（约 1880 年）识别为异常值。
BsmtUnfSF 类似于 YearBuilt，但方差明显更大。
根据 IF，GarageYrBlt 显然在 0 值处包含异常值，但鉴于这些观测值是在没有任何车库的情况下进行的，这是可以理解的。大多数住宅都有 GarageYrBlt，并且它们与平均值明显不同。

接下来，我们利用 pandas 的剪裁功能在输入级别去除异常值。它通过为该特定特征设置最小值和最大值来操作。所有值小于最小值的观测值将被分配为最小值，而所有值大于最大值的观测值将被分配为最大值。这些只是示例；您可以根据需要更改设置。

# Use clipping to level out the observed outliers in the data
df.LotArea = df.LotArea.clip(1300,50000)
df.YearBuilt = df.YearBuilt.clip(1880,2010)
df.BsmtUnfSF = df.BsmtUnfSF.clip(100,1900)
df.GarageYrBlt = df.GarageYrBlt.clip(0,2020)

现在我们重新训练 IsolationForest 分类器，以测试剪裁值是否改善了异常值评分。请注意，在我们剪裁示例特征后，IsolationForest 生成的异常值分数有所降低。

# Train IsolationForest again, this time after with clipped outliers for 4 features
result = pd.DataFrame()
for feature in num_columns:
    stats = train_and_predict_if(df, feature)
    result = pd.concat([result, stats])

# Gather top outliers for each feature
outliers = {team:grp.drop('feature', axis=1) 
       for team, grp in result.sort_values(by='score').groupby('feature')}


# Print the top 10 outlier samples for the features we chose to clip
n_outliers = 10
print_outliers(outliers, "LotArea", n_outliers)
print_outliers(outliers, "YearBuilt", n_outliers)
print_outliers(outliers, "BsmtUnfSF", n_outliers)
print_outliers(outliers, "GarageYrBlt", n_outliers)

输出

我们演示了如何使用 Isolation Forest 检测数据集中的异常值。我们以房价数据集为例。Isolation Forest 在子采样数据上表现出色，并且不需要从完整数据集构建树。它在子采样数据上表现良好。该技术运行速度非常快，因为它不依赖于计算量大的操作，例如距离或密度计算。训练步骤具有线性时间复杂度和低常数，使其适用于任何大规模数据处理应用程序。

下一个主题McNemar 检验

隔离森林

导入库

读取数据集

隔离算法

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

隔离森林

导入库

读取数据集

隔离算法

相关帖子

最佳计算机视觉书籍

机器学习中的粒子群优化算法

自动编码器

从头开始的多类别逻辑回归

印度机器学习专家薪资

线性回归中的因果推理：内生性

2021 年十大机器学习课程

Extra Trees 分类器

机器学习中的概念漂移和模型衰减

机器学习中的漂移

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器