R 线性回归

2025年3月29日 | 阅读 4 分钟

线性回归用于根据一个或多个输入预测变量 x 来预测结果变量 y 的值。换句话说,线性回归用于建立预测变量和响应变量之间的线性关系。

在线性回归中,预测变量和响应变量通过一个方程相关,其中这两个变量的指数均为 1。从数学上讲,线性关系表示一条直线,当绘制成图时。

以下是线性回归的一般数学方程

此处,

  • y 是响应变量。
  • x 是预测变量。
  • a 和 b 是称为系数的常数。

建立回归的步骤

已知一个人的身高时,预测他的体重是回归的一个简单例子。为了预测体重,我们需要建立一个人的身高和体重之间的关系。

创建关系有以下步骤

  1. 第一步,我们进行实验,收集身高和体重的观察值样本。
  2. 之后,我们使用 R 的 lm() 函数创建一个关系模型。
  3. 接下来,我们将借助模型找到系数,并使用该系数创建数学方程式。
  4. 我们将获得关系模型的摘要,以了解预测中的平均误差,称为残差。
  5. 最后,我们使用 predict() 函数来预测新人的体重。

以下是 lm() 函数的语法

此处,

序号参数描述
1.公式这是一个表示 x 和 y 之间关系的符号。
2.数据这是一个我们将应用公式的向量。

创建关系模型并获取系数

让我们开始执行第二步和第三步,即创建关系模型并获取系数。我们将使用 lm() 函数,并传递 x 和 y 输入向量,并将结果存储在名为 relationship_model 的变量中。

示例

输出

Call:
lm(formula = y ~ x)

Coefficients:
(Intercept)            x  
   47.50833      0.07276

获取关系模型的摘要

我们将使用 summary() 函数来获取关系模型的摘要。让我们看一个例子来了解 summary() 函数的用法。

示例

输出

Call:
lm(formula = y ~ x)

Residuals:
    Min      1Q  Median      3Q     Max 
-38.948  -7.390   1.869  15.933  34.087 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) 47.50833   55.18118   0.861    0.414
x            0.07276    0.39342   0.185    0.858

Residual standard error: 25.96 on 8 degrees of freedom
Multiple R-squared:  0.004257,	Adjusted R-squared:  -0.1202 
F-statistic: 0.0342 on 1 and 8 DF,  p-value: 0.8579

predict() 函数

现在,我们将借助 predict() 函数预测新人的体重。以下是 predict 函数的语法

此处,

序号参数描述
1.object这是我们已经使用 lm() 函数创建的公式。
2.Newdata这是一个包含预测变量新值的向量。

示例

输出

1 
59.14977 

绘制回归

现在,我们借助 plot() 函数绘制预测结果。此函数将 x 和 y 作为输入向量以及更多参数。

示例

输出

R Linear Regression