使用线性回归的波士顿房价 Kaggle 挑战

2025年4月1日 | 3 分钟阅读

波士顿房价数据

该数据库由卡内基梅隆大学维护,并从 StatLib 库获得。该数据集的主题是波士顿的住房成本。所提供的数据集包含 506 个实例和 13 个特征。

下表显示了数据集的摘要,该摘要摘自下面的引文。我们的目标是利用此数据使用线性回归开发一个模型来预测房价。

数据包含以下列

  • 城镇犯罪率,表示为“crim”。
  • 地块面积大于 25,000 平方英尺的住宅用地百分比。
  • 每镇非零售商业地产的百分比称为“indus”。
  • 查尔斯河虚拟变量(= 1 如果地块边界是河流;否则为 0)称为“Chas”。
  • 氮氧化物浓度:“nox”(百万分之几)。
  • “rm”代表“平均每户房间数”。
  • 年龄:1940 年之前建造的自有住房的百分比。
  • 前往五个波士顿就业中心的加权平均出行时间为“dis”。
  • “rad”代表放射状高速公路的可达性指数。
  • 每 10,000 美元的物业税,按全值税率计算。
  • 城镇的师生比,或“ptratio”。
  • “Black”:1000(Bk - 0.63),其中 Bk 是每个城镇黑人人口的比例。
  • “lstat”代表人口的较低社会经济地位(百分比)。

附注:我仍在学习如何以及在哪里解读图表;这是我的第一次分析。

代码

输出

Boston Housing Kaggle Challenge with Linear Regression

输入

输出

(506, 13 )

输入

输出

Array[ 'crim', 'zn', 'indus' ,'chas', 'nox' , 'rm', 'age', 'dis', 'rad', 'tax', 'ptratio' ]

将数据转换为 nd-array 以用于信息框并添加特征名称

输入

输出

Boston Housing Kaggle Challenge with Linear Regression

输入

输出

(506, )

输入

输出

Boston Housing Kaggle Challenge with Linear Regression

获取输入和输出数据,然后将数据划分为训练集和测试集。

输出

atrain shape flow: (403, 13)
atest shape flow: (102, 13)
btrain shape flow: (404, )
btest shape flow: (102, )

利用数据集和线性回归模型来预测价格。

绘制散点图以显示“真实 y 值”与“预测 y 值”的关系,这将展示预测结果。

输出

Boston Housing Kaggle Challenge with Linear Regression

线性回归的结果是均方误差和平均绝对误差.

输出

Mean Square Error is :  33.4489799151161496
Mean Absolute Error is :  3.8429092484151966

Boston Housing Kaggle Challenge with Linear Regression

因此,我们模型的准确率仅为 66.55%。因此,准备好的模型在预测房价方面并不特别有效。可以使用各种其他机器学习方法和技术来提高预测结果。