机器学习[6]-监督学习–回归

三、回归分析
回归:统计学分析数据的方法,目的在于了解两个或多个变数间是否相关、 研究其相关方向与强度,并建立数学模型以便观察特定变数来预测研究者感兴 趣的变数。回归分析可以帮助人们了解在自变量变化时因变量的变化量。一般 来说,通过回归分析我们可以由给出的自变量估计因变量的条件期望。

Sklearn vs. 回归
Sklearn提供的回归函数主要被封装在两个子模块中,分别是 sklearn.linear_model和sklearn.preprocessing。

sklearn.linear_modlel封装的是一些线性函数,线性回归函数包括有:
• 普通线性回归函数( LinearRegression )
• 岭回归(Ridge)
• Lasso(Lasso)
非线性回归函数,如多项式回归(PolynomialFeatures)则通过 sklearn.preprocessing子模块进行调用

回归应用
回归方法适合对一些带有时序信息的数据进行预测或者趋势拟合,常用在
金融及其他涉及时间序列分析的领域:
• 股票趋势预测
• 交通流量预测

线性回归

线性回归(Linear Regression)是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分 析方法。
 线性回归利用称为线性回归方程的最小平方函数对一个或多个自 变量和因变量之间关系进行建模。这种函数是一个或多个称为回 归系数的模型参数的线性组合。只有一个自变量的情况称为简单 回归,大于一个自变量情况的叫做多元回归。

线性回归:使用形如y=wTx+b 的线性模型拟合数据输入和输出之 间的映射关系的。

线性回归的实际用途
线性回归有很多实际的用途,分为以下两类:
1.如果目标是预测或者映射,线性回归可以用来对观测数据集的y和X 的值拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的X值, 在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个 y值。
2.给定一个变量y和一些变量X , ⋯ ,𝑋,这些变量有可能与y相关,回归分析可以用来量化y与X之间相关性的强度,评估出与y不相关的Xj,并识别出哪些子集包含了关于y的冗余信息。

线性回归的应用
背景:与房价密切相关的除了单位的房价,还有房屋的尺寸。我们可以根 据已知的房屋成交价和房屋的尺寸进行线性回归,继而可以对已知房屋尺 寸,而未知房屋成交价格的实例进行成交价格的预测
目标:对房屋成交信息建立回归方程,并依据回归方程对房屋价格进行预测 技术路线:sklearn.linear_model.LinearRegression

实例数据
为了方便展示,成交信息只使用 了房屋的面积以及对应的成交价格。 其中:
• 房屋面积单位为平方英尺(ft2)房
• 屋成交价格单位为万

可行性分析
• 简单而直观的方式是通过数据的可视化直接观察房屋成交价格与房 屋尺寸间是否存在线性关系。
• 对于本实验的数据来说,散点图就可以很好的将其在二维平面中进 行可视化表示。

右图为数据的散点图,其中横坐 标为房屋面积,纵坐标为房屋的成 交价格。可以看出,靠近坐标左下 角部分的点,表示房屋尺寸较小的 房子,其对应的房屋成交价格也相 对较低。同样的,靠近坐标右上部 分的点对应于大尺寸高价格的房 屋。从总体来看,房屋的面积和成 交价格基本成正比。

实验过程
使用算法:线性回归 实现步骤:
1.建立工程并导入sklearn包
2.加载训练数据,建立回归方程
3.可视化处理

多项式回归
 多项式回归(Polynomial Regression)是研究一个因变量与一 个或多个自变量间多项式的回归分析方法。如果自变量只有一个 时,称为一元多项式回归;如果自变量有多个时,称为多元多项 式回归。
 一元m次多项式回归方程为:
 二元二次多项式回归方程为:

 在一元回归分析中,如果依变量y与自变量x的关系为非线性的,但 是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归。
多项式回归的最大优点就是可以通过增加x的高次项对实测点进行逼近,直至满意为止。
 事实上,多项式回归可以处理相当一类非线性问题,它在回归分析 中占有重要的地位,因为任一函数都可以分段用多项式来逼近。

应用背景:我们在前面已经根据已知的房屋成交价和房屋的尺寸进行了线 性回归,继而可以对已知房屋尺寸,而未知房屋成交价格的实例进行了成 交价格的预测,但是在实际的应用中这样的拟合往往不够好,因此我们在 此对该数据集进行多项式回归。

目标:对房屋成交信息建立多项式回归方程,并依据回归方程对房屋价格进
行预测
技术路线:sklearn.preprocessing.PolynomialFeatures
实例数据
成交信息包括房屋的面积以及对 应的成交价格:
 房屋面积单位为平方英尺(ft2)
 房屋成交价格单位为万

岭回归
解决传统的基于最小二乘的线性回归法缺乏稳定性。
。。。公式略

岭回归(ridge regression)是一种专用于共线性数据分析的有偏估计回归方 法
是一种改良的最小二乘估计法,对某些数据的拟合要强于最小二乘法。
在sklearn库中,可以使用sklearn.linear_model.Ridge调用岭回归模型,其 主要参数有:

• alpha:正则化因子,对应于损失函数中
• fit_intercept:表示是否计算截距
• solver:设置计算参数的方法,可选参数‘auto’、‘svd’、‘sag’等

交通流量预测实例
数据介绍:
交通流量预测实例
数据为某路口的交通流量监测数据,记录全年小时级别的车流量。
实验目的:
根据已有的数据创建多项式特征,使用岭回归模型代替一般的线性模型,对 车流量的信息进行多项式回归。
技术路线:sklearn.linear_model.Ridgefrom sklearn.preprocessing.PolynomialFeatures
1. 建立工程,导入sklearn相关工具包

2. 数据加载:

3. 数据处理:

4. 划分训练集和测试集:

5. 创建回归器,并进行训练:

6. 画出拟合曲线:

分析结论:预测值和实际值的走势大致相同

发表评论

电子邮件地址不会被公开。 必填项已用*标注