统计学中对线性回归的定义:
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
监督学习的模型表示
对于监督学习(supervised learning),给定训练集,尝试习得函数$h:X \rightarrow
Y$使得函数$h(x)$最大限度接近y.函数$h$一般被称为假设函数(hypothesis).
代价函数
我们可以通过代价函数(cost
function)来对假设函数的效果进行测量,测量的本质就是检测$h(x)$与$y$是否足够接近。对于线性回归问题,一般使用最小二乘法(均方误差)来进行测量,这样做的好处是可以适用于高维空间,但是针对不同问题也可使用不同的代价函数,比如对于二维空间内的线性回归问题使用绝对值来表示实际值与预测值之间的误差也是可以的。
使用均方误差作为线性回归模型的代价函数,可以表示为:
$$ J(\theta_0, \theta_1) = \frac{1}{m} \sum_{i=1}^{m}(h_\theta (x_i)-y_i)^2 $$
线性回归模型与代价函数的对应关系
在确定了代价函数之后,模型与其代价函数就存在了相应的对应关系。在最为简单的二维空间内举例,假设已有训练集如下:
x | y |
---|---|
1 | 2 |
2 | 1 |
3 | 2 |
4 | 5 |
5 | 4 |
在上面的训练集中建立线性回归模型,提出建设函数$h$:
$$ h(x) = \theta_0+\theta_1x$$
此时对应的代价函数$J$:
$$ J(\theta_0, \theta_1) = \frac{1}{m} \sum_{i=1}^{m}(h_\theta (x_i)-y_i)^2 $$
我们的目的便是要寻找合适的$\theta_0$与$\theta_1$的取值,使得$J(\theta_0,\theta_1)$最小化。对于上述训练集,则可以通过如下图形直观理解模型与损失函数之间的关系:
上图中为了简化问题让$\theta_0$始终为0,但依旧可以看出,线性回归模型的代价函数呈现出的是一个弓形(总是一个凸函数)。要使得线性回归模型的达到最佳拟合,则需要代最小化代价,也就是取凸函数的底部。
上面的结论同样适用于$\theta$可以自由取值的时候,此时我们得到的代价函数图形大概会是这样,但是同样会有一个最低的点,使得代价最小化。
总结
对于线性回归模型,我们一般使用均方误差作为代价函数,当均方误差最小的时候,我们便可以得到最佳拟合直线。要寻找最佳拟合直线,一般采用梯度下降算法。