一:线性回归方程推导
作为统计学在高中阶段的萌芽,线性回归第一次开始教学生如何在纷乱的世界中把握脉搏。高中课本上运用了二次函数的性质推得了回归方程,思路清晰。这里提供一种导数法,因为我们知道,导数是求最值问题的绝佳工具。
问题最终归结为寻求使得
取得最小值的a和b。我们将a和b看做未知数,分别对其求导:\cdot&space;(-1)=-2\sum_{i=1}^{n}y_{i}+2b\sum_{i=1}^{n}x_{i}+2an=0)
\cdot&space;(-x_{i})=-2\sum_{i=1}^{n}x_{i}y_{i}+2b\sum_{i=1}^{n}x_{i}^{2}+2a\sum_{i=1}^{n}x_{i}=0)
令
,即可得到上面的两个方程,第一个方程其实就是告诉我们回归方程一定过。
二:相关系数公式
是不是看着相关系数那一大串公式就头疼?其实很容易记住:先将x当自变量,y当因变量求线性回归方程y=bx+a的“b”,再将y当自变量,x当因变量,求出x=ky+c的“k”,那么b×k就是相关系数的平方。按照我们常规的函数思维,这里的bk应该等于1,而放到这里便不是,这说明在同一组数据中,y对x的线性回归和x对y的线性回归是不一样的,两者的方程“形式越接近”,拟合就越好。