-226-第十二章回归分析前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗?从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合问题作的统计分析。具体地说,回归分析在一组数据的基础上研究这样几个问题:(i)建立因变量y与自变量mxxx,,,21L之间的回归模型(经验公式);(ii)对回归模型的可信度进行检验;(iii)判断每个自变量),,2,1(mixiL=对y的影响是否显著;(iv)诊断回归模型是否适合这组数据;(v)利用回归模型对y进行预报或控制。§1数据表的基础知识1.1样本空间在本章中,我们所涉及的均是样本点×变量类型的数据表。如果有m个变量mxxx,,,21L,对它们分别进行了n次采样(或观测),得到n个样本点),,,(21imiixxxL,ni,,2,1L=则所构成的数据表X可以写成一个mn×维的矩阵。⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡==×TnTmnijeexXM1)(式中mTimiiiRxxxe∈=),,,(21L,ni,,2,1L=,ie被称为第i个样本点。样本的均值为),,,(21mxxxxL=,∑==niijjxnx11,mj,,2,1L=样本协方差矩阵及样本相关系数矩阵分别为TknkkmmijxexensS)()(11)(1−−−==∑=×⎟⎟⎠⎞⎜⎜⎝⎛==×jjiiijmmijsssrR)(其中-227-∑=−−−=nkjkjikiijxxxxns1))((111.2数据的标准化处理(1)数据的中心化处理数据的中心化处理是指平移变换,即jijijxxx−=*,ni,,2,1L=;mj,,2,1L=该变换可以使样本的均值变为0,而这样的变换既不改变样本点间的相互位置,也不改变变量间的相关性。但变换后,却常常有许多技术上的便利。(2)数据的无量纲化处理在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理,即使每个变量的方差均变成1,即jijijsxx/*=其中∑=−−=nijijjxxns12)(11。还可以有其它消量纲的...