主成分概念首先由KarlParson在1901年引进,当时只对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机变量。在多数实际问题中,不同指标之间是有一定相关性。由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。主成分分析主成分分析是考察多个数值变量间相关性的一种多元统计方法,它是研究如何通过少数几个主成分来解释多变量的方差—协方差结构。导出几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间不相关。主成分分析数学原理对原有变量作坐标变换,ppppppppppxuxuxuzxuxuxuzxuxuxuz...............22112222112212211111如果z1=u1’x满足①②则称z1为x的第一主成分。若z1不足以代表原变量所包含的信息,就考虑采用z2。Z2满足①②③Z2为第二主成分111uu)var(max)var(1xuz0),cov(21zz122uu)var(max)var(2XUz数学原理piZVarXuZiXuuuXVariiiipp,2,1,)(,,0),('2121个主成分的第为相应的特征向量,的特征根,为令定理:数学原理几何解释2121212211cossinsincoscossinsincosxxyyxxyxxyx1x2y1y2旋转变换的目的是为了使得n个样本点在y1轴方向上的离散程度最大,即y1的方差最大,变量y1代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量y2也损失不多的信息。Y1与y2除起了浓缩作用外,还具有不相关性。Y1称为第一主成分,y2称为第二主成分。几何解释量纲对于主成分分析的影响及消除方法对数据进行标准化处理,以使每一个变量的均值为0,方差为1。iiiiDE*数据标准化后,总体的协方差矩阵与总体的相关系数相等.),cov()()(),cov())(())())(((),cov(**************jijijiijjijjiijiDDEEEE量纲对于主成分分析的影响及消除方法样本主成分变量X样本协方差为总体协方差的无偏估计相关矩阵R为总体相关矩阵的估计nkjkjikixxxxnS111ppppppxxxxxxxxxX212222111211重要指标主成分的方差贡献率:这个值越大,表明第i主成分...