第十六章主成分分析主成分分析•主成分分析(principalcomponentanalysis,PCA)是一种常用的无监督学习方法•这一方法利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。•主成分的个数通常小于原始变量的个数,所以主成分分析属于降维方法。•主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系。基本想法•主成分分析中,首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1。•之后对数据进行正交变换,原来由线性相关变量表示的数据,通过正交变换变成由若干个线性无关的新变量表示的数据。•新变量是可能的正交变换中变量的方差的和(信息保存)最大的,方差表示在新变量上信息的大小。•可以用主分成近似地表示原始数据,发现数据的基本结构•也可以把数据由少数主成分表示,对数据降维基本想法•数据集合中的样本由实数空间(正交坐标系)中的点表示,空间的一个坐标轴表示一个变量,规范化处理后得到的数据分布在原点附近。•对原坐标系中的数据进行主成分分析等价于进行坐标系旋转变换,将数据投影到新坐标系的坐标轴上•新坐标系的第一坐标轴、第二坐标轴等分别表示第一主成分、第二主成分等•数据在每一轴上的坐标值的平方表示相应变量的方差•这个坐标系是在所有可能的新的坐标系中,坐标轴上的方差的和最大的例•数据由线性相关的两个变量x1和x2表示•主成分分析对数据进行正交变换,对原坐标系进行旋转变换,并将数据在新坐标系表示例•主成分分析选择方差最大的方向(第一主成分)作为新坐标系的第一坐标轴,即y1轴•之后选择与第一坐标轴正交,且方差次之的方向(第二主成分)作为新坐标系的第二坐标轴,即y2轴例•在新坐标系里,数据中的变量y1和y2是线性无关的,当知道其中一个变量y1的取值时,对另一个变量y2的预测是完全随机的,反之亦然•如果主成分分析只取第一主成分,即新坐标系的y1轴,那么等价于将数据投影在椭圆长轴上,用这个主轴表示数据,将二维空间的数据压缩到一维空间中。例•假设有两个变量x1和x2,三个样本点A、B、C,样本分布在由x1和x2轴组成的坐标系中•对坐标系进行旋转变换,得到新的坐标轴y1,表示新的变量y1•样本点A、B、C在y1轴上投影,得到y1轴的坐标值A'、B'、C'例•坐标值的平方和OA'2+OB'2+OC'2表示样本在变量y1上的方差和•主成分分析旨在选取正交变换中方差最大的变量,作为第一主成分,也就是旋转变...