-582-第二十六章多元分析多元分析(multivariateanalysis)是多变量的统计分析方法,是数理统计中应用广泛的一个重要分支,其内容庞杂,视角独特,方法多样,深受工程技术人员的青睐和广泛使用,并在使用中不断完善和创新。§1聚类分析将认识对象进行分类是人类认识世界的一种重要方法,比如有关世界的时间进程的研究,就形成了历史学,有关世界空间地域的研究,则形成了地理学。又如在生物学中,为了研究生物的演变,需要对生物进行分类,生物学家根据各种生物的特征,将它们归属于不同的界、门、纲、目、科、属、种之中。事实上,分门别类地对事物进行研究,要远比在一个混杂多变的集合中更清晰、明了和细致,这是因为同一类事物会具有更多的近似特性。在企业的经营管理中,为了确定其目标市场,首先要进行市场细分。因为无论一个企业多么庞大和成功,它也无法满足整个市场的各种需求。而市场细分,可以帮助企业找到适合自己特色,并使企业具有竞争力的分市场,将其作为自己的重点开发目标。通常,人们可以凭经验和专业知识来实现分类。而聚类分析(clusteranalysis)作为一种定量方法,将从数据分析的角度,给出一个更准确、细致的分类工具。1.1相似性度量1.1.1样本的相似性度量要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用p个变量描述,则每个样本点可以看成是pR空间中的一个点。因此,很自然地想到可以用距离来度量样本点间的相似程度。记Ω是样本点集,距离),(⋅⋅d是+→Ω×ΩR的一个函数,满足条件:1)0),(≥yxd,Ω∈yx,;2)0),(=yxd当且仅当yx=;3)),(),(xydyxd=,Ω∈yx,;4)),(),(),(yzdzxdyxd+≤,Ω∈zyx,,。这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类分析中,对于定量变量,最常用的是Minkowski距离qpkqkkqyxyxd11),(⎥⎦⎤⎢⎣⎡−=∑=,0>q当2,1=q或+∞→q时,则分别得到1)绝对值距离∑=−=pkkkyxyxd11),(,(1)2)欧氏距离21122),(⎥⎦⎤⎢⎣⎡−=∑=pkkkyxyxd,(2)-583-3)Chebyshev距离kkpkyxyxd−=≤≤∞1max),(。(3)在Minkowski距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同。值得注意的是在采用Minkowski距离时,一定要采用相同量纲的变量。...