313JournalofBeijNormalUnivey(NaturalScience)59(2)2023-04北京师范大自然科学版)高维线性模型的影响点诊断张欣赵俊龙(北京师范大学统计学院,100875,北京)摘要从单影响点到多影响点2个角度回顾了影响点诊断领域的进展;重点介绍了近年发展起来的一些高维影响点检测新方法,该方法适用于自变量个数远超样本量的情形,可被看作是经典Cook距离在高维数据的推广。Cook距离量化了个体观测对最小二乘系数估计的影响,而新方法则捕获了个体观测对边际相关的影响,进而对变量选择和其他下游分析任务产生重要影响.数值模拟结果验证了新方法的可行性和有效性。关键词影响点诊断;高维数据;线性模型;Cook距离;边际相关中图分类号号C8D0I:10.12202/j.0476-0301.20223080引言影响诊断是统计建模的一个重要步骤,其主要目的是检测数据中的影响点.统计中通常按照如下思路判定一个观测值是否为影响点(也称为异常点):如果在删除某个观测后,统计分析的某些重要特征将发生实质性改变,则该观测值被标记为影响点.影响点可能导致统计分析失真以及结果误导,因此统计建模时需要对影响点保持警惕,并在解释统计结果时应将其考虑在内.经典正态线性模型通常利用回归系数估计的显著改变定义影响点.为此,Cookll提出了利用完整数据所获得的最小二乘估计(LSE),与去掉所考察观测点后剩余数据所获得LSE估计之间的差异度量影响点,这个度量在统计文献中被称为Cook距离.Cook距离量化了观测对回归系数估计的影响,因此,具有较大Cook距离的观测被认为是影响点.Cook距离自提出以来已被广泛应用于回归分析.鉴于其对删除样本的思路具有清晰的解释,并且计算简单,无须为每个删除的样本重新估计模型,因此,Cook距离已经成为大多数标准回归教科书的经典内容,且可通过流行的统计软件(如R和SAS)轻松实现.此后,影响诊断问题引起了相当多的关注,学者们针对各种模型进行了系统的研究。例如线性回归模型[1-2]、分类数据分析[3]、广义线性模型[4]、广义估计方程[5]、线性混合模型[6]、广义线性混合模型[7]、增长曲线模型[8]等.关于影响点诊断领域最新发展的回顾,可以参考Zhu等[9]的研究.然而,现有的诊断方法多数是在回归中自变量个数固定的假设下所提出来的,因此不适用于自变量个数p远远超过样本量n的高维回归分析问题.另一方面,大数据时代研究所遇到的数据通常具有前所未有的规模和维度,这就要求发展高维影响点诊断方法。对于高维数据的影响点诊断问题,一个直观的解决...