理论探讨统计与决策2023年第21期·总第633期0引言分位数回归(QuantileRegession,QR)由Koenker和Bassett(1978)[1]提出,相比于传统的均值回归,分位数回归可以研究不同分位数下协变量对结果的影响,而不需要对误差作出任何假设,因此更加灵活和稳健。从分位数回归被正式提出至今,学者们不断地研究其各种参数估计,并成功将其应用于计量经济学、医学等不同的领域中。如今,海量数据集常见于各大研究领域,有时数据集甚至以流的形式出现。然而,传统分位数回归需要同时处理整个数据集,而海量数据集由于内存限制很难由单独的一台计算机进行处理。为了解决这个问题,已经开发出了许多基于分治(Divide-and-Conquer,DC)的估计算法。他们大致分为两大类:一类是基于多轮通信的迭代算法,它通过子机器与主机器间多轮信息传输进行迭代以达到处理全数据集的目的[1],从而快速得到有效的估计量[2—4]。该方法的估计效率较高,但除Chen等(2019)[2]基于核光滑估计方程的迭代算法外,他们均无法处理流数据。另一类是只需要一轮通信(One-shot)的分治算法,首先从各个子数据集中得到局部估计量,然后通过简单平均或加权平均进行聚合,最终得到聚合估计量[5,6]。其中,Lin和Xi(2011)[5]通过展开估计方程得到了一种行之有效的聚合估计算法(AggregatedEstimatingEquationEstimation,AEEE),但AEEE要求估计方程可微。然而众所周知,分位数回归的估计方程是不可微的,因此AEEE不能直接用于分位数回归。Chen和Zhou(2020)[6]改进AEEE并成功将其应用于分位数回归中。然而,他们的方法需要通过使用重采样方法获得权重矩阵,这无疑降低了计算速度。因此,有必要开发一种计算效率高且适用于流数据的算法,用于海量数据分位数回归的参数估计。对此,本文建议使用Fernandes等(2021)[7]提出的光滑方法,将分位数回归的求解问题光滑化,从而满足AEEE中的可微条件,由此提出一种计算高效的海量数据下光滑分位数回归聚合估计(Divide-and-ConquerSmoothingQuan-tileRegession,DCSQR)算法。具体而言,本文先计算每个数据块的核卷积光滑估计方程估计量和对应的Hessian矩阵,并只需要保留每个数据块的这两个统计信息。若数据是以流的形式接收,则可以不断计算和保存相应统计信息并丢弃原数据集。最后,通过AEEE得到原数据集的有效估计量。本文将通过详细的理论证明给出该估计量的渐近正态性,并通过模拟研究和实证分析证实该方法的有效性。1.1光滑分位数回归模型...