1©陈强,2015年,《计量经济学及Stata应用》,高等教育出版社。第9章模型设定与数据问题如果模型设定(modelspecification)不当,比如解释变量选择不当、测量误差、函数形式不妥等,则会出现“设定误差”(specificationerror),即模型本身的设定所带来的误差。数据本身也可能存在问题,比如多重共线性、对回归结果影响很大的极端数据等。9.1遗漏变量由于某些数据难以获得,遗漏变量现象几乎难以避免。2假设真实的模型(truemodel)为12yxx(9.1)其中,解释变量12,xx与扰动项不相关。而实际估计的模型(estimatedmodel)为1yxu(9.2)遗漏变量(omittedvariable)2x被归入扰动项2ux。遗漏变量是否一定导致不一致的估计?3考虑两种情形:(1)遗漏变量2x与解释变量1x不相关,即12Cov(,)0xx。扰动项2ux与解释变量1x不相关,因为112121Cov(,)Cov(,)Cov(,)Cov(,)000xuxxxxx(9.3)虽然存在遗漏变量,但OLS依然可一致地估计回归系数。由于遗漏变量2x被归入扰动项中,可能增大扰动项的方差,影响OLS估计的精确度。4(2)遗漏变量2x与解释变量1x相关,即12Cov(,)0xx。根据大样本理论,OLS估计不一致,称为“遗漏变量偏差”(omittedvariablebias)。这种偏差在实践中较常见,成为某些实证研究的致命伤。比如,研究教育投资回报时,个人能力因无法观测而遗漏,但能力与教育年限正相关。存在遗漏变量本身并不要紧;关键在于,遗漏变量不能与方程的解释变量相关。5解决遗漏变量偏差的方法主要有:(i)加入尽可能多的控制变量(controlvariable);(ii)随机实验与自然实验;(iii)工具变量法(第10章);(iv)使用面板数据(第12章);第(i)种方法“加入尽可能多的控制变量”着眼于直接解决遗漏变量问题。首先从理论出发,列出所有可能对被解释变量有影响的变量,然后尽可能去收集数据。6如果有些相关变量无法获得,则需从理论上说明,遗漏变量不会与解释变量相关,或相关性很弱。例李宏彬等(2012)通过就业调查数据,研究“官二代”大学毕业生的起薪是否高于非官二代。由于可能存在遗漏变量,该文包括了尽可能多的控制变量,比如年龄、性别、城镇户口、父母收入、父母学历、高考成绩、大学成绩、文理科、党员、学生会干部、兼职实习经历、拥有技术等级证书等。7解决遗漏变量偏差的第(ii)种方法为随机实验或自然实验。物理学常使用“控制实验”(controlledexperiment)来研究x对y的因果关系,即给定影响y的所有其他...