分享
PPT-第12章-面板数据-计量经济学及Stata应用.pdf
下载文档

ID:3519239

大小:380.84KB

页数:84页

格式:PDF

时间:2024-05-18

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
PPT 12 面板 数据 计量 经济学 Stata 应用
1 陈强,2015 年,计量经济学及 Stata 应用,高等教育出版社。第第 12 章章 面面 板板 数数 据据 12.1 面板数据的特点 面板数据的特点 面板数据(panel data 或 longitudinal data),指在一段时间内跟踪同一组个体(individual)的数据。它既有横截面维度(n位个体),又有时间维度(T个时期)。一个3T 的面板数据结构如表 12.1。2 表 12.1 面板数据的结构 y1x2x3x个体 1:t=1 个体 1:t=2 个体 1:t=3 个体 2:t=1 个体 2:t=2 个体 2:t=3 个体n:t=1 个体n:t=2 个体n:t=3 3 通常的面板数据T较小,n较大,在使用大样本理论时让n趋于无穷大,称为“短面板”(short panel)。如果T较大,n较小,则称为“长面板”(long panel)。在面板模型中,如果解释变量包含被解释变量的滞后值,称为“动态面板”(dynamic panel);反之,称为“静态面板”(static panel)。本书仅关注静态面板。在面板数据中,如果每个时期在样本中的个体完全一样,则称为“平衡面板”(balanced panel);反之,则称为“非平衡面板”(unbalanced panel)。主要关注平衡面板,但在本章第 11 节讨论非平衡面板。4 面板数据的主要优点如下。(1)有助于解决遗漏变量问题:遗漏变量常由不可观测的个体差异或“异质性”(heterogeneity)造成(比如个体能力)。如果个体差异“不随时间而改变”(time invariant),则面板数据提供了解决遗漏变量问题的又一利器。(2)提供更多个体动态行为的信息:面板数据有横截面与时间两个维度,可解决截面数据或时间序列不能解决的问题。5 例 如何区分规模效应与技术进步对企业生产效率的影响。截面数据没有时间维度,无法观测到技术进步。单个企业的时间序列数据,也无法区分生产效率提高有多少由于规模扩大,有多少由于技术进步。例 对于失业问题,截面数据告诉我们在某个时点上哪些人失业,时间序列告诉我们某个人就业与失业的历史,但均无法告诉我们是否失业的总是同一批人(低流转率),还是失业的人群总在变动(高流转率)。如有面板数据,就可能解决上述问题。(3)样本容量较大:同时有截面与时间维度,面板数据的样本容量通常更大,可提高估计精度。6 面板数据也会带来问题。样本数据通常不满足 iid 假定,因为同一个体在不同期的扰动项一般存在自相关。面板数据的收集成本通常较高,不易获得。12.2 面板数据的估计策略面板数据的估计策略 一个极端策略是,将面板看成截面数据进行混合回归(pooled regression),即要求样本中每位个体拥有完全相同的回归方程。混合回归的缺点是,忽略个体不可观测的异质性(heterogeneity),而该异质性可能与解释变量相关,导致估计不一致。7 另一极端策略是,为每位个体估计单独的回归方程。分别回归的缺点是,忽略个体的共性,可能没有足够大的样本容量。实践中常采用折衷的策略,即假定个体的回归方程拥有相同的斜率,但可有不同截距项,以捕捉异质性(参见图 12.1)。8 图 12.1 面板数据中不同个体的截距项可以不同 9 这种模型称为“个体效应模型”(individual-specific effects model):(1,;1,)ititiiitin tTyuxz (12.1)iz为不随时间而变(time invariant)的个体特征(,ititzz),比如性别;itx可以随个体及时间而变(time-varying)。扰动项由()iitu两部分构成,称为“复合扰动项”(composite error term)。不可观测的随机变量iu是代表个体异质性的截距项,即“个体效应”(individual effects)。10 it为随个体与时间而改变的扰动项,称为“idiosyncratic error”。一般假设it为独立同分布,且与iu不相关。如果iu与某个解释变量相关,则进一步称为“固定效应模型”(Fixed Effects Model,简记 FE)。此时 OLS 不一致。解决方法是转换模型,消去iu获得一致估计。如果iu与所有解释变量(,)itixz均不相关,则进一步称为“随机效应模型”(Random Effects Model,简记 RE)。与横截面数据相比,面板数据提供了更丰富的模型与估计方法。11 12.3 混合回归混合回归 如果所有个体都拥有完全一样的回归方程,则12nuuu。将相同的个体效应统一记为,方程(12.1)可写为:ititiityxz (12.2)其中,itx不包括常数项。把所有数据放在一起,像横截面数据那样进行 OLS 回归,故称“混合回归”(pooled regression)。虽可假设不同个体的扰动项相互独立,但同一个体在不同时期的扰动项之间往往自相关。12 每位个体不同时期的所有观测值构成一个“聚类”(cluster)。样本观测值可分为不同的聚类,在同一聚类里的观测值互相相关,不同聚类之间的观测值不相关,称为“聚类样本”(cluster sample)。对于聚类样本,仍可进行 OLS 估计,但需使用“聚类稳健的标准误”(cluster-robust standard errors),形式上也是夹心估计量,表达式更为复杂。对于样本容量为nT的平衡面板,共有n个聚类,而每个聚类中包含T期观测值。13 使用聚类稳健标准误的前提是,聚类中的观测值数目T较小,而聚类数目n较大(n );此时聚类稳健标准误是真实标准误的一致估计。聚类稳健标准误更适用于时间维度T比截面维度n小的短面板。在推导过程中未假定同方差,故聚类稳健标准误也是异方差稳健的。混合回归的基本假设是不存在个体效应,对此须进行统计检验,在下文介绍。14 12.4 固定效应模型:组内估计量固定效应模型:组内估计量 考虑固定效应模型:ititiiityuxz (12.3)其中,iu与某解释变量相关,故 OLS 不一致。解决方法:通过模型变换,消掉个体效应iu。给定个体 i,方程两边对时间取平均:iiiiiyuxz (12.4)其中,11TiittyyT,ix与i的定义类似。15 将原方程减去平均方程(12.4),可得离差形式:()()itiitiitiyyxx (12.5)iz与iu被消去。定义ititiyyy,ititi xxx,ititi,则 ititityx (12.6)只要新扰动项it与新解释变量it x不相关,则 OLS 一致,称为“固定效应估计量”(Fixed Effects Estimator),记为FE。FE 主要使用每位个体的组内离差信息,也称“组内估计量”(within estimator)。16 即使iu与itx相关,只要使用组内估计量,即可得一致估计,这是面板数据的一大优势。由于可能存在组内自相关,应使用以每位个体为聚类的聚类稳健标准误。在离差变换过程中,iz 也消掉,无法估计。FE 无法估计不随时间而变的变量之影响,这是 FE 的一大缺点。为保证()iti与()itixx不相关,须假定个体 i 满足严格外生性(比前定变量或同期外生的假定更强),即1E(,)0itiiTxx,因为ix中包含了所有1(,)iiTxx的信息。17 12.5 固定效应模型:固定效应模型:LSDV 法法 个体固定效应iu,传统上视为个体 i 的待估参数,即个体 i 的截距项。对于n位个体的n个不同截距项,可在方程中引入(1)n个个体虚拟变量来体现:2nititiiiitiyDxz (12.7)其中,个体虚拟变量2D=1,如果为个体 2;否则,2D=0。其他(3,nDD)的定义类似。用 OLS 估计此方程,称为“最小二乘虚拟变量法”(Least Square Dummy Variable,LSDV)。18 LSDV 法的估计结果与组内估计量 FE 完全相同。正如线性回归与离差形式的回归在某种意义上等价(参见习题):()()iiiiiiyxyyxx (12.8)做完 LSDV 后,如发现某些个体的虚拟变量不显著而删去,则LSDV 的结果就不会与 FE 相同。LSDV 的好处是,可得到对个体异质性iu的估计。LSDV 法的缺点是,如果n很大,须在回归方程中引入很多虚拟变量,可能超出 Stata 所允许的变量个数。19 12.6 固定效应模型:一阶差分法固定效应模型:一阶差分法 对于固定效应模型,还可对原方程两边进行一阶差分,消去个体效应iu:,1,1,1()()iti titi titi tyyxx (12.9)使用 OLS 即得到“一阶差分估计量”(First Differencing Estimator),记为FD。只要扰动项的一阶差分,1()iti t与解释变量的一阶差分,1()iti txx不相关,则FD 一致。此一致性条件比保证FE 一致的严格外生性假定更弱。20 可以证明(参见习题),如果2T,则FDFE 。对于2T,如果 it为独立同分布,则FE 比FD 更有效率。实践中,主要用FE,较少用FD。12.7 时间固定效应 时间固定效应 个体固定效应模型解决了不随时间而变(time invariant)但随个体而异的遗漏变量问题。还可能存在不随个体而变(individual invariant),但随时间而变(time varying)的遗漏变量问题。比如,企业经营的宏观经济环境。21 在个体固定效应模型中加入时间固定效应(t):itititiityuxz (12.10)其中,t随时间而变,但不随个体而变。可视t为第t期特有的截距项,并解释为“第t期”对y的效应;故称1,T为“时间固定效应”(time fixed effects)。使用 LSDV 法,对每个时期定义一个虚拟变量,把(1)T个时间虚拟变量包括在回归方程中:2TititittiittyDuxz (12.11)22 时间虚拟变量21D,如果2t;否则,2D=0;以此类推。方程(12.11)既考虑了个体固定效应,又考虑了时间固定效应,称为“双向固定效应”(Two-way FE)。可通过检验这些时间虚拟变量的联合显著性来判断是否应使用双向固定效应模型。如果仅考虑个体固定效应,称为“单向固定效应”(One-way FE)。有时为节省参数(比如,时间维度T较大),可引入时间趋势项,以替代上述(1)T个时间虚拟变量:ititiiitytuxz (12.12)23 上式隐含假定,每个时期的时间效应相等,即每期均增加。如果此假定不太可能成立,应在方程中加入时间虚拟变量。12.8 随机效应模型 随机效应模型 考虑随机效应模型:ititiiityuxz (12.13)其中,个体效应iu与解释变量均不相关,故 OLS 一致。由于扰动项由()iitu组成,不是球型扰动项,故 OLS 不是最有效率的。24 假设不同个体之间的扰动项互不相关。由于iu的存在,同一个体不同时期的扰动项之间仍存在自相关。对于ts,可证明 0002Cov(,)Cov(,)Cov(,)Cov(,)Cov(,)Var()0iitiisiiiisitiitisiuuuu uuuu (12.14)其中,2Var()uiu为个体效应iu的方差。25 如果ts,则 22Var()iituu (12.15)其中,2Var()it为it的方差(不随,i t变化)。当ts时,个体i扰动项的自相关系数为 222Cov(,)Corr(,)Var()iitiisuiitiisiituuuuuu (12.16)自相关系数越大,则复合扰动项()iitu中个体效应的部分()iu越重要。Stata 记为“rho”。26 由于扰动项()iitu存在组内自相关,故 OLS 不是最有效率的。使用 GLS 转换原模型,使变换后扰动项无自相关。定义 22 1 21()uT (12.17)其中,T 为面板数据的时间维度。显然,01。给定个体i,将方程(12.13)两边对时间进行平均,然后同乘:iiiiiyuxz (12.18)27 将 原 方 程(12.13)减 去 方 程(12.18)可 得“广 义 离 差”(quasi-demeaned)模型:()(1)(1)()itiitiiiitiyyu扰动项xxz (12.19)由于01,故()itiyy只是减去iy的一部分,故名“广义离差”。广义离差方程的扰动项(1)()iitiu不再有自相关,对此方程进行 OLS 估计,即为 GLS 估计量。但通常未知,须先估计,再进行 FGLS 估计。28 可用下式来估计:22 1 21()uT (12.20)其中,u与分别为u与的样本估计值。Stata 分别记u、与为“sigma_u”、“sigma_e”与“theta”。对于随机效应模型,由于 OLS 一致,且其扰动项为()iitu,故可用 OLS 的残差估计22()u。另一方面,FE 也一致,且其扰动项为()iti,故可用 FE 的残差估计2。29 由此得到,再用 FGLS 估计原模型,可得“随机效应估计量”(Random Effects Estimator),记为RE。如假设扰动项服从正态分布,可进行最大似然估计(MLE)。12.9 组间估计量 组间估计量 对于随机效应模型,还可使用“组间估计量”。如每位个体的时间序列数据较不准确或噪音较大,可对每位个体取时间平均值,然后用平均值作横截面回归:(1,)iiiiiinyuxz (12.21)对上式用 OLS,即为“组间估计量”(Between Estimator),记BE。30 由于,iix z包含,itixz的信息,如iu与,itixz相关,则BE 不一致。故不能在固定效应模型下使用组间估计法。即使在随机效应模型下,由于面板数据被压缩为截面数据,损失较多信息量,组间估计法也不常用。12.10 拟合优度的度量拟合优度的度量 对于面板模型,如使用混合回归,可直接用混合回归的2R衡量拟合优度。如使用固定效应或随机效应,拟合优度的度量略复杂。31 对于有常数项的线性回归模型,拟合优度2R等于被解释变量y与预测值 y之间相关系数的平方,即22corr(,)Ry y。给定估计量)(,,Stata 提供了以下三种2R。(1)对应于原模型(12.1),称2)Corr(,ititiyxz 为“整体2R”(2Roverall),衡量估计量)(,对原模型的拟合优度。(2)对应于组内模型(12.6),称2Corr(,)itityx 为“组内2R”(2Rwithin),衡量估计量)(,对组内模型的拟合优度。(3)对应于组间模型(12.21),称2Corr(,)iiiyxz 为“组间2R”(2Rbetween),衡量估计量)(,对组间模型的拟合优度。32 无论固定效应、随机效应还是组间回归,都可计算这三种2R。对于固定效应模型,建议使用组内2R;对于组间回归模型,建议使用组间2R。对于随机效应模型,这三种2R都只是相应的相关系数平方而已(并非随机效应模型广义离差回归的2R)。12.11 非平衡面板非平衡面板 在面板数据中,如每个时期在样本中的个体完全一样,称为“平衡面板数据”(balanced panel)。但有时某些个体的数据可能缺失(比如,个体死亡、企业倒闭或 33 被兼并、个体不再参与调查),或者新个体在后来才加入到调查中来。如每个时期观测到的个体不完全相同,称为“非平衡面板”(unbalanced panel)或“不完全面板”(incomplete panel)。非平衡面板数据不影响计算离差形式的组内估计量(within estimator),固定效应模型的估计可照样进行。对于随机效应模型,非平衡面板数据也无实质影响。假设个体i的时间维度为iT,只要在做广义离差变换时,为每位个体定义 34 22 1 21()iiuT (12.22)即可照常进行 FGLS 估计。非平衡面板可能出现的最大问题是,那些原来在样本中但后来丢掉的个体,如果“丢掉”的原因内生(与扰动项相关),则会导致样本不具有代表性(不再是随机样本),导致估计量不一致。比如,低收入人群更易从面板数据中丢掉。如果从非平衡面板数据中提取一个平衡的面板数据子集,则必然会损失样本容量,降低估计效率。如人为“丢掉”个体并非完全随机,同样会破坏样本的随机性。35 12.12 究竟该用固定效应还是随机效应模型究竟该用固定效应还是随机效应模型 处理面板数据,究竟使用固定效应还是随机效应是根本问题。检验原假设“0:Hiu与,itixz不相关”(随机效应为正确模型)。如果0H成立,则 FE 与 RE 都一致,但 RE 比 FE 更有效率。如果0H不成立,则 FE 一致,而 RE 不一致。如果0H成立,则 FE 与 RE 估计量将共同收敛于真实的参数值,二者的差距将在大样本下消失,故FERE()p 0。反之,如果二者的差距过大,则倾向于拒绝原假设。36 以二次型度量此距离,豪斯曼检验(Hausman,1978)的统计量为 12FEREFEREFERE()Var()()()dK (12.23)其中,K 为FE 的维度,即itx中随时间而变的解释变量个数。如果该统计量大于临界值,则拒绝0H。此检验的缺点是,为计算FEREVar(),假设在0H成立情况下,RE 是最有效率的(fully efficient)。但如果扰动项存在异方差,则RE 并非最有效率。37 传统的豪斯曼检验不适用于异方差的情形,须使用异方差稳健的豪斯曼检验(参见下文)。12.13 面板模型的面板模型的 Stata 命令及实例命令及实例 1面板数据的设定 设定面板数据的 Stata 命令为 xtset panelvar timevar 命令“xtset”告诉 Stata 你的数据为面板数据。面板(个体)变量“panelvar”的取值须为整数且不重复,相当于将样本中每位个体进行编号。38 “timevar”为时间变量。假如“panelvar”本来是字符串(比如,国家名字 country),可用以下命令转换为数字型变量:encode country,gen(cntry)选择项“gen(cntry)”表示将新生成的数字型变量记为 cntry。这样,变量 cntry 就以“1,2,3,”来指代不同的国家。显示面板数据统计特性的 Stata 命令:xtdes (显示面板数据的结构,是否为平衡面板)xtsum (显示组内、组间与整体的统计指标)39 xtline varname (对每位个体分别显示该变量的时间序列图;如希望将所有个体的时间序列图叠放在一起,可加上选择项overlay)以数据集 lin_1992.dta 为例,取自 Lin(1992)对家庭联产承包责任制(household responsibility system)与中国农业增长的经典研究。该省际面板包含中国 28 个省 19701987 年有关种植业的数据。被解释变量为“种植业产值对数”(ltvfo,1980 年不变价格)。解释变量包括:耕地面积对数(ltlan,千亩),种植业劳动力(ltwlab),机械动力与畜力对数(ltpow,千马力),化肥使用量对数(ltfer,千吨),截止年底采用家庭联产承包制的生产队比重(hrs),40 农村消费者价格与农村工业投入品价格之比的一阶滞后(mipric1,1950 年=100),超额收购价格与农村工业投入品价格之比(giprice,1950 年=100),复种指数(mci,播种面积除以耕地面积),非粮食作物占播种面积比重(ngca),时间趋势(t),province(省),year(年)。为解决异方差问题,Lin(1992)将种植业产量、耕地面积、种植业劳动力、机械动力与畜力、化肥使用量这些传统的投入与产出变量都除以每省的生产队数目(team)。两个价格变量 mipric1 与 giprice 为全国性指标,各省都一样,只随时间变化。首先,设定 province 与 year 为面板(个体)变量及时间变量:.use lin_1992.dta,clear.xtset province year 41 delta:1 unit time variable:year,70 to 87 panel variable:province(strongly balanced)这是一个平衡的面板数据(strongly balanced)。其次,显示数据集的结构:.xtdes 28 100.00 XXXXXXXXXXXXXXXXXX 28 100.00 100.00 111111111111111111 Freq.Percent Cum.Pattern 18 18 18 18 18 18 18Distribution of T_i:min 5%25%50%75%95%max (province*year uniquely identifies each observation)Span(year)=18 periods Delta(year)=1 unit year:70,71,.,87 T=18province:1,2,.,28 n=28 42 上表显示,28n,而18T。n大而T小,故是短面板。显示数据集中以上变量的统计特征:.xtsum ltvfo ltlan ltwlab ltpow ltfer hrs mipric1 giprice mci ngca 43 within .0440777 .1151786 .8951786 T=18 between .0631671 .1144444 .3466667 n=28ngca overall .199623 .076145 .06 .91 N=504 within .0661412 1.323452 1.880119 T=18 between .4972044 .8666667 2.487222 n=28mci overall 1.538452 .4931854 .85 2.55 N=504 within .4537578 2.39 3.56 T=18 between 0 2.858889 2.858889 n=28giprice overall 2.858889 .4537578 2.39 3.56 N=504 within .2431379 1.76 2.73 T=18 between 0 2.248889 2.248889 n=28mipric1 overall 2.248889 .2431379 1.76 2.73 N=504 within .4504245 -.0596639 1.053866 T=17 between .0453814 .2123529 .4094118 n=28hrs overall .3497479 .4526283 0 1 N=476 within .564791 .4173016 3.510079 T=18 between .5624935 1.081111 3.649444 n=28ltfer overall 2.15119 .7903761 -.23 3.98 N=504 within .5678668 .31 3.909444 T=18 between .7702036 1.475 4.180556 n=28ltpow overall 2.692778 .9463811 .2 5.04 N=504 within .2778123 1.618631 4.053631 T=18 between .3195715 2.303889 3.646111 n=28ltwlab overall 3.19752 .4193496 .98 3.86 N=504 within .1138892 4.758988 6.163988 T=18 between .8143036 4.617222 7.697778 n=28ltlan overall 5.837877 .8084866 4.57 7.76 N=504 within .2806888 5.61498 8.471647 T=18 between .4611992 6.982222 8.977222 n=28ltvfo overall 7.647758 .5331999 5.51 9.33 N=504 Variable Mean Std.Dev.Min Max Observations 44 除 hrs 外,所有变量的观测样本均为28 18504。关键变量 hrs 的样本容量仅为28 17476,因为缺失 1980 年的hrs 观测数据。看被解释变量 ltvfo 在 28 个省的时间趋势图,如图 12.2。.xtline ltvfo 45 图 12.2 28 省种植业产值的时间趋势图 46 不同省的种植业产值均随时间而增长,但变化趋势与时机不尽相同。种植业产值的省际差异有助于估计决定种植业产值的因素。2混合回归 作为参照系,首先进行混合回归。Stata 命令的基本格式为 reg y x1 x2 x3,vce(cluster id)其中,“id”指用来确定每位个体的变量。选择项“vce(cluster id)”表示以变量 id 作为聚类变量来计算聚类稳健的标准误。47 .reg ltvfo ltlan ltwlab ltpow ltfer hrs mipric1 giprice mci ngca,vce(cluster province)选 择 项“vce(cluster province)”表 示,使 用 以“province”为聚类变量的聚类稳健标准误。将此结果储存,并记为“OLS”。.estimates store OLS 48 _cons 1.080587 .8269888 1.31 0.202 -.6162544 2.777427 ngca .3053056 .5222639 0.58 0.564 -.7662914 1.376903 mci .6949202 .1689692 4.11 0.000 .3482241 1.041616 giprice -.0538892 .0274468 -1.96 0.060 -.1102054 .002427 mipric1 .0122048 .0547799 0.22 0.825 -.1001943 .1246039 hrs .2286926 .0489458 4.67 0.000 .1282642 .329121 ltfer .3110617 .0531318 5.85 0.000 .2020443 .4200792 ltpow -.0291884 .0670385 -0.44 0.667 -.1667401 .1083633 ltwlab .2650224 .0566294 4.68 0.000 .1488285 .3812164 ltlan .693795 .115024 6.03 0.000 .4577853 .9298048 ltvfo Coef.Std.Err.t P|t|95%Conf.Interval Robust (Std.Err.adjusted for 28 clusters in province)Root MSE =.19689 R-squared =0.8685 Prob F =0.0000 F(9,27)=81.39Linear regression Number of obs=476 关键变量 hrs 在 1%水平上显著为正。49 如使用普通标准误,则可输入命令:.reg ltvfo ltlan ltwlab ltpow ltfer hrs mipric1 giprice mci ngca _cons 1.080587 .2832576 3.81 0.000 .5239661 1.637207 ngca .3053056 .1952732 1.56 0.119 -.0784195 .6890306 mci .6949202 .0522416 13.30 0.000 .592262 .7975784 giprice -.0538892 .0271999 -1.98 0.048 -.1073389 -.0004395 mipric1 .0122048 .0533863 0.23 0.819 -.0927028 .1171125 hrs .2286926 .0307121 7.45 0.000 .1683412 .289044 ltfer .3110617 .0206459 15.07 0.000 .2704911 .3516324 ltpow -.0291884 .0331891 -0.88 0.380 -.0944073 .0360305 ltwlab .2650224 .0238406 11.12 0.000 .2181741 .3118708 ltlan .693795 .0368914 18.81 0.000 .6213008 .7662892 ltvfo Coef.Std.Err.t P|t|95%Conf.Interval Total 137.421205 475 .2893078 Root MSE =.19689 Adj R-squared=0.8660 Residual 18.0652415 466 .038766613 R-squared =0.8685 Model 119.355964 9 13.2617737 Prob F =0.0000 F(9,466)=342.09 Source SS df MS Number of obs=476 50 对比聚类稳健标准误与普通标准误可知,前者大于后者。由于同一省不同年份之间的扰动项一般存在自相关,而普通标准误假设扰动项为独立同分布,故普通标准误的估计不准确。3固定效应 由于每个省的“省情”不同,可能存在不随时间而变的遗漏变量,考虑使用固定效应模型(FE)。固定效应模型(组内估计量)的 Stata 命令格式为 xtreg y x1 x2 x3,fe r 选择项“fe”表示“fixed effects”(固定效应估计量),默认为“re”表示“random effects”(随机效应估计量)。51 选择项“r”表示使用聚类稳健标准误;如使用选择项“vce(cluster id)”也能达到相同效果。LSDV 法的 Stata 命令为 reg y x1 x2 x3 i.id,vce(cluster id)“id”表示用来确定个体的变量,“i.id”则表示根据变量“id”而生成的虚拟变量。选择项“vce(cluster id)”表示使用聚类稳健的标准误。首先使用组内估计量,并记其估计结果为“FE_robust”:.xtreg ltvfo ltlan ltwlab ltpow ltfer hrs mipric1 giprice mci ngca,fe r.estimates store RE_robust 52 rho .89273901 (fraction of variance due to u_i)sigma_e .10589274 sigma_u .30549743 _cons 2.337895 .8552224 2.73 0.011 .583124 4.092667 ngca .7562031 .3821261 1.98 0.058 -.0278549 1.540261 mci .1943697 .0770515 2.52 0.018 .0362731 .3524663 giprice -.0151451 .0245968 -0.62 0.543 -.0656135 .0353233 mipric1 .0543577 .0590331 0.92 0.365 -.0667682 .1754837 hrs .2134022 .0391104 5.46 0.000 .1331542 .2936501 ltfer .1826281 .043592 4.19 0.000 .0931846 .2720716 ltpow .0577152 .0755568 0.76 0.452 -.0973146 .2127451 ltwlab .1387786 .0624585 2.22 0.035 .0106242 .2669329 ltlan .6370234 .1681335 3.79 0.001 .2920421 .9820048 ltvfo Coef.Std.Err.t P|t|95%Conf.Interval Robust (Std.Err.adjusted for 28 clusters in province)corr(u_i,Xb)=-0.3877 Prob F =0.0000 F(9,27)=274.25 overall=0.6993 max=17 between=0.6483 avg=17.0R-sq:within =0.8746 Obs per group:min=17Group variable:province Number of groups =28Fixed-effects(within)regression Number of obs =476 输出结果包括常数项(_cons),是所有个体效应iu的平均值。53 最后一行显示,“rho=0.89”,故复合扰动项()iitu的方差主要来自个体效应iu的变动。究竟应使用混合回归还是个体固定效应模型?在使用命令“xtreg,fe”时,如不加选择项“r”(将估计结果记为“FE”),则输出结果还包含一个F检验,其原假设为“0:H所有0iu”,即可以接受混合回归:.xtreg ltvfo ltlan ltwlab ltpow ltfer hrs mipric1 giprice mci ngca,fe .estimates store FE 54 F test that all u_i=0:F(27,439)=43.41 Prob F=0.0000 rho .89273901 (fraction of variance due to u_i)sigma_e .10589274 sigma_u .30549743 _cons 2.337895 .385253 6.07 0.000 1.580726 3.095065 ngca .7562031 .2168141 3.49 0.001 .3300804 1.182326 mci .1943697 .0876884 2.22 0.027 .0220285 .366711 giprice -.0151451 .0187457 -0.81 0.420 -.0519876 .0216975 mipric1 .0543577 .0421659 1.29 0.198 -.0285145 .1372299 hrs .2134022 .0223886 9.53 0.000 .1694 .2574043 ltfer .1826281 .0219921 8.30 0.000 .1394053 .225851 ltpow .0577152 .0332508 1.74 0.083 -.0076352 .1230657 ltwlab .1387786 .0261554 5.31 0.000 .0873732 .190184 ltlan .6370234 .0673191 9.46 0.000 .5047156 .7693312 ltvfo Coef.Std.Err.t P|t|95%Conf.Interval corr(u_i,Xb)=-0.3877 Prob F =0.0000 F(9,439)=340.20 overall=0.6993 max=17 between=0.6483 avg=17.0R-sq:within =0.8746 Obs per group:min=17Group variable:province Number of groups =28Fixed-effects(within)regression Numbe

此文档下载收益归作者所有

下载文档
收起
展开