1.有哪些有趣的工具变量
第一个是1991年QJE上 Angrist&Krueger 的 Does Compulsory School Attendance Affect Schooling and Earnings? 。这篇论文研究的是一个老问题:教育对收入的影响。我们知道,由于有遗漏变量的问题,直接做OLS回归会有内生性问题。这篇论文考虑到,由于美国的义务教育规定是按年龄限制的,不到一定的年龄就不能离开学校,所以一月出生的人在一月份就可以走了,但六月出生的人必须要在学校待到六月,这样出生月份不一样的人结束教育的时间也不一样,但是他们开始教育的时间都是学校开学的时候。结果出生月份就会影响受教育时间的长短。于是这篇论文就用是否出生在第一季度作为教育时间的工具变量,发现用工具变量的结果和用OLS的结果没有显著区别。这个工具变量后来也受到了一些质疑,因为这是一个弱工具变量,出生月份对受教育时间的影响尽管存在但很小,这样即使出生月份和遗漏变量只有很微弱的相关性,估计结果也会有比较大的偏差。
第二个是1990年AER上Angrist的 Lifetime Earnings and the Vietnam Era Draft Lottery: Evidence from Social Security Administrative Records 。这也是他的博士论文工作。这篇论文研究的是参加越战经历对之后收入的影响,这显然也是一个有内生性的问题。作者注意到,国防部征兵的时候是给适龄的男性抽一个号码(Draft Lottery),然后定一个上限,号码小于这个上限的人在征兵范围之内。于是他定义征兵号是否小于这个上限为draft eligibility,显然draft eligibility为1的人更可能参加越战,而这个数字是随机抽的,所以draft eligibility是一个合适的工具变量。这是一个巧妙利用自然实验的例子。
最近又知道一个很有意思的。1998年AER的 Angrist&Evans 的 Children and Their Parents' Labor Supply: Evidence from Exogenous Variation in Family Size 。这篇论文研究的是子女数目增加对父母劳动市场参与的影响。这里的问题就是找一个影响子女数目的外生冲击。这方面的研究有的用的是双胞胎,有的用的是流产失败。双胞胎的产生当然一般是随机的,而不是预料到设计出来的,所以这是直接增加子女个数的外生冲击。这篇论文考虑了一个间接增加子女个数的因素,就是头两个孩子的性别构成。这为什么会影响子女数量呢?他们的理论是这样的:父母一般希望子女的性别构成多样化,所以如果头两胎都是男孩或女孩,那么他们就希望再生一个性别不一样的,但如果前两胎一个男孩一个女孩,那性别多样化的任务已经完成了,就不会再生了,所以前两个孩子性别一样的家庭会有更多的子女。我觉得这个思路确实很神奇。总之,找工具变量就是要开动脑筋,大胆联想。
2.工具变量的定义
英文术语:instrumental variable
在模型估计过程中被作为工具使用,以替代模型中与误差项相关的随机解释变量的变量,称为工具变量。
作为工具变量 ,必须满足下述四个条件:
(1)与所替的随机解释变量高度相关;
(2)与随机误差项不相关;
(3)与模型中其他解释变量不相关;
(4)同一模型中需要引入多个工具变量时,这些工具变量之间不相关。
3.工具变量和控制变量区别
1. 某一个变量与模型中随机解释变量高度相关,但却不与随机误差项相关,那么就可以用此变量与模型中相应回归系数得到一个一致估计量,这个变量就称为工具变量。
2. 控制变量在物理学的概念是指那些除了实验因素(自变量)以外的所有影响实验结果的变量,这些变量不是本实验所要研究的变量,所以又称无关变量、无关因子、非实验因素或非实验因子。只有将自变量以外一切能引起因变量变化的变量控制好,才能弄清实验中的因果关系。控制变量衍生到生活中的作用是控制一定影响因素从而得到真实的结果。
4.工具变量法的Stata命令和实例
原发布者:th6572
工具变量法的Stata命令及实例本实例使用数据集“grilic.dta”。先看一下数据集的统计特征:考察智商与受教育年限的相关关系:上表显示.智商(在一定程度上可以视为能力的代理变量)与受教育年限具有强烈的正相关关系(相关系数为0.51)。作为一个参考系.先进行OLS回归.并使用稳健标准差:其中expr,tenure,rns,smsa均为控制变量.而我们主要感兴趣的是变量受教育年限(s)。回归的结果显示.教育投资的年回报率为10.26%.这个似乎太高了。可能的原因是.由于遗漏变量“能力”与受教育正相关.故“能力”对工资的贡献也被纳入教育的贡献.因此高估了教育的回报率。引入智商iq作为能力的代理变量.再进行OLS回归:虽然教育的投资回报率有所下降.但是依然很高。由于用iq作为能力的代理变量有测量误差.故iq是内生变量.考虑使用变量(med(母亲的受教育年限)、kww(在“”中的成绩)、mrt(婚姻虚拟变量.已婚=1)age(年龄))作为iq的工具变量.进行2SLS回归.并使用稳健的标准差:在此2SLS回归中.教育回报率反而上升到13.73%.而iq对工资的贡献居然为负值。使用工具变量的前提是工具变量的有效性。为此.进行过度识别检验.考察是否所有的工具变量均外生.即与扰动项不相关:结果强烈拒绝所有工具变量均外生的原假设。考虑仅使用变量(med,kww)作为iq的工具变量.再次进行2SLS回归.同时显示第一阶段的回归结果:上表显示.教育的回
5.工具变量回归系数是变大还是变小
工具变量回归系数是变大.
多元回归中,自变量对因变量有没有影响,影响大小,主要看显著性检验,即P值。 P值小于0.05,则通过了检验,认为该因素对因变量有显著影响。 对于通过了影响的自变量,如果要比较哪个影响大,哪个影响小,除了看符号的正负外,还可以看标准后的回归系数。
工具变量 在模型估计过程中被作为工具使用,以替代模型中与误差项相关的随机解释变量的变量,称为工具变量。 作为工具变量,必须满足下述四个条件: (1)与所替的随机解释变量高度相关; (2)与随机误差项不相关; (3)与模型中其他解释变量不相关; (4)同一模型中需要引入多个工具变量时,这些工具变量之间不相关。
6.如何用工具变量法解决序列相关
序列相关的修正 自相关结构已知时的修正——广义差分法 广义差分法是将原模型变换为满足OLS法的差分模型,再进行OLS估计.t遵循0均值,同方差,无序列相关的各条OLS假定 广义差分方程,失去一次观测 更一般地,如果原模型 存在 则可以将原模型变换为: 该模型为广义差分模型,不存在序列相关问题.可进行OLS估计. 未知时序列相关的修正 应用广义差分法,必须已知随机误差项的相关系数 1, 2, … , p .实际上,人们并不知道它们的具体数值,所以必须首先对它们进行估计.(1)用DW统计量估计 (2)科克伦-奥克特两步法 做原模型的OLS估计,得到残差et 做回归: 估计 用 作广义差分方程的回归,求回归系数.(3)德宾两步法 将广义差分方程写为:将上式看作一复回归模型,求Yt对Xt,Xt-1和Yt-1的回归,并把对Yt-1的回归系数的估计值( )看作对 的一个估计.虽然这个估计值有偏误,它却是 的一个一致性估计.求得 后,把变量换为 对转换变量形成的广义差分方程做OLS估计.虚假序列相关问题 由于随机项的序列相关往往是在模型设定中遗漏了重要的解释变量或对模型的函数形式设定有误,这种情形可称为虚假序列相关(false autocorrelation) ,应在模型设定中排除.避免产生虚假序列相关性的措施是在开始时建立一个"一般"的模型,然后逐渐剔除确实不显著的变量.例1 美国零工招聘指数与失业率 数据如表.回归模型设为:其中:HWI:零工招聘指数,U:失业率 先验符号 查表,N=24,一个解释变量,5%的DW临界值:dL=1.27, dU=1.45,0例1 美国零工招聘指数与失业率 序列相关修正,估计 用DW统计量估计 科克伦-奥克特两步法 德宾两步法 科-奥两步法结果:一般对大样本来说,用哪种方法区别不大.但是对小样本则不同.而且没有一种方法总是优于其他方法.科-奥两步法较常用.最终结果 比较 例2我国1980-2001年发电量与GDP 对数模型lnqi= 0+ 1lnxi+ i 存在序列相关 BG检验:LM 序列相关修正 系数均显著,存在序列相关 六,案例:中国商品进口模型 经济理论指出,商品进口主要由进口国的经济发展水平,以及商品进口价格指数与国内价格指数对比因素决定的.由于无法取得中国商品进口价格指数,我们主要研究中国商品进口与国内生产总值的关系.(下表). 1. 通过OLS法建立如下中国商品进口方程: t (3.32) (20.12) 2. 进行序列相关性检验. DW检验 取 =5%,由于n=24,k=2(包含常数项),查表得:dl=1.27, du=1.45 由于 DW=0.628 20.05(2) 故: 存在正自相关2阶滞后:3阶滞后:于是,LM=21 0.68=14.28 取 =5%, 2分布的临界值 20.05(3)=7.815 LM > 20.05(3) 表明: 存在正自相关;但ět-3的参数不显著,说明不存在3阶序列相关性.3,运用广义差分法进行自相关的处理 (1)采用杜宾两步法估计 第一步,估计模型 t (1.76) (6.64) (-1.76) (5.88) (-5.19) (5.30) 第二步,作差分变换: D.W.=2.307 R2=0.991 则M*关于GDP*的OLS估计结果为: (2.76) (16.46) 取 =5%,DW>du=1.43 (样本容量24-2=22) 表明:已不存在自相关 于是原模型为: 与OLS估计结果的差别只在截距项: (2)采用科克伦-奥科特迭代法估计 取 =5% ,DW>du=1.66(样本容量:22) 表明:广义差分模型已不存在序列相关性. 可以验证: 仅采用1阶广义差分,变换后的模型仍存在1阶自相关性; 采用3阶广义差分,变换后的模型不再有自相关性,但AR[3]的系数的t值不显著. 单方程小结 多元回归模型 多元回归模型描述了被解释变量与诸解释变量的依赖关系 偏回归系数 i表示其它解释变量不变的条件下,第i个解释变量变化对被解释变量的 "净" 影响.偏回归系数的估计方法:最小二乘估计 当经典假设满足时,OLS估计量为最优线性无偏估计量 多元回归模型的建模过程 明确所研究的问题,确定因变量 通过定性分析,找到导致因变量变化的主要影响因素,作为解释变量 收集数据,整理数据,数据的初步分析 分析因变量与各解释变量间关系的性质,确定模型的函数形式 建立计量模型,确定各偏回归系数的先验符号 多元回归模型的建模过程(续) 用OLS估计模型的参数,并作各种检验 经济意义检验:各偏回归系数的符号是否与预期一致 经典假设检验:多重共线,异方差,序列相关 如果存在异方差/序列相关,统计检验无效 统计检验:t检验,F检验,判定系数 筛选完善模型:设定偏误问题 模型的应用:预测,结构分析,政策建议 注意:不同形式模型偏回归系数的经济含义 回归建模示例1:粮食生产模型 根据理论和经验分析,影响粮食生产(Y)的主要因素有:农业化肥施用量(X1), 粮食播种面积(X2),成灾面积(X3),农业机械总动力(X4), 农业劳动力(X5) 已知中国粮食生产的相关数据,建立中国粮食生产函数:Y= 0+ 1 X1 + 2 X2 + 3 X3 + 4 X4 + 4 X5 + 模型估计结果 无异方差,无序列相关,不显著,剔除 辅助回归 多重共线 如何修正 差分消除共线 经检验,无异方差,无序列相关,无多重共线,可剔除两个不显著变量 剔除两个不显著变量 剔除变量法:先剔除哪个变量 先剔除x5"劳动力" 剔除x5"劳动力"和x4"机械总动力" 可检验无序列相关,无异方差 去除常数项——过原点回归。