从最根本的定义来说,内生外生首先是取决于系统的,在一个系统内部决定的变量,自然就是内生变量,在系统决定的变量,就是外生变量。比如,给一个系统,比如地球,那么当前情况下地球上一切可以统计的变量都是内生变量,但是阳光就是外生变量。那么如果以太阳系为研究的系统,那么自然,阳光此时也是内生变量了。
这样说内生性外生性似乎很容易理解,但是涉及到经济问题似乎不是那么好办了,因为经济系统中,所有的变量很难说是完全独立的,比如货币发行量,似乎是央行决定,按理说是外生的吧,但是慢着,央行的货币不是随便发的,也是因为有经济体有需求才会向社会发行货币,这个就是货币外生和货币内生的讨论,研究的文章有很多。
还是先说外生性吧,Leamer定义,如果y对x的条件分布(这个就是给出x值,对应随机变量y)不随x的生成过程的修正而发生变化,那么x就是外生变量。外生性似乎还是可以分为两类,前定性(前定变量是指独立于方程中同期和未来误差项的变量),严格外生(严格外生变量是指独立于方程中所有同期、未来,和过去误差项的变量)。
依照这个定义,我什么也看不出来,倒是可以从CLRM假定cov(Ut,Xt)≠0情况考虑。既然cov(Ut,Xt)≠0可以叫成内生性,那么cov(Ut,Xt)=0大概可以叫外生变量了吧。chris的书前面把这个假定强化为X是非随机变量,当显然这一假定是靠不住的,X更多情况下是随机变量。这里涉及到前面曾经困惑的一个概率,随机解释变量,随机解释变量就是说解释变量是随机的,原因根据我的思考总结,大概是这两类,1.观测值存在误差2.根据Y=α+θX+μ,如果Y能影响X,由于Y是随机的,自然X也就带有随机性了。
随机解释变量容易带来内生性的问题,但却也不是必然,比如X是随机解释变量,但是X和u是独立的,也就是说cov(Ut,Xt)=0的时候,是不违背CLRM假设的。其实到这里,我们讨论的一切,什么内生性,自相关,异方差,这些为什么要讨论呢,就是因为我们经常用OLS模型进行估计,而CLRM的五个假定就是为了使得OLS的估计具有一致性,无偏性,有效性。这时候,你看,即使X是随机变量,如果cov(Ut,Xt)=0,那么是用OLS模型估计的值仍然是具有上面三条性质的,也就是说回归没有问题。什么时候会出问题,cov(Ut,Xt)≠0,这个时候的回归就不是一致的了,这个可以从无偏定义推出来,即,然后将cov(Ut,Xt)≠0代入入就可以发现E(β)≠β等等类似,这个不是今天论述的重点。
顺带第一下CLRM第五条假设,残差u服从正太分布,这个和估计值的一致无偏有效性没有关系,但是在进行有效性检测是,就要用到这个假设了,如果残差不符合正太分布,根本就没办法进行任何检测了。不过好在根据中心极限定理,样本够多的时候,可以渐进趋向正太分布,拿来做有效性检测也不会有太大问题。
回到内生性的话题,解释变量的内生性指的是模型中的解释变量与扰动项相关,这个问题可以的原因大体有以下几条:
1 模型设定偏差,遗漏了变量,这样,被遗漏的变量就被放进了残差项了,如果对被解释的变量和其他解释变量相关,自然,就会出现cov(Ut,Xt)≠0也就是内生性问题了。
2测量误差,测量误差也有两种,一种是对被解释变量Y的测量误差,这个其实不会引起内生性,另一种是对解释变量X的测量误差。说明一下,被解释变量Y的测量误差,设y的真实值y*,测量值y,测量误差e0=y-y*,假设理论的回归方程为y*=β0+β1x1+….将测量误差带入方程得y*=β0+β1x1+….ε+e0=y*=β0+β1x1+….ν其中ν=ε+e0表示实际回归方程的残差,显然由于y的测量误差和xi是相互独立的,那么实际回归方程的残差v也与各解释变量相互独立(无关),所以还是满足外生性的。至于解释变量x的测量误差,回归式y=β0+β1x1+….ε中,测量误差产生于xk, ek=xk-xk*,将测量误差带入回归式y=β0+β1x1+….ε+βke那么如果cov(x*k,ek)=0,那么cov(xk,ek)=cov(x*k+ek,ek)=σ^2,此时的测量误差便会引起内生性的问题了。
3双向交互影响(或者同时受其他变量的影响)这种情况引起的内生性问题在现实中最为常见。其基本的原理可以阐述为,被解释变量y和解释变量x之间存在一个交互影响的过程。x的数值大小会引起y取值的变换,但同时y的变换又会反过来对x构成影响。这样,在如下的回归方程中:如果残差项ε的冲击影响了y的取值,而这样的影响会通过y传导到x上,从而造成了x和残差项ε的相关。也就是引起了内生性问题。这里举几个简单、但经常遇到的例子说明。例1:金融发展与经济增长 例2:外商直接投资FDI与经济增长 例3:犯罪率与警备投入。而我们通常最难以确定的内生性问题就是这个问题,因为经济学领域,变量大多都是相互影响的,毕竟都是在这样一个社会系统里面。而我们之前那些讨论的内容,通常都不是我们遇到的主要问题,因为测量误差是既成事实,改进很困难,而遗漏变量,这个是模型设定的时候,如果你遗漏了,别人挑刺也很难找出你遗漏了什么。倒是最后的交互影响,因为几个解释变量放在那里,他想挑刺就说内生性,因为经济系统内部内生性很多,如果你不能很好的解释,检验,这一道关就不能让别人信服。
网上有人说,内生变量和外生变量很好区别:外生变量就像函数中的参量一样,不受模型内部变量的影响。而内生变量受模型中的变量影响,比如X+Y=a (1)X-Y=1 (2)将上面两个方程联立,可以得到一个模型,其中变量X 和Y是可以通过解方程从“模型中”解出的,故是内生变量。但是变量a无法通过解方程来决定,只能由外在因素决定,所以是外生的,相当于一个参数。这种说法倒是简单明了,很容易理解,也符合我们的直觉,但是在简历模型的时候,很多时候没有办法就是说a他就是外生的,他不是另外一个变量Z。
处理内生性的问题通常用工具变量法,或者两阶段最小二乘,这个和对内生性概念的理解就没什么关系,就不提了。