最初的想法
由于因果關系讓人難以捉摸,所以評估數據的因果關系是研究人員的努力方向之一。在忽略干擾因素,內生性,遺漏變量或者一個錯誤模型前,預測值的估計和利益影響就會不一致,因果關系也就變的越加模糊。
控制因果關系的試驗就是一種替代選擇。然而,進行控制實驗可能是不可行的。例如,政策制定者不能隨機征稅。在試驗數據缺失的情況下,一個替代選擇就是使用工具變量或控制函數方法。
Stata有許多內置的估計來執行這些潛在的解決方法和工具,也可以創建評估工具以實現內置評估工具覆蓋不到的情況。下面就舉例說明線性模型的兩種可能性,在后續的文章中,再討論非線性模型。
線性模型案例
我們先從兩個協變量的線性模型開始,x1和x2。在這個模型中,x1與錯誤項?無關; 這是給定條件E(x1?)=0,x1是外生變量,x2是錯誤相關項;給定條件是E(X2?)≠0,x2是內生變量。模型如下:
事實上X2與不可觀測因素?相關,這意味著采用線性回歸擬合模型得到不一致的參數估計。一種選擇是使用兩階段最小二乘法估計。兩階段最小二乘法是有效的,需要為x2指定一個正確的模型包括一個變量z1,這對利益結果的不可觀測變量X1無關。我們同樣需要z1和x1與不可觀測結果?無關,并且x2方程式也是不可觀測的。表達式如下:
在(1)的關系中暗示x2可以被分為2個部分,一個是與?相關,問題的癥結所在是V,另一個是與?不相關,。兩階段最小二乘法的關鍵是得到一個跟x2后部分一致的估計。
下面是模擬滿足以上假設的數據:
如果用最小二乘法估計模型參數,將得到
恢復協變量的系數值,x1的是-2,x2也是-2,2是常數。
使用sem結構方程模型也可以恢復模型參數。這里的關鍵是要指定兩個線性方程并且聲明兩個方程的不可觀測部分是相關的。有趣的是,模型并不滿意sem估計不可觀測的假設聯合正態性,因此得到一致的估計,如下面輸出表中方程y的系數值所示:
sem語法要求寫兩個線性方程。使用一個<-建立內變量,并且聲明兩個內變量為不可觀測變量,由相關聯的e.y和e.x2表示。使用選項cov(e.y*e.x2)指定相關性。
使用sem得到的系數和標準誤差與最小二乘法得到的是完全相同的。這種等式發生在矩估計中,像兩階段最小二乘法與廣義矩估計(GMM)中,或當矩條件和分數方程相同時,基于似然估計中。因此,即使假設不同,但是估計的方程是相同的。這些模型的估計方程由(2)提供。
也可以在gmm中使用gmm來擬合這個模型。方法如下:
1:寫出內生變量方程的殘差。例子如下:
2:在系統中使用所有外生變量作為工具,在這個例子中為x1和z1.
使用gmm得到如下:
再來一遍,用ivregress 和gsem.得到相同的參數值,但是標準誤差是不同的。原因是gmm計算穩健標準誤差是默認的。如果用穩健標準誤差計算ivregress,結果又是完全一樣的:
另一種方法是使用控制功能方法來得到感興趣的參數。使用來自工具x1和z1的內生變量x2的回歸殘差,
作為x1和x2回歸因子y。使用gmm來實現控制功能的方法如下所示:
正如前面的例子所示,定義殘差和工具,gmm使用這兩個信息創建矩條件。在以上例子中,模型外生變量的內生變量的回歸殘差,同時也是殘差和工具。因此,我沒把它們當作外生工具。相反,在eq3的內生變量回歸中,手動給殘差建立矩條件。
在前三個例子中,使用控制功能方法再次給出了相同的結果。第一個例子中使用了Stata中已有的估計。后兩個例子,使用了估計工具得到了大型的模型估計結果。
結語
估計現有的內生性模型參數和相關問題是相當困難的。以上舉例說明了在Stata中如何使用命令來估計這些模型的參數,目的也是為了說明如何使用gmm和sem來評估這些模型。