2017年6月Stata 15正式發布。這是Stata有史以來最大的一次版本更新。我們貼出了Statalist并且列出了16項最重要的新功能。這篇文章會重點談談這些新功能:
? 擴展回歸模型
? 潛在類別分析(LCA)
? 貝葉斯前綴指令
? 線性動態隨機一般均衡(DSGE)模型
? web 的動態Markdown文檔
? 非線性混合效應模型
? 空間自回歸模型(SAR)
? 區間刪失參數生存時間模型
? 有限混合模型(FMMs)
? 混合Logit模型
? 非參數回歸
? 聚類隨機設計和回歸模型的功率分析
? Word和PDF文檔
? 圖形顏色透明度/不透明度
? ICD-10-CM/PCS支持
? 聯邦儲備經濟數據(FRED)支持
? 其他
1.擴展回歸模型
我們稱之為ERMS 擴展回歸模型。四個新的命令適合
. 線性回歸分析,
. 區間回歸包括 tobit模型,
. 概率,
. 有序概率模型
可任意組合成:
. 內生變量
. 非隨機處理任務
. 內源性(Heckman-style)樣本的選擇
這些新的命令讓人驚喜,因為可以在任何一個方程中加入內生變量,包括處理賦值和概率選擇方程。內生變量并不局限于連續性。它們可以是二進制或序數。不管是外生的還是內生的,它們都可以與其他變量相互作用。它們甚至可以互相作用,形成平方項或立方項!
這些新的ERM命令—eregress,eintreg,eprobit, 和eoprobit注定會流行起來,因為他們解決了研究人員的很多問題。首先, 可能有一個內生變量, 因為許多模型都省略了與模型中的變量相關的變量。其次,數據經常被刪剪,而刪剪不是隨機的。ERM 樣本選擇選項允許您對選擇過程進行建模, 并對其進行調整?;蛘? 如果您正在使用非隨機處理效應模型, 則可以用 ERM處理分配選項?;蛘? 可以結合處理分配和選擇選項, 其中一些是由于后續的行為而損失的擬合內生處理分配模型。
語法非常簡單:
Eregress適合線性回歸??梢院苋菀椎匕迅怕誓P蛿M合成線性回歸模型。如果結果變量y是二進制的,則鍵入:
如果結果變量y是連續的,但變量x2是二進制的,則鍵入
如果y和x2都是二進制的,則鍵入
如果想知道奇怪的nomain選項的詳細情況。當指定endogenous(name=…)時,變量name會自動添加到主方程中??梢枣I入
或者
無論哪種方式,相同的模型都是可以的。在前面的例子中指定了nomain,所以我不需要解釋包括主方程X2的這個選項。
2.潛在類別分析(LCA)
潛在的均值未被觀測。分類也就是分組。潛在類是數據中未觀測到的組。你可能有關于消費者的數據,并且根據消費者對產品的潛在興趣將他們分成三組。但是,在數據中沒有指定每個消費者所屬組的變量。如果有四個二進制變量,它們是消費者所屬的潛在類的指示信號,可以鍵入
y1,y2,y3, 和y4被觀測。Consum是潛在的分類變量,lclass(Consum 3)指定為3這個值。其結果是擬合一個模型, 其中 y1、y2、y3 和 y4 是由未觀測的類確定。四y變量中一個和三類中的一類,命令適合4×3 = 12 邏輯回歸分析。每個回歸都有一個截距。此外,多項邏輯回歸也可以用來預測Consum。
擬合模型后,你可以
. 使用新的estat lcprob命令估計屬于每一類的消費者比例;
. 使用新的estat lcprob命令估計每個類中Y1、Y2、Y3、Y4的邊際均值(均值就是示例所示的概率);
. 使用新estat lcprob命令來評價適合度;
. 使用現有的predict命令獲取分類成員的預測概率和觀測結果變量的預測值。
3.貝葉斯前綴指令
新的bayes:前綴命令使你能夠適應比以前版本更廣泛的貝葉斯模型。原來也可以擬合貝葉斯線性回歸, 但是現在可以通過輸入文字就可以:
這非常方便。以前不能做擬合貝葉斯生存的模型?,F在可以:
甚至可以擬合貝葉斯多級生存模型:
在這個模型中, 為變量 id的每個值添加隨機截距。
新的bayes:前綴命令在許多Stata評估命令之前工作,并提供超過50種可能性的模型。支持的模型包括多級、面板數據、生存和樣本選擇模型!
新命令支持所有Stata的貝葉斯的功能。你可以從之前的模型參數的分布中選擇,也可以使用之前默認的。當閉合形式解決方案用于Gibbs方法時,可以使用默認的自適應 Metropolis–Hastings 抽樣, 或Gibbs抽樣, 或兩種方法的組合。在bayesmh命令的基礎上可以使用STATA的任何其他功能??梢愿幕貧w系數的缺省先驗分布,比如,使用prior()選項:
評估后,可以使用Stata標準貝葉斯postestimation工具,比如
. bayesgraph 檢查收斂性
. bayesstats summary估計模型參數的功能
. bayesstats ic和bayestest model計算貝葉斯因子并比較貝葉斯模型
. bayestest interval進行區間假設檢驗
4. 線性動態隨機一般均衡(DSGE)模型
DSGEs是經濟學中的一個時間序列模型。它們是傳統預測模型的替代品。兩者都試圖解釋總的經濟現象, 但 DSGEs 允許對來自經濟理論模型的基礎上做這個。建立在經濟理論基礎上的方程很多。這些方程的關鍵特征是, 未來變量的期望值會影響今天的變量。這是區別 DSGEs 與矢量回歸或狀態空間模型的一個特性。另一個特點是, 從理論推導出來的參數通??梢杂眠@個理論來解釋。
這里是如何在Stata中擬合一個雙方程DSGE 模型。大括號, {}, 用于把參數括起來:
p 是一個控制變量, 而 y 是狀態空間術語中的狀態變量。f. 是正向運算符。
第一個方程式,
表示控制變量 p 取決于未來的{beta}*p 加上現在的{kappa}*y。
第二個方程式,
表示y的預期未來值是現在的{rho}*y。stata選項指定y是一個狀態變量。
在DSGE模型中有三種變量:
. 控制變量和方程,如p沒有沖擊,并且是由方程組決定的。
. 狀態變量 (如 y) 具有隱含的沖擊, 在時間段開始時是預先確定的。
. 沖擊是驅動系統的隨機錯誤。
在任何情況下, 以上dsge 命令可以定義一個模型并擬合。
如果我們有一個關于 beta 和kappa之間關系的理論, 比如它們是相等的, 我們可以用現有的命令test來測試它。
新的 postestimation命令estat policy和estat transition報告策略和轉換矩陣。如果鍵入
顯示將控制變量作為狀態變量的線性函數。如果有五個控制變量和三個狀態變量, 則每個控件將被報告為三個狀態的線性函數。在上面的簡單例子中, 預測 p 的線性函數將顯示為現在的 y 函數。
同時,
報告轉換矩陣。而策略矩陣將 p 報告為函數y, 而轉換矩陣則報告 y 如何通過時間演變為p??梢允褂肧tata的現有預測命令來生成預測??梢允褂肧tata現有的irf命令來繪制脈沖響應函數。
這是一個脈沖響應圖:
5. web動態的Markdown文檔
你有沒有聽過Markdown?它是一種創建 html 文檔的流行方式。html 文件是繁瑣的。Markdown簡單直觀,想法很簡單??梢詣摻ㄒ粋€文件, 其中包含所需的可讀格式的文本, 然后通過它運行一個命令來創建一個HTML文件。
Stata現在支持Markdown, 我們已經添加了標簽 (功能) 到Markdown, 允許包括輸入文件中的Stata命令。你所包含的命令將被運行和顯示, 或者以秘密方式運行, 以及提取輸出的部分供文檔使用。
您可以創建一個文件,例如
在Stata中,你可以輸入
現在, 有了一個名為example.html的新文件, 在 web 上, 看起來像這樣:
dyndoc代表動態文檔。創建的Markdown文件是動態的, 如果數據發生變化, 你可以通過簡單的輸入重新創建網頁。
6. 非線性混合效應模型
非線性混合效應模型也被稱為非線性多級模型和非線性層次模型??梢杂脙煞N方式來考慮這些模型??梢园阉鼈兛闯砂S機效應的非線性模型?;蛘呖梢园阉鼈兛闯删€性混合效應模型, 其中一些或所有的固定和隨機效應都是非線性的。不管哪種方式, 總的誤差分布假設成Gaussian分布。
這些模型在人口藥代動力學, 生物鑒定和研究生物學和農業成長過程中很流行。比如,采用非線性混合效應模型對機體的藥物吸收、地震強度和植物生長進行了模擬。
新的評估命令被命名為 menl。它實現了 popular-in-practice Lindstrom–Bates 算法, 是基于對固定和隨機效應的非線性均值函數進行線性化。支持最大似然和受限最大似然估計方法。
Menl易于使用??梢灾苯虞斎雴蝹€方程。大括號{ },用于將要匹配的參數括起來:
估值是 b1, b2, 和 b3。U[plant]是每個plant的隨機截距。
menl可以擬合多級或多層次的規范,其中參數將每個層級定義為模型參數和隨機效應函數。
這個和上一個模型是一樣的,此外,b2和b3允許在不同的plant間變化。幾個方差-協方差結構可用于在同一個層級上對隨機效應的相依性進行建模。如果你想建模的話,可以把上面例子中的相依性設在U1,U2和U3之間。雖然沒有明確說明,在這個模型中存在一個組內錯誤。方差協方差結構靈活應用于異方差和組內相關性的建模。異方差可以建模為一個協變量或預測平均值的冪函數,相依性可以使用任意階的自回歸模型進行建模。
除了標準功能外, postestimation特征還包括對隨機效應及其標準誤差的預測,對模型中定義的感興趣參數的預測, 作為其他模型參數和隨機效應的參數、聚類相關矩陣的整體評估等。
7. 空間自回歸模型(SAR)
Stata適合空間自回歸 (SAR) 模型, 也稱為同步自回歸模型。新的spregress,spivregress, 和spxtregress命令允許因變量的空間滯后、自變量的空間滯后和空間自回歸誤差??臻g滯后是時間序列滯后的空間模擬。時間序列滯后近年來成為變量值??臻g滯后是附近地區的值。
該模型適用于區域數據, 也稱為區域性數據。觀測結果被稱為空間單位, 可以是國家、州、區、縣、市、郵政編碼或城市街區,或者它們可能根本就不是地理位置。它們可能是社交網絡的節點??臻g模型評估直接影響—區域對自身的影響,并估算鄰近地區的間接或溢出效應。
有一個全新的 [SP] 手冊專門介紹Stata的新SAR功能。這些命令被稱為Sp命令。它們可以與以下一起工作:
? shapefiles通過 web 獲取你選擇數據,或者
? 沒有shapefiles 和數據,只包含位置的坐標,或者
? 沒有 shapefiles沒有位置會出現社會網絡數據。
下面是它如何與 shapefiles一起工作的。訪問了美國人口普查局網站并下載tl_2016_us_county 文件。你現在鍵入
下一步,將新創建的tl_2016_us.county.dta文件與你的分析文件合并:
您已經準備好定義空間加權矩陣和擬合空間滯后模型。
只擬合 (1) college (2)的依賴變量的空間滯后和(3) college空間滯后的unemployment模型。該模型也有自回歸誤差??臻g滯后變量采用W計算,空間滯后誤差采用m計算。
8. 區間刪失參數生存時間模型
Stata新的stintreg 命令加入 streg, 用于擬合參數生存模型。stintreg擬合區間刪失數據模型。在區間刪失數據中,故障時間并不確定。眾所周知, 受試者還沒有失敗的時候, 以及后來他們已經失敗的時候。
stintreg擬合指數,Weibull, Gompertz, 對數正態分布、對數邏輯和廣義的gamma生存時間模型。支持比例風險和加速故障時間度量。功能包括
. 分層估計
. 靈活的輔助參數建模
. robust, cluster–robust, bootstrap,和jackknife的標準誤差
通過 svy 前綴支持調查數據評估。
除了基本功能, postestimation功能還包括plots of survivor,, hazard, 和cumulative hazard函數;平均數和中位數時間預測;Cox–Snell and martingale-like殘差值等。
9. 有限混合模型(FMMs)
新的fmm:當數據來自未觀測到的亞群時, 前綴命令擬合模型。它可以與17 個Stata評估命令一起使用。
大多數用戶使用fmm來擬合模型中的參數 (系數、位置、方差、比例等) 在不同亞群之間的變化。在這些模型中,未觀測到的亞群稱為類。比如說你感興趣的擬合模型。
但你認為有三類模型的參數可能會有所不同。盡管沒有記錄類成員身份的變量, 但可以將
報告將是三個線性回歸—每個類為一個—與預測類成員的模型一起。
fmm: 當類可能遵循不同模型時, 也可以同時使用多個評估命令, 如
在這兩個類的例子中, 報告將是第一類線性回歸模型, Poisson回歸是第二類, 以及預測類成員模型。
每個分類在總人口的比例中,Postestimation 命令可用于 (1) 評估,(2) 報告類內結果變量的邊際均值,(3) 預測類成員的概率和預測結果。
10. 混合Logit模型
Stata已經擬合多項Logit模型。Stata15能使它們擬合混合形式, 包括隨機系數。
隨機系數對擬合多項式邏輯模型具有特殊的意義。它們是圍繞Independence of the Irrelevant Alternatives (IIA)假設一種方式。這一假設表明, 如果你選擇步行去工作, 當你的選擇是步行, 乘坐公交車, 或自駕, 你仍然選擇步行, 即使你沒有選擇不可再用的一個選項。如果選項是在步行或開車之間,你仍然會選擇步行。人類有時行為不同。
IIA假設在協變量的條件下, 選擇是獨立的。如果違反這種假設, 選擇將是相關的。隨機系數允許選擇相關性。研究人員經常在隨機效用模型和離散選擇分析的中使用混合模型。Stata新的asmixlogit Logit命令支持各種隨機系數分布, 并允許包含特定案例變量的模型。
11. 非參數回歸
Stata現在適合非參數回歸。在這些模型中, 不指定函數形式。指定變量并指定想要匹配的變量:
匹配項是g()。該方法不假定 g () 是線性的;它也可以
該方法甚至不假定 g () 在參數中是線性的。它也可以
適合 x1、x2 和 x3 的 y 模型, 請鍵入
報告是y偏導數的平均值, x1, x2 和 x3 和標準錯誤。平均值是根據數據計算的。在擬合模型后, 可以使用predict獲得預測的數值。
平均導數類似于系數, 或者至少模型是線性的, 而它不是。要知道非線性模型中的平均導數并不是平均導數。你可能想知道在變量的平均值中x1, x2, 和 x3的y 的導數??梢允褂胢argins獲取:
或者, 您希望在特定的興趣點上評估預測值,
如果你想 x3 是 1, 2,..., 10, 可以鍵入
然后,可以輸入
繪制這個函數的一部分。
另外,margins不僅可以計算, 它還能產生引導標準錯誤。
12. 聚類隨機設計和回歸模型的功耗分析
Stata現有的power命令執行功率和樣本(PSS) 分析。其功能包括PSS線性回歸和集群隨機設計 (CRDs)?,F在可以添加你自己的功率和樣本大小的方法。
線性回歸的新方法包括
. power oneslope,在一個簡單的線性回歸中對斜率測試執行pss。根據給定的其他研究參數計算樣本的大小或功率
. power rsquared,在多元線性回歸中執行R-squared檢驗的PSS。R-squared檢驗是對測定系數 (R-squared) 的 f 檢驗。測試可以用來測試所有系數的意義, 也可以用來測試其中的一個子集。在這兩種情況下, power rsquared計算樣本大小或功率或目標R-squared給其他參數研究。
. power pcorr,在多元線性回歸中執行PSS的部分相關測試。部分相關檢驗是平方偏多相關系數 f的 檢驗。該命令根據其他研究參數計算樣本大小或功率或目標平方偏相關系數。
Stata 15現在還支持集群隨機化設計:
在 CRD中, 組的受試者 (集群) 是隨機的而不是個體, 這意味著樣本大小的作用是通過數字集群和集群大小來發揮的。樣本大小確定包括給定集群大小的數量或給定集群的大小。CRD命令計算 (1) 的一個集群的數目, (2)的集群大小, 或 (3)的功率, 或最小的可檢測到的效果大小給定的其他參數。這些命令可以根據不相等的集群大小調整選項。
. 當指定新的選項集群時, 現有的5個 power方法將擴展到支持CRDs。它們是
. 對于兩個樣本方法, 還可以針對兩個組中的不相等的集群進行調整。
與所有其他功率方法一樣, 新方法允許指定參數的多個參數值, 并自動生成表格和圖形結果。
另一個新功能是可以添加自己的PSS方法。這是很容易做到的。編寫一個計算樣本大小、功率或效果大小的程序。power命令將為您完成其余部分。它將處理選項中多個值的支持, 并且自動生成圖形和結果表。
13. Word和PDF文檔
現在, 使用Stata嵌入的結果生成 Word 和 PDF檔就像制作 Excel 工作表一樣容易。大多數使用者喜歡Stata 14中的putexcel,如果你也是他們中的一員,你會愛上新的putpdf和putdocx命令。他們像putexce一樣工作??梢跃帉慸o-file來創建包含最新結果、表格和圖表的整個Word 或 PDF報表??勺詣訄绦锌芍貜偷膱蟾?。
新的 putdocx 命令將段落、圖像和表格寫入 word 文檔 (. docx 文件)。圖像包括Stata圖形和組織的標志。也可以設置文本對象的格式。包括字體大小、粗體、傾斜、自定義表等。
14. 圖形顏色透明度/不透明度
到現在為止, 在另一個上面畫一個物體, 上面的物體蓋住下面的物體。在計算機圖形學的行話中, Stata顏色完全不透明, 或者, 如果你喜歡不完全透明。Stata15允許控制其顏色的不透明度。
不透明度指定為一個百分比。默認情況下, Stata的顏色是100% 不透明的。
每當指定一個顏色時都可以指定不透明度,例如在mcolor ()選項中控制標記的顏色。你可以指定green%50,而不是green。你可以指定"0 255 0%50".而不是"0 255 0%50"(相當于綠色)??梢宰孕兄付?50, 使默認顏色50%不透明。但是, 不要指定%0。這是完全透明的, 也是無形的。
這里是一個圖表,使用70 %的不透明度:
15. ICD-10-CM/PCS支持
Stata 15支持 ICD-10-CM 和 ICD-10-PCS, 由 NCHS 和CMS 提供的美國 ICD-10 代碼。Stata 15支持從2016版本開始(從2015年10月開始) 的代碼, 當它們被授權在美國使用, 并支持所有后續版本。
Stata在 1998年開始支持ICD, 從 ICD-9-CM 16版本開始, 并支持之后的每 ICD-9 版本。自2003年以來, Stata也支持 ICD-10 代碼版本。
1998年以來, Stata的ICD命令從僅僅是一個自動的有效代碼和簡短短語列表, 成為ICD代碼的整個數據管理系統。該系統甚至包括在一個數據集中管理多個ICD版本的能力!
16. 聯邦儲備經濟數據(FRED)支持
圣路易斯聯邦儲備局向注冊用戶提供超過47萬的美國和國際經濟和金融時間序列。注冊是免費的并且很容易做。這項服務叫FRED。它包括來自84個來源的數據, 包括美聯儲、賓州世界表、歐統局和世界銀行。
Stata 15中,你可以使用Stata的GUI來訪問和下載FRED數據??梢园搭悇e、發布或來源進行搜索或瀏覽??梢詥螕暨x擇感興趣的系列。選擇1或選擇100。當您點擊下載"時, Stata將下載它們并將它們合并到一個內存中的單個自定義數據集中。
Stata命令行界面也提供了這些相同的功能。命令是import fred。當追蹤月報表需要自動更新27個不同系列時, 該命令非常方便。
Stata可以訪問FRED和ALFRED。ALFRED是FRED的歷史檔案數據。
17. 其他
在Stata功能頁面中了解更多上述功能, 還有以下功能:
. 貝葉斯多級模型
. 門限回歸
. 具有隨機系數的面板數據tobit
. 區間測量結果的多層回歸
. 刪失結果的多級Tobit回歸
. 面板數據的協整測試
. 時間序列中多斷點的測試
. 多組廣義 SEM
. 異方差的線性回歸
. Heckman風格的樣本選擇Poisson模型
. 具有隨機系數的面板數據非線性模型
. 貝葉斯面板數據模型
. 隨機系數的面板數據區間回歸
. SVG的導出
. 貝葉斯生存模型
. 零膨脹有序概率
. 添加您自己的電源和樣本大小的方法
. 貝葉斯樣本選擇模型
. 支持瑞典語
. 對DO文件編輯器的改進
. 流隨機數生成器
. 對于java插件的改進
. Stata / MP更多的并行化