<acronym id="pokdi"><strong id="pokdi"></strong></acronym>
      <acronym id="pokdi"><label id="pokdi"><xmp id="pokdi"></xmp></label></acronym>

      <td id="pokdi"><ruby id="pokdi"></ruby></td>
      <td id="pokdi"><option id="pokdi"></option></td>
      <td id="pokdi"></td>

        1. 教育裝備采購網
          第八屆圖書館論壇 校體購2

          Stata軟件對截斷和刪失數據處理方法介紹

          教育裝備采購網 2017-09-21 10:48 圍觀1161次

            截斷和刪失是完全不同的現象,都會導致我們的樣本不完整。這些現象出現在醫療科學、工程、社會科學和其他研究領域。如果忽略截斷和刪失,當我們分析數據時,我們的人口參數估計就會不一致。

            截斷和刪失會出現在處理樣本的過程中,那我們就從定義左截斷和左刪失開始:

            當低于閾值的個體在樣本中不存在時,我們的數據就屬于左截斷。比如,我們想研究某些魚的大小,以捕魚網為樣本,魚小于魚網,所以在我們的樣本中是不存在的。

            我們的數據從K開始左刪失,如果每個個體值在樣本中存在并低于K,但實際值未知。例如,我們有一個測量儀器,不能檢測到一定水平以下的值時,就會發生這種情況。

            我們主要討論左截斷和左刪失,但是我們討論的概念可以應用到所有的截斷和刪失中去:右截斷、右刪失和區間。

            當執行截斷或刪失數據的估計時,我們需要使用一些工具來說明這些不完整的數據。對于截斷線性回歸,我們可以使用truncreg命令;對于刪失線性回歸,我們可以使用intreg和tobit命令。

            這篇文章,我們將要分析截斷數據和刪失數據的特征,并討論用truncreg命令和tobit命令來說明不完整的數據。

            截斷數據

            案例:皇家海軍陸戰隊

            Fogel et al.(1978)發布了皇家海軍陸戰隊人員的身高的數據集,此數據可以擴展到2個世紀。它可以用來確定不同時期,英國男性的平均身高。Trussell and Bloom (1979)指出樣本被截斷,由于新兵最低身高的限制。數據被截斷了(而不是刪失),因為身高低于最低限制的個人都沒有出現在樣本中??紤]到這一事實,他們擬合了1800年到1809年期間皇家海軍陸戰隊身高的截斷分布。

            由于Trussell和Bloom提到的問題,我們使用了人工數據集。我們假設人口數據服從正態分布μ=65和σ=3.5,并且都是左截斷到64.

            我們使用一個直方圖來總結我們的數據:

            

            可以看到截斷點,沒有小于64的數據。

            如果我們忽略截斷,會發生什么呢?

            如果我們忽略截斷,將不完整的數據視為完整的,樣本均值與總體均值就會不一致,因為截斷點以下的所有觀測值都是缺失的。在我們的實例中,真實的均值95%都在置信區間預測平均值外。

            

            我們可以將樣本直方圖與忽略截斷后得出的正態分布進行比較,并且把這些值看成是人口均值和標準差的估計。

            

            

            使用truncreg考慮截斷

            我們可以使用truncreg來估計潛在非截斷分布的參數??紤]左截斷64,可以使用選項ll(64)。

            

            現在估計的值接近我們的實際模擬值μ=65,σ=3.5。

            讓我們將截斷密度重疊到數據直方圖中去。

            

            

            截斷分布適合我們的樣本,我們分析人口分布均值等于65,標準偏差等于3.5.

            刪失數據

            現在我們看一下刪失數據的案例,看看他們和截斷數據之間的區別。

            案例:家庭表面尼古丁的含量情況

            Matt et al.在2004年進行了一項研究,對煙草煙霧污染吸煙者家庭的整個表面進行了評估。非常有趣的一項測量是家具表面的尼古丁含量情況。每個家庭中的擦拭樣本來自每件家具。然而,尼古丁污染低于一定限度的,測量儀檢測不到。

            數據被刪失了,而不是被截斷了。當尼古丁污染低于檢測極限值時,樣本中仍然包含了尼古丁的檢測值,這個檢測值就等于最低極限值。被這項研究中的這個問題啟發,我隨意創建了一個人工數據集。尼古丁污染水平的日志被假定為正常。在這里,lognlevel包含尼古丁含量。用于模擬日志尼古丁含量的參數,刪失數據是μ=ln(5),σ=2.5,左刪失數據為0.1。我們開始繪制直方圖。

            

            

            直方圖左側有一個尖峰,因為在檢測極限以下的值被記錄為等于極限值。計算樣本的原始均值和標準偏差,將不會為潛在的未經審查的高斯分布提供適當的估計。

            

            均值和標準偏差分別估計為1.68和2.4,而實際參數為ln(5) =1.61 和2.5。

            使用Tobit賬戶審核

            我們估計均值和標準偏差分布,并使用ll選項的tobit來考慮左刪失值(如果審核極限值隨觀測值而變化,那么可以用intreg來代替)。

            

            潛在的未經審核的分布估計的均值為1.62,標準差2.49. 我們把未經審核的分布疊加到直方圖中:

            

            

            潛在的未經審核的分布匹配直方圖的一部分,左邊尾部補償審查點的尖峰。

            總結

            在抽樣數據中,刪失和截斷是不同的兩種現象。截斷高斯抽樣中潛在的人口參數可以用truncreg來估計。刪失高斯抽樣中潛在的人口參數要用intreg或tobit來估計。

            結語

            我們已經討論了刪失和截斷的概念,也舉例說明了這兩個概念的意思。與本次討論有關的要點如下:

            本次討論是基于高斯模型之上的,但是主要的概念可以擴展到任意的分布中。以上的例子在沒有協變量的情況下擬合回歸模型,因此,我們可以更好地可視化刪失和截斷分布的形狀。然而,這些概念很容易擴展到協變量的回歸框架中,并且特定觀測值的期望值是協變量函數。

            我們已經討論過使用truncreg和tobit來處理刪失和截斷數據。但是這些命令也可以應用到非刪失和非截斷數據中,只要這些數據是特定分布中的人口抽樣。

          點擊進入北京天演融智軟件有限公司展臺查看更多 來源:教育裝備采購網 作者:中國科學軟件網 責任編輯:李瑤瑤 我要投稿
          校體購終極頁

          相關閱讀

          版權與免責聲明:

          ① 凡本網注明"來源:教育裝備采購網"的所有作品,版權均屬于教育裝備采購網,未經本網授權不得轉載、摘編或利用其它方式使用。已獲本網授權的作品,應在授權范圍內使用,并注明"來源:教育裝備采購網"。違者本網將追究相關法律責任。

          ② 本網凡注明"來源:XXX(非本網)"的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,且不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、網站或個人從本網下載使用,必須保留本網注明的"稿件來源",并自負版權等法律責任。

          ③ 如涉及作品內容、版權等問題,請在作品發表之日起兩周內與本網聯系,否則視為放棄相關權利。

          校體購產品
          99久久国产自偷自偷免费一区|91久久精品无码一区|国语自产精品视频在线区|伊人久久大香线蕉av综合

            <acronym id="pokdi"><strong id="pokdi"></strong></acronym>
              <acronym id="pokdi"><label id="pokdi"><xmp id="pokdi"></xmp></label></acronym>

              <td id="pokdi"><ruby id="pokdi"></ruby></td>
              <td id="pokdi"><option id="pokdi"></option></td>
              <td id="pokdi"></td>