<acronym id="pokdi"><strong id="pokdi"></strong></acronym>
      <acronym id="pokdi"><label id="pokdi"><xmp id="pokdi"></xmp></label></acronym>

      <td id="pokdi"><ruby id="pokdi"></ruby></td>
      <td id="pokdi"><option id="pokdi"></option></td>
      <td id="pokdi"></td>

        1. 教育裝備采購網
          第八屆圖書館論壇 校體購2

          網絡抓取NFL數據到Stata中

          教育裝備采購網 2018-11-27 11:43 圍觀1450次

            關于足球賽,每個人都想在足球聯賽中尋找優勢,所以我們寫了一個網頁抓取NFL數據的命令。這個命令就是nfl2stata,安裝這個命令,可以輸入,

            

            使用這個新命令,您可以輕松的發現上個賽季誰的觸地得分最高。

            

            您可以從上賽季度聯賽中找到前五名得分最高的球員。

            

            您可以從上一個常規賽中產生一個頂級傳球隊長的圖表。

            

            里面有很多有趣的數據值得關注。雖然這看起來像是一個簡單的命令,但實際上不是這樣,因為需要通過web scraping來抓取、解析和加載來自http://www.nfl.com的數據。

            網絡抓取

            您可能聽說過“web scraping”這個詞。Web scraping的簡單定義就是從網絡上提取數據。大多數時候,一個網站的版權禁止人們發布從網站上獲取的數據,但是您可以在個人電腦使用數據副本。這也是NFL網站關于版權保護的描述。因此,用戶必須自己抓取網絡數據。獲取NFL數據,可以輸入,

            

            此命令將2009年到當前年度的所有數據都進行了提取,并以Stata數據集的形式保存到本地電腦的Stata adopath中。具體來說,它將保存到PLUS目錄中,這樣nfl2stata命令可以找到它。保存在http://www.nfl.com第一年的NFL數據是2009。目前,在這之前沒有數據可以供參考。網絡抓取是一個既昂貴有費時的過程。取決于這幾個因素(計算機速度、計算機存儲空間、網絡連接等),這種初始數據抓取需要數小時才能完成。您可能希望在一夜之間運行上述命令。如果刪除了歷史數據,您可以輸入,

            

            用當前周的數據來更新本地保存的數據集。

            在寫這篇文章時,抓取命令是可以正常使用的,但是如果NFL更改了HTML頁面格式的話,這個命令就會崩潰。如果出現了這種情況,我們會修復它。此外,當NFL更新其網站上以前的數據時,被抓取的數據會隨著時間的推移而改變。因此,幾周前您所抓取的數據將跟ESPN或NFL網站上所看到的數據不符合。此外,有時數據可以存在于多個地方,并且可以不一致,因為一個站點得到更新的統計數據,另一個則不會。您可以使用nfl2stata scrape, season(_all) replace重新抓取數據,并創建新的干凈的數據集。這些問題使得網絡抓取是一個不穩定的過程。

            命令

            nfl2stata scrape命令可以為每一年生成game, game summary, play-by-play, player, player

            profile, roster和 team Stata數據集。為了把這些數據加載到Stata中,您必須使用以下命令:

            ? 加載gams-by-game數據到Stata中,使用

            

            ? 加載gams summary數據到Stata中,使用

            

            加載play-by-play數據到Stata中,使用

            

            加載player-specific數據到Stata中,使用

            

            ? 加載player profile數據到Stata中,使用

            

            ? 加載team roster數據到Stata中,使用

            

            ? 加載team game-by-game數據到Stata中,使用

            

            這些命令各自搜索各自的數據集。通常,您需要使用Stata命令,例如collapse, gsort 和merge來生成統計數據,對數據進行排序,并將兩個或多個NFL數據集合并在一起檢查數據。我們再來看幾個例子。

            示例

            我發現使用最頻繁的兩個命令,一個是gsort,按升序或降序排序數據;另一個是collapse,生成匯總統計數據集。當處理多場比賽或多個季度賽數據時,collapse命令更有用。比如,要找出誰在去年的NFL中是領銜外接員,您可以輸入,

            

            有時,您需要合并兩個或多個NFL數據集來回答有關數據的一些問題。例如,為了找到過去九年NFL跑衛的平均權數,您必須合并roster數據和profile數據,在同一數據集中得到player position和player weight變量。例如,輸入

            

            想要找出誰是最佳外接員或搶攻人員,您需要把所有進攻球員數據合并成一個數據集。例如,列出領銜外接人員的類型,

            

            

            

            實施

            我們使用Stata的Java plugins來編寫大多數的命令。其他我們編寫命令的Java庫有:

            ? Gson

            ? Jsoup

            ? Minify

            有很多用來web scraping 數據的Java庫,我們只使用了其中一些。

            

          點擊進入北京天演融智軟件有限公司展臺查看更多 來源:教育裝備采購網 作者:科學軟件網 責任編輯:安健 我要投稿
          校體購終極頁

          相關閱讀

          版權與免責聲明:

          ① 凡本網注明"來源:教育裝備采購網"的所有作品,版權均屬于教育裝備采購網,未經本網授權不得轉載、摘編或利用其它方式使用。已獲本網授權的作品,應在授權范圍內使用,并注明"來源:教育裝備采購網"。違者本網將追究相關法律責任。

          ② 本網凡注明"來源:XXX(非本網)"的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,且不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、網站或個人從本網下載使用,必須保留本網注明的"稿件來源",并自負版權等法律責任。

          ③ 如涉及作品內容、版權等問題,請在作品發表之日起兩周內與本網聯系,否則視為放棄相關權利。

          校體購產品
          99久久国产自偷自偷免费一区|91久久精品无码一区|国语自产精品视频在线区|伊人久久大香线蕉av综合

            <acronym id="pokdi"><strong id="pokdi"></strong></acronym>
              <acronym id="pokdi"><label id="pokdi"><xmp id="pokdi"></xmp></label></acronym>

              <td id="pokdi"><ruby id="pokdi"></ruby></td>
              <td id="pokdi"><option id="pokdi"></option></td>
              <td id="pokdi"></td>