爬蟲俱樂部將于2018年1月20日至28日在武漢舉行兩期Stata編程技術定制培訓,此次采用初級班和高級班分批次培訓模式,初級班主要是為了讓學員掌握Stata數據分析的技巧,并能獨立撰寫簡單的程序。涉及的主要內容有多種復雜數據的讀取和輸出、數據的合并、各種數據整理的技巧、簡單網絡爬蟲工具、繪圖、Stata15新增功能以及我們團隊編寫的自動輸出實證結果的命令介紹。全部課程采用案例教學的模式,經過爬蟲俱樂部團隊多年的精心策劃,我們選擇了合理的內容和合適的順序,通過20多個教學案例,旨在幫助大家在較短的時間內掌握Stata軟件與金融計算的核心技術和方法,同時也教大家如何用Stata軟件做實證結果。
高級班主要是為了讓學員熟練掌握Stata爬蟲技術和文本分析技術,內容包括利正則表達式的文本處理技術、利用正則表達式的網絡爬蟲技術、文本分析、Mata語言以及計量經濟學中模型識別問題。全部課程采用理論與案例相結合的方式,旨在幫助大家熟悉Stata核心的爬蟲技術,以及Stata與其他軟件的交互的高端技術。
“爬蟲俱樂部”(微信公眾號)是由李春濤教授領導下的研究生及本科生組成的大數據分析和數據挖掘團隊。爬蟲俱樂部團隊是Stata技術控,專注于分享使用Stata的技術,解決Stata相關問題。提供編程技術咨詢,編程和實證培訓。“爬蟲俱樂部”為提高爬蟲君們的技術需求,以每天至少更新一個Stata技術的速度在為爬蟲君們服務。
授課講師
李春濤教授:
爬蟲俱樂部創始人,香港大學博士,中南財經政法大學金融學教授,博士生導師。李春教授有15年的stata編程經驗,編寫過ttable2、chinafin、cntrade、eventstudy、psemail、sum2docx、reg2docx、wordconvert、corr2docx、t2docx等stata命令,這些命令讓中國的股票日交易數據、日內分時數據和上市公司財務數據免費且唾手可得,讓Stata可以發送電子郵件,讓中文地址和經緯度輕松轉換等。李教授主要的研究方向為公司治理和企業創新,在Journal of Comparative Economics、International Journal of Auditing、Stata Journal、《經濟研究》和《金融研究》等期刊發表論文近30篇。
薛 原:
爬蟲俱樂部資深Stata編程資深專家,具有豐富的程序設計經驗,在Stata前20大最熱門的用戶命令中,薛原貢獻了4個,其中2個進入前10名。薛原還參與了多個實證研究項目,熟練掌握正則表達式,curl技術和各種爬蟲技術,多次參與爬蟲俱樂部的培訓工作,積累了豐富的數據分析經驗、授課經驗和學術研究經驗。薛原已經有一篇論文被國內金融學權威期刊接收。
張璇副教授:
2011年畢業于中國人民大學統計學院,獲應用經濟學博士學位。2005-2006年訪問香港大學香港商業決策與研究中心,擔任研究助理工作。主要研究興趣是網絡爬蟲、大數據分析方法和微觀計量方法的應用研究,涉及腐敗、收入分配、微觀企業行為等。在“Stata Journal”、“Statistical Papers”、《經濟研究》、《金融研究》、《財貿經濟》、《南方經濟》等SCI和CSSCI期刊上發表文章多篇。獲中國博士后面上基金、特別基金以及國家自科青年基金資助。獲中南財經政法大學第三批“文瀾青年”學者稱號。
劉貝貝:
中南財經政法大學2016級博士研究生。有論文發表在《經濟研究》、《金融研究》、《南方經濟》,2015年6月-2017年1月在香港嶺南大學財務保險系擔任研究助理一職,研究生期間兩次獲得國家獎學金,2017年獲得鴻儒獎學金,熟練掌握圖形繪畫和數據挖掘。
初級班培訓內容
第一部分:Stata初步與數據讀入
1)熟悉界面(菜單欄、工具欄、命令輸入窗口、歷史命令窗口、結果輸出窗口等)
2)讀入Stata格式的數據(use)
3)尋求幫助(在線幫助、搜索幫助、人肉幫助)
4)DOS命令(cd、mkdir、dir、erase、rm、rmdir、copy、type、shell等)
5)Winexec調用windows系統(播放音樂、打開、關閉瀏覽器等)
6)Copy命令(文件轉移、文件重命名、網絡文件讀取、網頁源代碼讀取)
7)常用命令(常用的30個命令:keep、drop、use save table browse等)
8)日期定義(Stata可識別的日期和時間格式、主要日期函數、時間函數等)
9)函數(數學函數、字符串函數、隨機函數、編程函數等)
10)egen函數(egen與bysort結合、egen與常見統計量結合等)
11)讀入TXT、CSV文件(萬德交易數據為例)
12)Excel文件(單個Excel文件、單個Sheet的讀入與保存)
13)固定寬度的txt文件(構造固定寬度數據,用命令讀入)
14)分行顯示的txt文件(構造分行顯示的固定寬度數據,用命令讀入)
15)基金經理變更案例(不規則數據的整理、數據搬家與填充)
第二部分:宏與循環
1)Local概念與基本操作(如何定義local)
2)global概念與基本操作(與local的區別)
3)宏擴展函數(將dis結果、dir結果等賦值給local)
4)while 循環
5)forvalue 循環
6)跳出循環的continue 和continue, break
7)NBER工作論文下載案例(forvalue循環與copy命令)
8)上交所年報抓取案例(forvalue循環,日期函數、容錯命令cap、循環過程中的終止)
9)foreach循環, 讀入多個csv文件(以wind交易數據為例)
10)獲取文件夾中文件名列表(fs命令)并對多個文件循環
11)獲取一個變量的取值列表(levelsof命令)并對變量的多個取值進行循環
12)讀入多個Excel的多個Sheet案例(以csmar交易和財務數據為例)
第三部分:數據庫操作
1)數據的縱向合并(CSMAR交易數據為例、cntrade命令、工企數據庫運用)
2)數據的橫向合并(財務數據為例)
3)數據長寬變換(wind財務數據、多列變一列reshape,stack命令)
4)美國流行歌曲目錄案例(reshape命令長變寬)
5)起死回生(preserve restore命令)
6) CSSCI期刊目錄案例(preserve restore一列變多列)
7) label(文件label、變量label、觀測值label)
8)用label找變量(labelsof、label 的宏擴展函數)
9)字符串處理(長度、關鍵詞、替換、提取、尋找總經理、尋找董事長、兩職合一)
第四部分:Post命令與網絡爬蟲入門
1)post 原理
2)定義post
3)用post計算同步性和Beta
4)基于網絡數據的事件研究
5)股本變更數據
6)新浪公告數據抓取
7)新浪高管任職數據抓取
第五部分:繪圖
1)基本統計圖形的繪制:
a)散點圖:twoway scatter
b)折線圖:twoway line
c)連線圖:twoway connected
d)連線陰影圖:twoway area
e)柱狀圖: twoway bar
f)直方圖: twoway histogram
g)條形統計圖:graph bar
h)餅圖:graph pie
2)基本統計圖形的屬性:顏色、形狀、大小、標簽、位置、坐標軸、圖例等
3)復雜圖形的繪制(多個圖形在同一個圖形中的顯示,多個坐標軸的繪畫等)
4)透明圖片的繪制
5)命令grss的運用
6)圖形的保存、合并和輸出
7)中國地圖的繪制
8)DID的平行性趨勢檢驗圖形繪制
9)斷點回歸的圖形繪制
第五部分:回歸分析及結果輸出
1)輸出表格或圖形到WORD文檔、EXCEL文檔和PDF文檔:putdocx、putpdf、putexcel
2)基本統計信息:sum2doxc
3)分組檢驗:t2docx
4)相關系數矩陣:corr2docx
5)簡單線性回歸:reg2docx
第六部分:論文實證重現(如果時間允許)
1)知識產權保護與企業創新
2)分析師跟蹤與盈余管理
高級班培訓內容
第一部分:正則表達式
1)正則表達式基本函數介紹:
a) ustrregexm()
b) ustrregexs()
c) ustrregexrf()與ustrregexra()
2)正則表達式元字符介紹:
a)基本元字符
b)數量元字符
c)位置元字符
d)前后查找
e)特殊字符元字符
f)回溯引用
g)unicode編碼
3)正則表達式匹配模式
a)貪婪模式
b)懶惰模式
4)正則表達式例子
a)郵編提取
b)英文姓與名的拆分
c)CSSCI數據預處理
d)百度新聞數量
e)城市名稱提取
f)pdf表格數據的提取
g)英文姓名的拆分
h)用正則表達式表示日期
5)正則表達式相關命令
a)moss命令與簡單的詞頻統計
b)subinfile命令對文本文檔進行操作
第二部分:網絡爬蟲
1)爬蟲初步:
a)新浪高管任職數據抓取
b) NBER Working Paper信息的抓取
2)尋找真實鏈接:
a)和訊網港股數據
b)深交所信息披露質量
c)百度新聞逐年結果數
3)調用curl:
a)新浪財經港股數據
b)環保部AQI
c)P2P平臺數據抓取方法
d)同花順研發費用
e)土地市場網
第三部分:Mata
1)mata簡介
2)mata簡單操作
a)進入與退出mata環境
b)定義mata矩陣
c) mata讀取文件
d) mata運算
e) mata循環與條件語句
3)定義mata函數
4)使用mata進行網絡數據處理
第四部分:文本分析
1)分詞原理
2)分詞的實現
a)函數ustrwordcount()和ustrword()
b)調用Python的jieba和pynlpir
c)Bosonnlp的API
d)詞頻統計
3)高亮輸出文章重點
4)詞云圖的實現
5)情感分析原理
6)情感分析的實現
a)Bosonnlp
b)構建詞庫計算情感值
c)大眾點評日料評論情感分析
第五部分:模型識別
1)IV原理與經典案例
2)DID原理與經典案例
3)RD原理與經典案例
培訓目的
本次培訓通過具體的案例對每部分技術進行講解,力圖使大家掌握Stata的基本命令、編程、數據處理以及抓取網絡數據的方法。專題式的講解使你能在短時間內掌握Stata的精髓,精選的實例和翔實的配套資料能讓你在課后快速拓展所學,并能夠編寫一些實用的Stata程序,為進一步學習和科研打下扎實的基礎。希望通過本次培訓,使培訓人員對Stata軟件有更深入的認識,并在其工作崗位上發揮其強大的功能。
培訓相關事項
培訓時間
初級班:2018年1月20-23日
高級班:2018年1月25-28日
培訓地點
湖北.武漢(具體地點報名后通過微信通知)
培訓對象
國內高校教師、碩士生、博士生、科研院所科研人員、社會團體及Stata愛好者。
報名方式
即日起發送“報名回執表+支付截圖”至郵箱:marketing@uone-tech.cn,郵件主題為:“爬蟲俱樂部2018武漢培訓+姓名+單位”。
報名回執表下載鏈接: https://eyun.baidu.com/s/3geA59Gv 密碼:77lj
培訓費用
初級班:4000元/人,學生可以享受八折優惠,即3200元/人(學生需出示有效學生證件)。另外,三人同行可以在前面價格的基礎上享受第三位半價優惠。
高級班:4000元/人,學生可以享受八折優惠,即3200元/人(學生需出示有效學生證件)。另外,三人同行可以在前面價格的基礎上享受第三位半價優惠。
初級班和高級班均報名者7200元/人,學生5800元/人(學生需出示有效學生證件)。另外,三人同行可以在前面價格的基礎上享受第三位半價優惠。
支付方式
對公轉賬:
開戶名:北京友萬信息科技有限公司
開戶行:中國建設銀行北京昌平支行
帳 號:11050181360009366857
相關單位
主辦方:湖北青瀾云科技有限公司
協助方:爬蟲俱樂部 、北京友萬科技有限公司
其它事項及培訓安排
1、請學員自帶筆記本電腦,我們將提供Stata原廠軟件試用程序。
2、本次培訓食宿及往返交通費用學員自理。
3、即日起開始正式報名和收費,每班限40人,招滿為止。