會議主題
R語言數據挖掘、機器學習、網絡爬蟲、文本分析案例實戰
時間地點
2017年7月22日--7月23日 北京理工大學(具體教室會另行通知)
(時間安排:外地參會人員21日報到,22日~23日正式會議,24日答疑,學員可針對自身情況選擇參加 )
主辦機構
主辦方:雪晴數據網
協辦方:北京理工大學大數據創新學習中心、北京友萬信息科技有限公司、爬蟲俱樂部
培訓目標
本次研討會采取深入淺出的方法,先以簡單的案例引入R數據分析的基本原理,隨后重點講解多種常用單元的功能和特性,以及有R數據分析與數據的實用技術和處理方法,結合應用實例,針對工作中存在的疑難問題進行分析講解和專題討論,有效提升與會者解決復雜問題的能力。學完課程之后,學員可以用R作為工具獨立完成數據挖掘的整個流程。
培訓特點
我們以全流程的完整案例講解利用R完成數據整理、探索性數據分析、建模分析、模型評估、報告展示等環節。
我們將R語言的應用與業務實際相結合,而不是通篇介紹R包和函數。
我們還有動手實踐環節,有老師和助教解答學員在操作中遇到的問題。
還將針對工作中存在的疑難問題進行分析講解和專題討論,有效提升學員解決復雜問題的能力。
學習結束后,學員可得到本次課程的全程視頻,以便進一步學習。
為什么要學R語言,學了以后有什么好處?
不論您是在互聯網行業,還是在銀行,抑或是在高校里做教學科研的工作,有可能會接觸到數據處理、數據建模的問題。有可能在你組織機構內部的數據不夠,你需要從網上爬取更多的數據。在將你的業務問題轉化為數據分析的問題之后,就需要使用工具來幫你做數據處理和建模的工作。相對于SPSS來說,R更加靈活,包含有從數據獲取、數據整理、建模、可視化展示、自動化報告等完整的分析流程所需要的功能。相對于C++、Java這些通用編程語言來說,R是專門為數據分析的任務設計的,語法更簡潔,學習成本更低,功能更強大。根據我們多年的經驗,非計算機專業的人學習R語言,會更快上手。
網上有很多R語言的課程,為什么要選雪晴數據網?
市場上有各種R語言的課程,各有各的特色及優點,有的還是免費的,這里我們不比較各自的不同,就說說我們有什么優點吧:
優秀的講師團隊:我們的講師不但有多年的工作經驗,也有豐富的教學經驗,不但技術過硬,也善于用通俗的語言講解復雜的知識點,更有耐心為學員解答學習過程中的問題。每次課程我們都會反復研究,花大量時間準備課程材料,力求用最適合的案例和方式為學員講解。
案例教學的方法:我們從2013年開始舉辦公開的技術培訓,也曾多次給企業做內部培訓,從多年的教學實踐中,我們發現,用傳統以知識點講解為主線,案例為輔的方式,效果并不好。學員反映,聽了后面忘前面,學了一堆東西卻不知道怎么用。經過多次嘗試,我們摒棄了這種教學方式,采用以案例為主線,在案例中講解知識點的方法,在一個案例中串聯多個知識點,利用遺忘曲線的原理,我們用多個案例重現數據分析的流程,學員自然會舉一反三了。
選取有實用價值的案例:iris數據集、titanic數據、NBA比賽數據跟我們的工作和科研有什么關系?基本沒關系,那我們在講課的時候就不會用這種數據。而且我們教的是如何使用數據分析技術,并不是教你怎么寫代碼,我們培養的不是碼農,而是數據科學家。所以我們選擇的案例,都是有現實的商業意義,或者科研價值。在講解過程中,不但告訴你代碼怎么寫,還會教你怎么解決問題,為什么要這么做。
貼心的助教制度:我們每次開課都會有助教,因為是手把手的課程,助教的存在,就是為了能解答您的問題,確保您有學會,滿載回家。而且我們的助教都有實戰經驗,有的來自業界,有的可能就是前幾批的優秀學員,我們也歡迎您以后加入我們的助教或講師團隊。
對課程品質的堅持:我們在不同場合講解過課程的內容,不斷調整打磨課程,即使是相近的主題,我們也會對課程內容和案例進行升級,挑選出最適合市場趨勢的案例和技術來講解。
報名參加培訓之后,還能得到什么福利?
· 報名參加我們的課程,就自動成為我們的VIP會員,以后購買我們的線下或線上課程都有優惠。
· 加入到我們的VIP微信群、QQ群中,以后在學習中如果遇到問題,我們的老師和助教會幫忙解答
· 一些不方便大范圍分享的演講視頻和課程視頻,我們會優先分享給VIP會員。比如,本次課程之后,學員將獲贈《R語言可重復研究與自動化報告》、《R語言時間序列分析》這兩門視頻課程
· 我們組織的內部分享會,VIP會員有優先報名權
沒有學過R,也可以來上課嗎?
當然可以。其實每次都有對編程一無所知的小白來參加我們的課程,他們甚至對電腦的很多知識都不甚了解,經過兩三天的課程,不少人不但跟下來了,還很有收獲。對R有一點認識的朋友相信一定可以得心應手,針對完全沒有碰過R的新手,報名之后我們會推薦您R的基礎在線課程進行課前的練習,也可以提前一天報到,參加我們的課前輔導。
另外,即使沒有完全學會編程的內容,聽聽老師講的案例和數據分析的思想也是很有收獲的。
培訓對象
從事互聯網、金融、醫療、生態、經濟、統計、銀行、通信、環境行業的數據分析從業人員,以及相關企事業單位技術骨干、科研院所研究人員,和大專院校相關專業教學人員及在校研究生、碩士、博士等相關人員。
講師介紹
陳堰平,雪晴數據網創始人,北京理工大學大數據創新學習中心導師團成員,2017年1月獲“微軟最有價值專家”榮譽稱號。畢業于中國人民大學統計學院,曾獲CQF國際數量金融認證,先后任新華社指數中心技術總監、SupStat Analytics中國區首席技術官。在統計咨詢、數據挖掘、開發數據驅動的商業解決方案等領域有近十年的經驗,曾為國家統計局、微軟、惠普、德勤咨詢、聯想、豐田、招商銀行、花旗銀行、東方航空、中國移動、中國電信、中國聯通、國家檢察官學院等機構做過數據科學方面的培訓和咨詢。曾開發貝葉斯動態預測模型的R包ssDLM,譯作有《R語言編程藝術》、《實用數據分析》和《R語言臨床數據分析》,主講的在線公開課《R語言數據分析入門》、《R語言大規模數據分析實戰》已在多個平臺上發布,累積學習人數過萬人。
培訓費用
在職人員2000元/人,學生1600元/人(含會議注冊費、資料費、場地費)。食宿費用自理。
與會者可申請工信部《數據挖掘與分析應用高級工程師》職業技術水平證書,通過考核后即可獲得證書,需另交考試費、證書工本費共400元。
參與雪晴數據網獎學金計劃,更可以減免大筆學費,只要你足夠勤奮,可以免費學!!
獎學金計劃
1. 為雪晴數據網(www.xueqing.tv)投稿的用戶(原創或翻譯文章),可以獲得代金券(按文章質量,獎勵50到200元不等),以抵扣線上線下課程學費,投稿請聯系管理員contact@xueqing.tv
2. 注冊并登錄雪晴數據網,進入用戶中心,然后進入邀請頁面(http://www.xueqing.tv/me/invite ),獲得邀請鏈接后,轉發給好友,如果對方成功注冊,雙方都可獲得獎勵,可抵扣學費。
3. 累計五天(可不連續)轉發本課程通知到自己朋友圈,并附上推薦理由,截圖發給我們的工作人員,報名可優惠200元。
優惠政策
1. 現場班老學員8折優惠
2. 三人以上同時報名9折優惠
3. 五人以上同時報名8折優惠
課程安排
本次討論會采取“線上+線下”的方式,雪晴數據網已經上線了數門在線課程,免費向公眾開放,我們會在課程里介紹R語言的基礎知識。參加線下課程的學員,除了可以學習線上免費課程,還可以在線下學習更加深入的行業案例,并在課后得到線下課程的視頻。
線上課程
· R語言的介紹及基礎語法:如何學習R,R的數據結構,控制語句等
· 讀寫數據:從文件、網絡、數據庫等數據源讀取數據,保存數據到文件、數據庫
· 數據整理入門:數據的變換、重塑、拆分合并以及匯總
· 數據可視化:基礎繪圖系統、lattice、ggplot2等介紹
請于線下課程開始之前自己學習以下課程
· http://www.xueqing.tv/course/1
· http://www.xueqing.tv/course/64
· http://www.xueqing.tv/course/31
· http://www.xueqing.tv/course/66
· http://www.xueqing.tv/course/67
· http://www.xueqing.tv/course/69
線下課程
時間: 2017年7月22日(周六)~23日(周日)
地點:北京理工大學
課程大綱
第一天 | ||
第一講 R語言介紹及R語言基礎語法 |
1. 什么是R 及如何學習R 2. Rstudio,擴展包,工作空間 3. 數據對象 4. 向量化操作 5. 函數和控制語句 6. R命令提示符及R 腳本文件 |
涉及知識點: dplyr包:數據整理、篩選、匯總 ggplot2:數據可視化 探索性數據分析:交叉表 預測性分析:利用指數平滑等方法預測銷售量 knitr包:自動化報表 flexdashboard包:儀表盤 網絡爬蟲 文本分析 案例一: 針對一份電子商務網站的訂單數據,從產品、客戶、地區等維度來分析銷售額和利潤,也可以時間的維度縱向分析銷售趨勢。 案例二: 抓取中國政府網歷年政府工作報告,并做文本分析 |
第二講 數據整理與數據可視化 |
1. 數據變換、重塑及拆分合并 2. 匯總數據、字符串操作、日期操作 3. R 語言中的可視化函數 4. 單變量的特征 、比例的構成 5. 多變量的關系、展現時間的變化 |
|
第三講 用R做可重復研究和自動化儀表盤 |
1. 如何用R在重復研究中自動生成分析報告 2. 可視化展示:并用shiny包創建基于Web的動態儀表盤,實現各地區銷售額動態比較圖 3. 用knitr編寫自動化報告 |
|
第四講 網絡爬蟲與文本分析 |
1. 利用rvest包爬取頁面 2. 分詞、詞頻分析、詞云等文本分析 |
|
第二天 | ||
第五講 初等統計方法及線性回歸模型 |
1. 簡單線性回歸 2. 回歸診斷 3. 多元回歸 4. 主成分分析等等 |
涉及知識點: glm、glmnet、rpart、xgboost等函數和包的使用 因子變量的處理 共線性的識別和處理 Logistic回歸模型系數的商業理解 Microsoft R Server的介紹 案例三: 某連鎖餐廳為提高營業額,做了一次市場調查,根據收集到的數據,分析是哪些因素影響營業額,并提出改善經營的建議 案例四: 預測貸款逾期者(銀行業) -- 某銀行希望根據客戶過去的貸款數據來建模,以便用模型來預測新的貸款者,核貸后會逾期的機率,以做為銀行是否核貸的依據,或提供給客戶其他類型的貸款產品。 案例五: 零售業銷售促銷(零售業):此案例的目的是想根據零售產品過去的促銷記錄,利用神經網絡及回歸樹(Neural Network & Regression Tree)來預測未來的銷售成效。 |
第六講 Logistic回歸及多分類Logistic模型 |
1. logistic回歸原理 2. 實現原理及輸出解釋 3. 無序多分類的logistic回歸模型 |
|
第七講 數據挖掘模型 |
1. 基于樹的模型:決策樹、隨機森林 2. boosting方法:adaboost、XGBoost 3. 神經網絡與深度學習 |
|
第八講 利用Microsoft R Server突破內存限制做海量數據挖掘 |
1. Microsoft R Server 9.1的下載及安裝 2. Microsoft R Server中大數據包的介紹 3. 案例演示 |
報名方式
在瀏覽器訪問 http://www.uone-tech.cn/hd-r20170722bj.html,下載報名表并Email至:peixun@uone-tech.cn提交。我們隨后會聯系您。確認報名后,請通過以下三種支付方式中的一種來繳費(請保留支付憑證,拍照或截圖發給我們的工作人員 ):
方式一: 對公轉賬
開戶名 繪辰科技(北京)有限公司
開戶銀行 中國工商銀行股份公司北京大鐘寺東路支行
賬號 0200151609100034763
方式二: 支付寶
賬號 pay@xueqingtv.com
戶名 繪辰科技(北京)有限公司
方式三: 現場繳費
外地學員請于21號提前報到,北京學員可于22號早上8點~8點半報到,繳費并領取發票和紙質邀請函,以及上課教材。
由于22號早上現場人比較多,鼓勵北京學員也于21號報到
聯系方式
聯系人:陳潔老師
QQ :529698127 驗證信息請填寫R培訓
Email: peixun@uone-tech.cn
手機/微信:136-6072-3699