會議主題
R語言機器學習核心技術與應用案例
時間地點
2017年4月21日----4月23日 北京理工大學(具體教室會另行通知報名學員)
(時間安排:外地參會人員20日報到,21日~23日正式會議,21日~22日晚上安排答疑)
主辦機構
主辦方:雪晴數據網
雪晴數據網是以數據科學為主題的在線社區,運營實體為繪辰科技(北京)有限公司。網站包含視頻課程、問答、資訊等模塊。雪晴數據網專注于大數據、數據分析、數據挖掘、數據科學技術的普及和推廣,致力于向數據科學從業者提供溝通平臺。
雪晴數據網已成為Microsoft高級分析培訓團隊的在中國大陸地區唯一的合作伙伴,也是RStudio公司在中國大陸唯一的合作伙伴。
協辦方:北京理工大學大數據創新學習中心,北京友萬信息科技有限公司
培訓目標
本次研討會采取深入淺出的方法,先以簡單的案例引入R數據分析的基本原理,隨后重點講解多種常用單元的功能和特性,以及有R數據分析與數據的實用技術和處理方法,緊密結合應用實例,針對工作中存在的疑難問題進行分析講解和專題討論,有效提升與會者解決復雜問題的能力。學完課程之后,學員可以用R作為工具獨立完成數據挖掘的整個流程。
培訓特點
有別于其他培訓機構將機器學習、數據挖掘技術拆解開講解的方法,我們以全流程的完整案例講解利用R完成數據整理、探索性數據分析、建模分析、模型評估、報告展示等環節。
有別于有些培訓機構將R語言的培訓做成編程語言和函數介紹的做法,我們將R語言的應用與業務實際相結合。
我們還有動手實踐環節,有老師和助教解答學員在操作中遇到的問題。
還將針對工作中存在的疑難問題進行分析講解和專題討論,有效提升學員解決復雜問題的能力。
學習結束后,學員可得到本次課程的全程視頻,以便進一步學習。
培訓對象
各省市、自治區從事金融、醫療、保險、生態、衛生、計量、統計、銀行、通信、環境、基金行業與數據分析統計相關的企事業單位技術骨干、科研院所研究人員和大專院校相關專業教學人員及在校研究生、碩士、博士等相關人員,以及廣大R愛好者。
講師介紹
陳堰平,雪晴數據網創始人,北京理工大學大數據創新學習中心導師團成員,2017年1月獲“微軟最有價值專家”榮譽稱號。畢業于中國人民大學統計學院,曾獲CQF國際數量金融認證,先后任新華社指數中心技術總監、SupStat Analytics中國區首席技術官。在統計咨詢、數據挖掘、開發數據驅動的商業解決方案等領域有近十年的經驗,曾為國家統計局、微軟、惠普、德勤咨詢、聯想、豐田、招商銀行、花旗銀行、東方航空、中國移動、中國電信、中國聯通、國家檢察官學院等機構做過數據科學方面的培訓和咨詢。曾開發貝葉斯動態預測模型的R包ssDLM,譯作有《R語言編程藝術》、《實用數據分析》和《R語言臨床數據分析》,主講的在線公開課《R語言數據分析入門》、《R語言大規模數據分析實戰》已在多個平臺上發布,累積學習人數過萬人。
李悅,紐約大學金融傳媒碩士,特許金融分析師認證(CFA),曾就職于紐約的賣方投資研究機構做數據分析師,現就職于中關村某金融科技創業公司,任資深數據分析師。
培訓費用
在職人員3200元/人,學生2500元/人。含會議注冊費、資料費、場地費。食宿費用自理。
參與雪晴數據網獎學金計劃,更可以減免大筆學費,只要你足夠勤奮,可以免費學!!
獎學金計劃
為雪晴數據網(www.xueqing.tv)投稿的用戶(原創或翻譯文章),可以獲得代金券(按文章質量,獎勵50到200元不等),以抵扣線上線下課程學費,投稿請聯系管理員 contact@xueqing.tv
注冊并登錄雪晴數據網,進入用戶中心,然后進入邀請頁面(http://www.xueqing.tv/me/invite),獲得邀請鏈接后,轉發給好友,如果對方成功注冊,雙方都可獲得獎勵,可抵扣學費。
累計五天(可不連續)轉發本課程通知到自己朋友圈,并附上推薦理由,截圖發給我們的工作人員,報名可優惠200元。
優惠政策
現場班老學員8折優惠
三人以上同時報名9折優惠
六人以上同時報名8折優惠
注: 報名者可同時享受優惠政策與獎學金計劃,具體辦法請咨詢工作人員。
報名方式
請前往http://www.xueqing.tv/r-training/填寫報名表,我們隨后會聯系您。確認報名后,請通過以下三種支付方式中的一種來繳費(請保留支付憑證,拍照或截圖發給我們的工作人員 ):
方式一: 對公轉賬
開戶名 繪辰科技(北京)有限公司
開戶銀行 中國工商銀行股份公司北京大鐘寺東路支行
賬號 0200151609100034763
方式二: 支付寶
賬號 pay@xueqingtv.com
戶名 繪辰科技(北京)有限公司
方式三: 現場繳費
外地學員請于20號提前報到,北京學員可于21號早上8點~8點半報到,繳費并領取發票和紙質邀請函,以及上課教材。
由于21號早上現場人比較多,鼓勵北京學員也于20號報到
課程安排
本次討論會采取“線上+線下”的方式,雪晴數據網已經上線了數門在線課程,免費向公眾開放,我們會在課程里介紹R語言的基礎知識。參加線下課程的學員,除了可以學習線上免費課程,還可以在線下學習更加深入的行業案例,并在課后得到線下課程的視頻。
線上課程
R語言的介紹及基礎語法:如何學習R,R的數據結構,控制語句等
讀寫數據:從文件、網絡、數據庫等數據源讀取數據,保存數據到文件、數據庫
數據整理入門:數據的變換、重塑、拆分合并以及匯總
數據可視化:基礎繪圖系統、lattice、ggplot2等介紹
請于線下課程開始之前自己學習以下課程
http://www.xueqing.tv/course/1
http://www.xueqing.tv/course/64
http://www.xueqing.tv/course/31
http://www.xueqing.tv/course/66
http://www.xueqing.tv/course/67
http://www.xueqing.tv/course/69
線下課程
時間: 2017年4月21日~23日 地點:北京理工大學
課程大綱
第一天 | ||
第一講 R語言介紹及R語言基礎語法 |
1. 什么是R 及如何學習R 2. Rstudio,擴展包,工作空間 3. 數據對象 4. 向量化操作 5. 函數和控制語句 6. R命令提示符及R 腳本文件 |
涉及知識點: dplyr包:數據整理、篩選、匯總 ggplot2:數據可視化 探索性數據分析:交叉表 預測性分析:利用指數平滑等方法預測銷售量 knitr包:自動化報表 flexdashboard包:儀表盤 網絡爬蟲 案例一: 針對一份電子商務網站的訂單數據,從產品、客戶、地區等維度來分析銷售額和利潤,也可以時間的維度縱向分析銷售趨勢。 案例二: 使用R抓取鏈家網站數據并分析 |
第二講 數據整理與數據可視化 |
1. 數據變換、重塑及拆分合并 2. 匯總數據、字符串操作、日期操作 3. R 語言中的可視化函數 4. 單變量的特征 、比例的構成 5. 多變量的關系、展現時間的變化 |
|
第三講 用R做可重復研究和自動化儀表盤 |
1. 如何用R在重復研究中自動生成分析報告 2. 可視化展示:并用shiny包創建基于Web的動態儀表盤,實現各地區銷售額動態比較圖 3. 用knitr編寫自動化報告 |
|
第二天 | ||
第四講 初等統計方法及線性回歸模型 |
1. 簡單線性回歸 2. 回歸診斷 3. 多元回歸 4. 非參數回歸 5. 參數估計、假設檢驗;回歸分析;主成分分析、因子分析、聚類分析等等 |
涉及知識點: glm、glmnet等函數的使用 因子變量的處理 共線性的識別和處理 Logistic、多分類Logistic、定序Logistic模型的參數估計,以及模型系數的商業理解 案例三: 二手車定價模型 案例四: 網站可疑流量識別 案例五: 學校教學效果評價 |
第五講 Logistic回歸及多分類Logistic模型 |
1. logistic回歸原理 2. 實現原理及輸出解釋 3. 無序多分類的logistic回歸模型 4. 多分類有序反應變量logistic回歸應用 |
|
第六講 混合效應模型及分層線性模型介紹 |
1. 方差分析 2. 重復測量的方差分析 3. 混合效應模型 4. 分層線性模型 |
|
第三天 | ||
第七講 樹結構模型 |
1. C4.5算法構造決策樹的過程 2. CART的算法實現 3. C5.0算法生成決策樹及規則集 4. 隨機森林 |
涉及知識點: rpart、C50、randomForest、xgboost等包的使用 利用caret包做數據清洗、模型訓練、模型效果評估 ROC曲線與最佳閾值的選取 根據數據挖掘的商業目的來優化模型 機器學習模型特征選擇和參數調優 案例: 利用美國的招聘網站indeed的數據源,借助EDA探索分析方法,尋找可用feature來預測薪資薪酬,建模,評估模型,并選擇最優結果 |
第八講 Boosting方法 |
1. Bagging的概念和應用 2. GBM 3. XGboost |
|
第九講 神經網絡與深度學習 |
1. 神經網絡的概念和應用 2. Back Propogate的概念和理解 3. 神經網絡在美國的發展和應用場景 4. 深度學習算法及R語言實現 |
聯系方式
聯系人:陳老師
手機/微信:136-6072-3699
QQ :529698127驗證信息請填寫友萬科技R培訓
Email:contact@xueqingtv.com