Python作為一門面向多對象的編程語言,簡潔的語法使得編寫數十行代碼即可實現各種數據分析功能。在研究海量數據時使用Python更加簡單且效率高的處理分析數據。隨著數據時代的到來,越來越多的學校開設Python課程,除了學生,老師也開始更加精益的要求提高自己的教學水平和科研水平。
2023年1月31日-2月2日,由北京友萬信息科技有限公司主辦,佛山科學技術學院承辦的,為期三天的“Python數據分析定制內訓課程”就是為此而來。本次課程受環境因素影響依舊采用線上直播的方式進行。雖然還在寒假期間,佛山科學技術學院老師們的學習熱情依舊高漲,除了相關課程的授課老師進行進修,還有許多其他老師一同學習。此次培訓為佛山科學技術學院內部定制的高級培訓課程,共有三十余人參加,專屬定制課程內容和效果受到了參培人員的一致好評。
參培學員好評反饋
本次課程由北京友萬信息科技有限公司簽約講師:袁銘老師主講,全面介紹了使用Python進行數據分析所必需的各項知識。
包括數據分析的基本流程、Python數據分析環境搭建與Python編程基礎、數據分析與統計分析、回歸分析、分類與聚類算法、時間序列分析以及機器學習前沿專題等。
本課程所有教學模塊均有實戰項目以及高度可復用的源代碼配套,并且能夠與相關課程做到有機結合。通過本課程學習,學員能夠掌握數據分析、數據挖掘的基本過程以及相關核心技術,初步具有數據科學的思維方式,能夠從數據分析的角度對社會經濟現象進行研究與解釋。
本課程的三大特色:
第一,貼近實戰的教學模塊安排。
本課程將從主講人實際參與企業級數據挖掘的經驗出發,從講解 Python 環境搭建、Python 編程基礎開始,逐漸過渡到結合實際案例的數據探索與分析。在具有一定積累后,將全面介紹回歸、分類、聚類、推薦系統等統計建模與數據挖掘工具。課程最后將對一些數據科學領域的前沿例如集成學習、深度學習等進行介紹。
第二,平緩的學習曲線。
課程整體以及課程的每一個教學模塊均遵循從易到難的教學規律,并設置大量“所見即所得”的課堂練習,使參與者能夠從學習過程中產生獲得感。特別地,主講人將從自身教學經驗出發,化解學員學習過程中的難點與“痛點”,保持學習熱情。
第三,高度可復用的代碼模塊。
本課程提供的教學代碼均具有高度可復用性,經過適度修改可以用于絕大部分數據分析與數據挖掘的實際工作與教學活動。
第一天袁老師先分享了數據分析概念,介紹了數據思維,現在社會的數據分析所需要的主流軟件。接下來開始帶大家了解Python。先介紹了Python的6個基本模塊:Python編程環境搭建、功能模塊安裝、Python控制語句、Python內置數據結構、Python的函數與類、Numpy簡介。讓聽課學員能夠在最開始就明確Python的基本組成,為后續課程打下基礎。
模塊內容簡介
介紹完Python的基礎知識后,接下來講解第三部分:基本的數據分析,主要分為Pandas簡介;數據導入;數據篩選與數據集成;缺失值處理。
講解這部分的時候,袁老師講述了一些他的個人使用竅門。同時表示涉及的代碼,最好是自己手動敲一遍,增加代碼熟悉度。
基本的數據分析
第四部分講解了基本的統計分析。這部分內容可以和統計學原理,完美結合。包括數據的頻數分析;集中趨勢分析;離散程度分析;分布以及一些基本的統計圖形。
基本的統計分析
第五部分講解了基本的時間序列分析。包含頻率轉換;環比、同比與定基;環比、同比與定基增長率;時間序列的預測;Holt-winters方法;ARIMA模型;其他的時間序列預測包。
基本的時間序列分析
第六部分講解了回歸分析。包括Statsmodel包中的回歸分析;多元線性回歸模型;Sklearn中的回歸分析;回歸模型的預測;回歸模型的評價。
回歸分析
第七部分講解了統計分類。典型的分類算法有:logistic回歸、決策樹、樸素貝葉斯、kNN等。
統計分類
第八部分講解了聚類算法與推薦算法。包括:聚類分析;聚類算法;Kmeans算法;推薦算法等等。
聚類算法
推薦算法
第九部分講解了集成學習。包含集成學習的含義;集成學習的分類;學習器的方差、偏差和誤差;隨機森林、AdaBoost、GBDT等內容。
集成學習
第十部分講解的是神經網絡模型。包括人腦與神經網絡;感知器;人工神經網絡;激活函數;神經網絡模型的訓練;人工神經網絡的實現。
第十一部分增添了文本挖掘的知識拓展:文本挖掘、文本分類等知識。
三天的課程大綱如下:
第一天 | 第二天 | 第三天 |
模塊 1:數據分析概述 1.1 數據思維 1.2 數據分析流程 1.3 數據分析軟件平臺簡介 1.4 Python 語言簡介 模塊 2:Python 編程基礎 2.1 Python 編程環境搭建 2.2 功能模型介紹與安裝 2.3 Python 控制語句 2.4 Python 內置數據結構 2.5 Python 的函數與類 2.6 Numpy 簡介 模塊 3:基本的數據分析 3.1 Pandas 概述 3.2 數據導入 3.3 數據篩選與數據集成 3.4 數據清洗 | 模塊 4:統計分析 4.1 基本的描述性統計分析 4.2 分組統計與數據透視 4.3 多元統計分析 4.4 數據可視化基礎 4.5 假設檢驗 模塊 5:回歸分析 5.1 回歸與回歸模型 5.2 回歸模型的評價與預測 5.3 多元回歸模型 5.4 如何處理定性數據 模塊 6:統計分類 6.1 分類算法概述 6.2 KNN 算法 6.3 Logistics 模型 6.4 決策樹模型 6.5 分類模型評價 | 模塊 7:聚類算法與推薦算法 7.1 聚類算法概述 7.2 Kmeans 算法 7.3 聚類模型性能評價 7.4 推薦算法 模塊 8:時間序列分析 8.1 時間序列數據的基本處理 8.2 環比、同比、定基增長率 8.3 時間序列分解 8.4 時間序列預測 模塊 9:前沿專題與教學經驗分享 9.1 集成學習 9.2 神經網絡模型 9.3 教學經驗分享 模塊10:文本挖掘 |
北京友萬信息科技有限公司作為中國大陸領先的教育和科學軟件分銷商,已在中國300多所高校建立了可靠的分銷渠道,擁有最成功的教學資源和數據管理專家。友萬科技將在未來努力幫助國內高校建立科學領先的教育體系,熟練運用基本功學習高效的科研方法,并能夠有效地推廣科學軟件,同時向中國用戶提供高質量的客戶支持和培訓服務。合作熱線: 010-56548231