數據科學技術發展:將與生產應用相融合
數據爆炸把人類帶入了一個數據時代,數據科學的發展引發了政府、公眾和產業界等對數據的熱情,也激發了高校和科研人員開始考慮它的教學與研發問題。
高納德公司(Gartner Group)成立于1979年,是世界上第一家信息技術研究和分析公司,它在調研了數據科學及其新技術發展形態后,得出結論:數據科學自身的發展于2014年7月已經接近創新與膨脹期的末端,將在2~5年后開始應用于生產高地期,與眾多不同的行業和學科結合起來,創造出更多的可能。
高納德公司的另一項研究揭示了數據科學本身的成長曲線,從圖中可以看出,數據科學的各組成部分的成熟度不同。其中R語言的成熟度最高,已廣泛應用于生產活動;其次是模擬與仿真、集成學習、視頻與圖像分析、文本分析等,正在趨于成熟,即將投入實際應用;基于Hadoop的數據發現很可能要消失;而語音分析、模型管理、自然語言問答等已經渡過了炒作期,轉而走向實際應用;公眾數據科學、模型工廠、算法市場(經濟)、規范分析等技術,正處于高速發展之中。
也就是說,在傳統數據領域中一些常用工具方法的應用發展已經趨于飽和,例如R語言;甚至有一部分開始進入衰退階段,例如Hadoop;而像Python、深度神經網絡、還有一些交叉領域的數據科學例如公眾數據科學、高級異常檢測應用仍處于創新的高峰期,有著更多的發展潛力和創新方向。
高校紛紛開設數據科學專業,數量之后要看質量
在教學中,數據科學的發展也與越來越多其他學科發生交叉與融合, 打破了原有的方法和體制。數據科學交叉學科應運而生,交叉學科顧名思義就是2種甚至多種學科交融的產物,如數據新聞(Data Journalism)、材料數據科學(Materials Data Science)、大數據金融(Big Data Finance)、大數據倫理(Big Data Ethics)和大數據教育(Big Data Education)等。
→
目前,我國各類高校、高職院校已陸續開始圍繞大數據專業建設展開研究并申報大數據專業。2016年2月,北京大學、對外經濟貿易大學和中南大學成為首批成功獲批設立“數據科學與大數據技術”本科新專業的高校;2017年3月,經教育部批準,第二批共32所高校成功申請“數據科學與大數據技術”本科專業;2018年3月,共有283所高校獲批“數據科學與大數據”專業,截至2019年4月,獲批該專業的高校已經達到488所。從申請資料看,國內數據科學專業是一門主要以統計學和計算機科學與技術專業為基礎建設的全新專業。數據科學專業已成為我國現階段高等教育的熱點問題之一。
數據科學類專業在經過雨后春筍般的爆發性增長后,專業數量已經趨近飽和,建設重點已經完成從數量到質量的轉移,即將迎來新一輪的學科評估,需要對研究領域、課程狀況、課題狀況、隊伍狀況、學生狀況等進行客觀評價。有關學校和科研機構學科建設狀況往往會引起社會各界的關注,對于學校來說目前最重要的便是提高教學質量和人才培養水平。
傳統模式VS新型思維,不同教學思維下的工具選擇
大數據專業是各高校學科建設的重中之重,相關學科的教育廠商也類目繁多,服務內容覆蓋了教學系統、教學工具、實驗室設備、課程內容、案例實踐等內容,在提升教學效率的同時也為學生提供了多元化發展機會,但有很多學校和老師因為選擇了一些不適應新學科的傳統教學工具,或者是“偽數據科學平臺”,在數據專業建設上走了彎路。
下面先說說傳統教學工具的利與弊,在主打網絡技術和數據挖掘的大數據教學初始階段,人才培養多以基本技能和基礎理論為主,便捷和快速就是受邀需求,所以傳統教學工具由于其部署方便、操作便捷和一些個性化定制的教學功能,可以為老師和同學節省了不少教學準備時間,它的使用成為了主流。
畫一個圖,來圖形化表達傳統模式和新型模式的區別
傳統教學工具 | VS | 新型教學平臺 |
本地化 | → | 云原生 |
資源封閉 | → | 資源開放 |
陳舊案例教學 | → | 高熱度案例更新 |
實驗室模擬訓練 | → | 企業項目實戰 |
僅在教學中使用 | → | 貫穿教學、科研和生產應用 |
成果班內分享 | → | 成果社區公開交流 |
但數據科學是一門實踐性極強的學科,其研究和應用都不能脫離現實中的領域,在使用幾年之后大家才發現,快餐式的教學只能承載技能培養而無法打磨人才的數據思維,有很多傳統教學工具其實遠脫離了實際場景,僅滿足了基礎的教學要求,而無法進行工業級生產應用。
一方面,傳統教學工具一般都是封閉或者本地化部署的,用于教學的案例庫或者數據集難以實時更新,這樣做只能讓學生們在配置好的條件中進行單一反復的流程性學習。而采用早已落后的傳統數據集和教學案例,與現下新興的行業真實數據隔絕,不僅會讓他們喪失對數據科學的興趣,也容易讓他們變得只適應實驗室溫室環境,對行業動態和團隊協作缺乏了解。
另一方面,傳統教學工具僅是為教學定制,其功能和操作界面都與實際生產力工具大相徑庭,這會帶來效率和時間的浪費,如果學生在學習時慣用的工具與工作中所采用的工具不同,則需要很長時間來適應新工具的使用習慣,在求職和日常工作中都會遇見瓶頸。
高校如果需要加快對數據科學的專業建設,并建立培養人才的完整體系,不僅只看到眼前的便利,更應該選擇一個能夠在企業工作場景下使用、并且能夠連接行業真實項目的新型教學工具。這樣能讓學生開放地面對與看待各類數據科學問題,進行真實的實踐;使用生產力工具進行教學也能讓他們不用中途變更工具使用習慣,從學習到生產的切換不受任何阻礙,把更多精力放在錘煉數據思維和技能上。
數據科學教育趨勢:工具級打通教學、科研和生產場景
隨著數據科學教育的不斷發展,數據科學領域的新型教學工具也應運而生,但嚴格地來說,新型教學工具一般不是僅為教學而生的,它是在科研和實際生產應用中也能使用的一類工具。
首先,新型工具能夠很好地支持工業級應用,這點與傳統教學工具有著巨大差異,傳統教學工具基于教學需求研發,雖然能支持教學,但卻無法支撐起工業級應用等一系列功能,而新型教學工具一般是基于產業應用需求研發,例如統計分析領域的SAS和商業數學領域的MATLAB,都是由科技軟件廠商開發的教學工具,在生產應用方面用途廣泛,讓學生的使用習慣能從學習一直延伸到工作和科研中,三者切換不受到任何工具使用的阻礙,這也是一款教學工具長用不衰的根本原因,目前很多國內的頂尖高校已經開始采用新型教學工具。
其次,面對與日俱增的優質數據和案例,教學工具也必須同步跟進,讓學生接觸到最貼近時代的內容。這一點便需要基于云原生的新型教學工具來實現,讓學生快速接觸到每個行業中最時興的高熱度數據集和項目,并且能夠通過該工具直接掛載使用,教學應該擺脫陳舊的數據集和分析方法,融入進不斷發展的數據科學生態。
第三,如果想提高學生的實戰能力,將教學和數據競賽結合起來肯定會事半功,作為數據人才轉型的練兵場,數據競賽的熱度已經越來越高,數據競賽中不僅有來自真實場景的課題和數據集,還等鍛煉選手的組隊協作,參加數據競賽對于學生的技能運用能力有很大提升。
最后,新型教學工具還具備公開分享和評論功能,讓學生能夠在公開的場合進行分析交流,例如和鯨社區這樣的數據科學社區,在社區中學習更容易找到興趣點,與學習伙伴一起,融入進不斷發展的數據科學生態,在課內外都可以進行學習交流,這是封閉的傳統教學工具無法做到的。
據悉,清華大學在開設數據科學輔修專業的時候便采用了和鯨科技研發的一款云原生教學工具,名稱叫K-Lab,不僅支持教學需求,學生還能在K-Lab連接的開放數據社區上參與數據競賽和企業項目,很好地提升了教學質量。
雖然數據科學新型教學工具應用起來有一定門檻,類似傳統教學工具的托拉拽簡易操作也相應減少,但數據科學是一門極其特殊的新興學科,從數據范式到知識范式轉變的過程,要有合適的的教學工具作為依托,才能走的更遠。