? 近年來,圍繞 AI 技術的國際競爭正愈演愈烈。為了搶占先機,設立 AI 專業成了各大高校順應科技發展趨勢的重大舉措。為幫助高校推進 AI 技術領域的人才培養、研究開發和成果轉化,才云科技打造定制化 HPC 集群平臺管理系統,支持國家科技建設。
某高校是由上海市人民政府和中國科學院共同舉辦的一所“小規模、高水平、國際化的研究型、創新型”大學。它借鑒了世界一流理工科大學的發展經驗,從理工科入手培養各科專業人才,推進研究成果在各行業落地。
作為人工智能高校聯盟的倡導者之一,為更好地進行 AI 學科建設,進一步鞏固學校在計算機視覺、自然語言處理、深度學習、圖形學等領域的優勢,該高校聯手才云科技,為高性能計算(HPC)集群打造了一套平臺管理系統,為提升集群計算效率、提高資源利用率、降低成本提供了極大支持。
AI 學科建設需從 HPC 起步
高校 HPC 集群是一種為學校密集型科研任務提供高性能計算支持的計算硬件,通常計算速度要達到每秒萬億次級。作為科學研究不可或缺的計算工具,它在研究領域有著廣泛的應用和巨大的影響力,也是衡量一所學??蒲袑嵙Φ闹匾笜酥?。
自建校以來,該高校依托高性能 HPC 集群,已在物理、化學、生命科學等領域實現巨大科研進展。而隨著 AI 研究的逐步展開,考慮到 AI 研究離不開龐大的數據、精確的數據標記和數十倍于一般科研項目的計算量,學校對用 HPC 集群支撐深度學習任務,促進 AI 與 HPC 的融合提出了更高的要求。
同時,為了承擔更多國家級、地級科研課題,加快進行學科建設和人才培養,一些可預見的長期問題,如計算資源部署、使用現狀與日益增長的科研任務需求之間的矛盾也亟需得到重視:
物理資源管理零散。該高校在浦東浦西建有兩個數據中心,各數據中心內的機器配置不一,共有 8 個集群、124 臺服務器、近 300 塊 GPU、大量 CPU 及內存資源。雖然規模龐大,但這些資源缺乏有效的統一管理工具,存在計算資源過于分散、缺乏高效統籌機制的問題;
資源申請不規范。為滿足各學科科研需求,學校一般都有針對 HPC 集群使用的完善申請、使用手冊。但該高校的資源申請流程仍過于繁瑣,缺乏自動化的資源申請、分配工具。當申請人提交申請后,計算資源需要依靠人工手動分配,無法實現即租即用,整個過程耗時耗力;
資源利用率低。該高校的服務器資源只能以整機的方式分配給各教研室,例如一臺服務器有 6 塊 GPU,當某個 AI 任務只需使用 5 塊 GPU 時,申請人會被分到一整臺服務器,如此分配方式往往導致資源使用不飽和,造成浪費;
資源回收困難。任務結束后,由于需要人工手動清理機器遺留數據,該高校的 HPC 集群也存在資源回收不及時、機器時常處于閑置狀態的問題。
才云:構建 HPC 集群平臺管理系統
針對該高校 HPC 集群的使用現狀,才云科技基于自研智能容器云平臺 Caicloud Compass 和人工智能云平臺 Caicloud Clever,打造了一套定制化的 HPC 集群平臺管理系統。
新系統實現了計算資源的池化管理和機器資源的邏輯化分配,并依靠對底層高性能計算資源的科學管理,大幅提升了深度學習項目的分布式訓練能力。
助力學科建設,創建深度學習平臺方案
為了讓高校 HPC 更好地承擔 AI 科研項目,才云科技在 HPC 集群平臺管理系統中集成了深度學習平臺方案,能為高校數據管理、模型構建、模型上線提供一站式便捷服務。
具備深度學習全流程工程化管理能力。HPC 集群平臺管理系統集數據導入、數據處理、模型開發、模型訓練、服務上線、模型管理等功能于一體,可有效支持語義分析、仿真模擬、圖形渲染等深度學習科研項目,幫助高校簡化項目流程、加速項目開展進度。
集成 infinib網絡。infinib網絡是用于 HPC 的計算機網絡通信標準,具有極高吞吐量和極低延遲的特點,既可用作服務器與存儲系統之間的直接或交換互連,也可用于存儲系統之間的互連??紤]到深度學習對計算速度的苛刻要求,HPC 集群平臺管理系統集成 infinib網絡,為 AI 項目運算速度提供保障。
集成并行存儲系統。在 HPC 中,傳統 NFS 存儲在集群不斷增加時易出現存儲瓶頸,而才云科技集成的并行存儲則可以把后端的多套存儲陣列統一成一個大的存儲,不僅保證了可靠性,讀寫性能和帶寬也更出色,幫助高校顯著提高運算效率。
構建資源池,統一管理物理資源
為了破解該高校物理資源分散兩地的難題,才云科技的 HPC 集群平臺管理系統將兩個中心的 124 臺服務器資源統一納管至系統環境內,實現了計算資源的平臺級統籌管理。
系統可以依據主機生命周期、狀態、性能對計算資源做細粒度劃分,提供 CPU、GPU、內存、網絡負載、任務運行數量等指標的可視化監控及靈活高效的服務器上下線功能,幫助高校大幅提升資源利用率,確保所有資源的安全可用。
細化申請流程,自動回收資源
才云科技的 HPC 集群平臺管理系統具備用戶權限管理體系,實現了資源按系統管理員、教研室管理員、學生(教師)三級用戶劃分。
全量集群資源由系統管理員統一管理,各教研室管理員先向系統管理員申請教研室所需資源,再按需分配給學生、教師。任務結束后,系統管理員只需在 HPC 資源管理可視化界面調低額度或關閉教研室賬號,即可完成資源回收,資源申請回收效率大幅提升。
提供自動化運維能力,提高資源利用率
為了提升 HPC 集群管理的自動化水平,才云科技 HPC 集群平臺管理系統提供應用、AI 模型任務開發運維過程中的一些常見管理能力,如用戶環境隔離管理、任務生命周期管理、容器生命周期管理、代碼開發管理、存儲管理、鏡像管理、監控管理、日志管理、配置管理等,大大減輕工作人員的工作負擔。
展望未來
自上線后,才云科技的 HPC 集群平臺管理系統為該高校降低人力成本、減少浪費、提高 HPC 集群資源利用率提供著巨大支持。在該系統的助力下,該高校的 AI 科研成果也在國際上高光頻現,推動上海成為全國的 AI 科研高地。
更可喜的是,和才云科技的合作還讓該高??吹搅死米越ㄔ崎_拓教育行業公有云的前景。為了更好地發揮數據中心的價值,該高??蓪⑹罴倨陂g閑置的計算資源以公有云的形式對外提供 ,打造人工智能云,幫助更多高校和企業加速 AI 研發和成果落地。
根據國務院 2017 年發布的人工智能發展規劃,到 2020 年,中國人工智能總體技術和應用與世界先進水平同步,人工智能核心產業規模超過 1500 億元,帶動相關產業規模超過 1 萬億元。在當前這個實現 AI 加速發展的絕佳時刻,才云科技希望能幫助更多高校抓住機遇,艱苦奮斗,只爭朝夕,助力中國 AI 贏在起跑線。