隨著CentOS停更,用戶無法獲得安全補丁和漏洞修復,導致系統安全風險大幅增加、穩定性下降。對于依賴特定軟件環境的高校及科研機構,還可能出現系統與應用軟件兼容性問題,影響科研項目進度并增加額外適配成本。
面對這一問題,廈門高校創新實驗室(簡稱實驗室)將OS遷移至龍蜥商業版服務器操作系統元腦KOS V5.8,方便用戶使用各類業務軟件,促進AI+Science科研創新進程。KOS團隊通過提供定制化鏡像,預置Lustre、Slurm等科學計算場景軟件包,快速適配支持120+科學計算應用軟件,同時研制配套集群部署腳本,實現了7天高效遷移300臺節點。
軟硬件環境復雜,操作系統遷移面臨挑戰
作為國內領先的能源材料領域“科技加速器”與“產業發動機”,實驗室面向先進材料、氫能、半導體、未來顯示技術等7大領域方向,打造支撐AIfor Science科研新范式的智算平臺。硬件方面配置了數百個異構計算節點,多個胖節點及管理節點,為大規??茖W計算、模擬仿真、數據處理和分析存儲等需求提供了有力的支撐;軟件方面,為了支撐能源、信息、制造等領域科研項目,智算平臺部署120+款多學科、跨單位交叉業務軟件,并且需要不斷進行軟件升級,以滿足日益增長的計算需求。
此前,中心全套業務系統運行在CentOS 7.5之上,隨著CentOS 7停更,導致一些業務軟件無法使用,并且系統存在安全隱患,迫切需要對原有操作系統進行遷移。面對如此龐大復雜的系統環境,操作系統遷移可謂是一項挑戰。
首先,新系統需要與原有軟硬件環境兼容適配,確保業務系統在遷移后能夠穩定運行。在實驗室中存在大量應用軟件,如有限元素法軟件abaqus、經典分子動力學模擬軟件Lammps、分子動力學模擬程序包GROMACS、DFT計算和分子動力學模擬軟件CP2K等,新操作系統要適配上述業務軟件,保障運行可靠性與穩定性。
其次,操作系統遷移要盡量減少對現有業務影響,這就意味著遷移工作必須迅速高效。實驗室服務于廈門市及福建省眾多高校、科研機構與企業的重大課題與產學研合作項目,操作系統切換需要盡可能地平滑穩定、用戶無感知,避免影響當前集群的對外服務能力。
最后,為了應對高速增長的大規??茖W計算需求,實驗室需要在操作系統切換過程中,對現有IB卡驅動、Slurm版本及關鍵部件驅動進行同步優化升級,新操作系統要能夠支持最新驅動版本。
“三步走”實現7天遷移300節點,樹立行業典范
浪潮信息為實驗室量身定制了從CentOS到KOS的遷移方案,摸排用戶環境的硬件配置、軟件環境、數據規模等,充分評估遷移可行性并識別風險,通過“三步走”穩健推進,實現操作系統平滑遷移。
從CentOS到KOS遷移方案
■ 首先,計算節點與管理節點兼容性測試。KOS團隊在計算節點集群中剝離出部分節點,驗證計算節點更換KOS后能夠正常訪問、調用存儲節點上的業務軟件;同時選取與管理節點配置一致的機器,作為新集群的管理節點,部署集群管理業務、進行兼容性測試。
■ 其次,管理節點數據遷移。KOS團隊利用剝離出來的機器搭建新集群,并將舊集群管理節點數據遷移到新集群中。此時新舊集群并存,舊集群對外提供服務,新集群進行業務測試。
■ 最后,計算節點分批升級。新集群測試完成后,KOS團隊根據當前用戶任務情況,分批次添加計算節點,直到新集群中的計算節點占到總集群的60%(剩余40%繼續在舊集群中提供服務),且用戶作業不受影響,則啟用新集群對外提供服務,同時停止舊集群。最后,剩余40%計算節點加入新集群,完成全部升級。
“三步走”替換示意圖
此次升級,不僅解決了 CentOS 停更所帶來的生態缺失、業務中斷隱患,也為用戶帶來了更佳體驗。
兼容更優:KOS高度兼容實驗室異構化硬件平臺,以及全部存儲軟件與應用軟件,確保了用戶操作習慣無縫銜接,同時針對計算節點、管理節點及業務軟件進行全面的版本優化升級,為用戶提供更加流暢、高效的科研環境。目前KOS已與1200款硬件板卡、250款服務器整機、400款數據庫及中間件實現兼容適配。
效率更高:KOS進行了定制化鏡像開發,將GPU驅動、IB卡驅動、Lustre客戶端、Slurm、OpenLDAP等核心軟件升級為最優版本并集成到鏡像中,以“開箱即用”的模式完成升級替換。
絲滑無感:遷移過程采取了“小步快跑”策略,通過細致入微的集群業務摸排評估,以及小批量節點遷移、測試、驗證,確保CentOS平滑穩定遷移至KOS,全過程風險可控,在最短的空窗期內完成新舊集群服務交割,用戶無感知持續進行科研工作。
實驗室負責人表示:“在CentOS停止維護的緊迫形勢下,KOS為我們提供了及時且高效的解決方案。KOS的穩定、可靠與高度兼容性,讓用戶可以更簡單便利地編譯和安裝大部分最新版本的計算軟件,無需再應對各種版本過低導致的兼容問題。對于有興趣追求性能或者探索新特性的用戶,也有諸如XPMEM等新功能可供使用。有了KOS的幫助,讓我們對未來的科研創新充滿信心?!?/p>