摘要:日前,天津大學軟件學院多智能體與深度強化學習研究團隊在與東京大學、日本 AIST 研究所合作研究基礎上,首次利用深度強化學習方法來檢測信息物理系統模型中的缺陷……
隨著第一個戰勝圍棋世界冠軍的人工智能程序——阿爾法狗的出現,深度強化學習的浪潮在世界范圍內掀起,國內外眾多科研機構和高??蒲袌F隊紛紛投入其中。深度強化學習方法在游戲、智能機器人控制等領域取得了不錯的成效,如星際爭霸游戲研發、機器人Atlas等。
與此同時,承載著物聯網、智能家居、機器人、智能導航等新一代智能科技的多維復雜系統——信息物理系統,也逐漸走進人們生活,應用也越來越廣泛,但系統的缺陷檢測一直存在問題。如何更高效更準確地檢測出系統缺陷,從而保障系統的穩定性和安全性成為研究人員關注的焦點。
通過數年的深入研究,天津大學的研究人員首次將深度強化學習方法應用于信息物理系統的缺陷檢測,大大提高了系統檢測的成功率,檢測效率也得到明顯提升。
傳統的缺陷檢測方法是以魯棒性(系統穩定性)為導向,采取隨機全局優化的算法,來達到最大化魯棒性的目的。傳統方法必須要將整個模擬實驗完整執行一遍后才能給出反饋,因此在缺陷檢測過程中需要大量反復的模擬運行,時間久且無法保證檢測效果。
而基于強化學習的信息物理系統模型性質的缺陷檢測方法,采用了當下國際上最先進的強化學習技術A3C和DDQN,來解決信息物理系統模型違反魯棒性性質的問題。該技術可以觀察環境反饋,進行自我優化,及時調整輸入行為,以更少次的模擬實驗找出系統缺陷。