人工智能在國際象棋、圍棋等項目上戰勝人類頂尖高手之后,艾倫·馬斯克旗下的OpenAI 人工智能又在全球當紅的網游“Dota2”中擊敗了頂級高手Dendi。 8月12日,艾倫·馬斯克在其twitter賬號上發文,稱贊此次OpenAI獲得的勝利,并表示這是人工智能首次在對抗型電子競技中戰勝世界一流玩家。OpenAI 是一家非盈利AI 研究公司,由特斯拉CEO艾倫·馬斯克建立,該公司主要進行安全人工智能的研究。此前,馬斯克的公司已經成功訓練AI,在VR設備上觀看后,立即執行任務,并且發展機器人創立自己的語言系統。
OpenAI在其博客中這樣解釋到:“這次Dota2的比賽結果顯露出 (self-play)自我學習,能夠使人工智能從低于人類程度的學習系統中捕獲操作表現,進而一躍提高到擁有充分運算能力的超人。”相比之下,(Deep-learning)深度學習系統只能達到與它們的訓練數據庫同等的智能高度,可是在自我學習系統中,當數據升級,現有數據將隨之自動提高。
OpenAI比賽過程
Dota2 的比賽開始于今年3月,最初的AI機器人只進行了一些簡單的比賽。由于是一款免費多玩家電競游戲,Dota2最引以為傲的一點是不強制玩家的極限范圍。而在8月7日,機器人取得了驕人連勝戰績,第一場擊敗了名為Blitz的Dota2 玩家。同一天,機器人又打敗了另外兩名高段位的玩家。接下來一天,它又戰勝了另一位德高望重的玩家Arteezy。而所有被機器人打敗的四位玩家一致認為,玩家Sumail 能夠打敗它。然而,Sumail并沒有如他的戰友們所愿,依然惜敗。最終,機器人挑戰了Dota2的前世界冠軍Dendi,并以2比0完勝Dendi。“請放過我吧!”賽間Dendi對機器人對手這樣說道。
Self-play 自我學習過程
OpenAI的研究人員表示,此次比賽中機器人運用自我學習從零開始,不是模仿學習或是樹狀搜索,在包含人類的混亂復雜的環境中建立明確的目標,AI系統建設跨出了歷史性的一步。競賽中,機器人預測出即將移動的玩家,并在新環境下做出臨場反應,并影響其他玩家。兩場比賽之間,OpenAI的工作人員將一些“訓練”與自我學習相結合,幫助機器人不斷提高戰斗力。
OpenAI的目標是建設安全的通用人工智能。對于AI來說,Dota是一個非常理想的試驗場,競爭激烈,游戲復雜。如果想在這門游戲中獲得成就,就必須推進現有技術,實現技術突破。我們現在開發了一個AI,能夠在Dota的1v1比賽中擊敗頂尖職業選手。
Dota的規則非常復雜,如果是用規則方法,那么構建出的AI一定是個低能的玩家。所以,OpenAI完全采用的是自我游戲(self-play)的訓練方法。剛開始訓練時,AI對于自己所處的世界全無認識,而只是和自己的復制品比賽,這也就意味著它和它的對手永遠是旗鼓相當,在這個過程中自我能力不斷提升,直到達到世界頂尖選手的水平。
自我學習的發展
“自我對決”的理念是OpenAI研發的關鍵。這是一種AI系統學習解決極其復雜任務的有效方法:與太弱或太強的對手對戰,它都無法從中學到東西,但自身反倒是有價值的對手。OpenAI的研究人員解釋到:“你可以看到AI從完全的隨機狀態一步步發展到如今的頂級水平。”
除了OpenAI,其他人工智能研究人員已經在尋找方法來教導機器人做各種事情: 比如從閱讀到做夢。他們創建了可以自己學習的AI系統,甚至可以互相教授的AI系統。教育正在從根本上被顛覆,以滿足這項新技術的需求,隨著機器人的智慧化,我們的生活將變得更加輕松,更安全,而且更有趣。
另外,Google旗下Deepmind團隊最近在進行研究,讓 AI 在復雜環境里“運動”。研究人員設計了類似火柴人的模型,在不給它們任何編程的情況下,要求其越過障礙物到達終點,所以這些火柴人基本上一直在試錯。試驗中AI會逐漸調整自己的關節,用更好的方式來完成目標。體育精神爆表的火柴人,擁有27個自由關節和21塊驅動器。而且為了指導這只AI,Deepmind設計了一套虛擬傳感器,教其如何在不熟悉的復雜環境下通過障礙,而火柴人在一次次跌倒之后的成功跑酷,展現了AI強大的自主學習能力,實現了機器學習和系統神經的結合,這是火柴人的一小步,卻是AI在研究人體機能領域的一大步。