“AI Index”(AI指數)近日重磅發布,這是斯坦福大學AI百年研究(AI 100)的一個項目,旨在追蹤人工智能的活動和進展。該報告列出了2017年人工智能在計算機視覺、自然語言理解等方向上的最新進展,分學術、產業多個角度盤點人工智能進度。
如果缺乏AI技術的相關數據,我們在有關AI的討論和決策中,基本上是“盲目的”。
近日“AI Index”(AI指數)重磅發布,這是斯坦福大學AI百年研究(AI 100)的一個項目,旨在追蹤人工智能的活動和進展。該報告列出了2017年人工智能在計算機視覺、自然語言理解等方向上的最新進展,分學術、產業多個角度盤點人工智能進度。
報告還綜合學術論文數量、招生數量和VC投資數量,得出AI發展活力指數,數據顯示,最新一波AI浪潮在2015年活力最高,自那以后其實活力開始有小幅減弱。
報告總覽
報告的前半部分展示了AI Index團隊收集的數據。后半部分,我們討論了報告中沒有提到的一些關鍵領域、專家對報告中顯示的趨勢的評論,最后呼吁采取行動支持我們的數據收集工作,并加入關于AI技術的度量和交流進展的討論。
數據部分
本報告中的數據包括4個主要部分:
活動量
技術表現
衍生測量
人類水平表現?
活動量(Volume of Activity)部分有關這個領域的“多少”(how much)的方面,例如參加AI會議的人數、VC對開發AI系統的初創公司的投資等。技術表現的部分有關“how good”,例如計算機在理解圖像和證明數學定理方面已經做到什么程度。在報告附錄中詳細描述了每個數據集的收集方法。
這兩組數據證實了實際上是公認的一個事實,即:所有的圖表都是“向上和向右的”,反映了AI的活動是不斷增加,AI技術是不斷進步的趨勢。在衍生測量(Derivative Measures)部分,我們調查了趨勢之間的關系。我們還引入了一個探索性的測量方法——AI活力指數(AI Vibrancy Index),結合了學術界和工業界的趨勢,量化了AI作為一個領域的活力。
在衡量AI系統的表現時,很自然地會將其與人類的表現進行比較。在“人類水平表現”面這一節中,我們列出了一些值得注意的領域,其中AI系統在達到甚至超越人類水平方面取得了重大進展。我們還討論了進行這種比較時存在的困難,并提出了適當的警告。
討論部分
在報告了團隊收集的數據之后,我們將對報告中所強調的趨勢進行一些討論,并對該報告的重要領域進行全面的討論。
部分討論集中在報告的局限性上。這份報告的數據源傾向于以美國為中心,并且可能只通過跟蹤了定義良好的基準,因此可能高估了技術領域的進展。它還缺乏數據的人口統計數據,也不包含政府和企業對AI研發投資的信息。這些領域是非常重要的,我們打算在未來的報告中解決這些問題。
我們將進一步討論這些局限,以及其他一些在報告中缺失的部分。正如該報告的局限性所顯示的, AI Index 只是描繪了局部圖景。出于這個原因,這份報告也加入了各個領域的AI專家的主觀評論。專家評論部分補充了對數據背后的故事的生動解釋。
最后,我們將需要更多來自社區的反饋和參與來解決報告中顯示的局限,揭示我們遺漏的問題,并建立一個追蹤AI活動和進展的有效程序。
人工智能和機器學習全景式概覽
這份報告做了大量調查和統計,從學術(論文發表、會議參加、學生課程選修)、產業(創業、投資)、人才(招聘、職位空缺)、開源生態(Github AI和ML軟件包)、媒體報道等方面,比較全面地展現了AI和ML的圖景。
1、學術
首先,論文發表數量激增:自從1996年以來,每年發表的AI論文數量增加了9倍以上。
再看不同類別的學術論文的年度發表率與1996年的發表率相比較。下圖顯示了所有領域的論文、計算機科學領域的論文和計算機科學領域的AI論文的增長。數據表明,人工智能發表論文數量增多,不僅受計算機科學領域升溫所致。
具體而言,自1996年以來,計算機科學一般領域的論文數量增長了6倍,同期,每年的人工智能論文數量增長了9倍以上。
斯坦福大學入學選修人工智能和機器學習入門課程的學生人數,自從1996年以來增長了11倍以上。報告指出,由于其他大學的數據掌握有限,因此突出了斯坦福的數據。
但是,有理由認為,其他大學的情況應該類似。同時,報告表示這只代表了高等教育圖景的一個具體細節,不一定代表更廣的趨勢。
會議出席情況。業內人士都知道,在計算機科學領域,各種學術會議十分重要。
這些出席人數表明,研究重點已經從符號推理轉向了機器學習和深度學習。
再來看小一些的會議的情況。盡管研究重點有所轉換,但是在小一些的研究社區,仍然在符號推理方面穩步進展。
2、產業
現在將目光轉向產業界。下圖展示了在美國,有資本支持的AI創業公司數量,從2000年以來增加了14倍:
在美國投資AI創業的基金數量也在增長,從2000年以來,每年投入AI創業的資本額增加了6倍:
根據兩個在線求職平臺Indeed和Monster的數據,人工智能相關崗位需求也在增長。下圖展示了Indeed.com平臺上,從2013年1月份起,對AI技術相關工作崗位的份額的增長。
而在美國,需要AI技術的工作崗位,在職業市場所占份額,從2013年到現在,有了4.5倍的增長。
按國家看,加拿大和英國的AI人才招聘市場規模也增長迅速。不過,Indeed.com報告指出,兩者的絕對值仍然是美國AI招聘市場的5%和27%。
Monster平臺上,按具體要求的技能細分,給定年份人工智能職位空缺的總數量:
再來看自動化應用的情況,下圖展示了北美和全球工業機器人的購買以及購買增幅。工業機器人的使用正在增加。
3、開源生態
最后看開源軟件使用和生態。下圖展示了TensorFlow和Scikit-Learn軟件包在GitHub上加星標的次數。
這張圖展示了Github上其他AI和ML軟件包的星標情況。
4、公眾認知 / 媒體報道
包含術語“人工智能”的主流媒體文章占所有報道的比例,按照正面情緒(藍線)、負面情緒(紫線)分類:
技術表現
1. 視覺
物體識別
大規模視覺識別挑戰賽(LSVRC)比賽中AI系統對物體檢測任務的性能
圖像標簽的錯誤率從2010年的28.5%下降到了2.5%。
視覺問答
人工智能系統在完成回答有關圖像的開放式問題任務上的表現。截止2017年8月,最好的AI系統準確率還不到70%,而人類水平在85%左右。
2. 自然語言理解
詞語解析
人工智能系統在確定句子句法結構上的表現。
人工智能系統在翻譯英文和德文的任務上的表現。
人工智能系統在從文檔中找到既定問題答案任務的表現,已經越來越接近人類。
語音識別
人工智能系統識別語音錄音的表現,2016已經達到人類水平。
定理證明
自動定理證明指的是一大組定理證明問題的平均易處理性。 “可追蹤性”用來測量可以解決問題中最先進的自動定理證明器的一部分。
SAT Solving
具有競爭力的SAT解決者在行業應用問題上的平均表現。
另一種衡量方法:AI活力指數
通過檢查各種趨勢之間的關系,我們可以從前面部分衡量的標準中獲得額外的洞見。下面這一部分的內容展示了AI指數所搜集到的數據如何被用于進一步分析和推動對AI發展和整個原始標準的再定義。
正如一個案例研究所展示的那樣,我們通過研究學術和產業界的趨勢,來探索他們的動能。進一步地,我們將這些標準綜合起來,形成一個AI 活力指數。
Academia-Industry Dynamics
為了探索學術和產業界AI相關活動的關系,我們首先從前面部分的內容中選擇了一些有代表性的衡量指標。值得一提的是,我們調查了AI論文的發表情況,結合斯坦福大學入門級 AI 和ML課程的報名情況、VC對AI相關初創企業的投資。這些衡量標準數據是不能直接被拿來比較的:論文發表情況、學生報名情況、投資數額。為了分析這些趨勢之間的關系,我們將歷史追溯到2000年,這能讓我們衡量標準是如何隨著時間發生變化的。
數據顯示,最初,學術活動(論文發表和招生)驅動穩步前進。 2010年前后,投資者開始注意到這一趨勢,這成為2013年投資者總體活動急劇增加的驅動因素。再后來,學術界逐漸趕上了工業的繁榮。
AI活力指數
AI活力指數(AI Vibrancy Index)匯集了對學術和產業的衡量標準(研究成果的發表、招生和VC投資)以對AI領域進行量化。為了計算AI活力指數,我們不斷地對研究成果發表數量、招生、投資的標準取平均數。
達到人類水平表現的AI
很自然地,我們會在同一個任務上將AI系統和人類的表現進行比較。顯然,在某些任務中,計算機比人類要優秀得多,例如,1970年代的小計算器就可以比人類更好地完成算術運算。
但是,AI系統在處理諸如回答問題、玩游戲和進行醫學診斷等更通用的任務時更加困難。
AI系統的任務往往是在非常窄的背景下進行的,這樣能在特定的問題或應用上取得進展。 雖然機器在特定的任務上可能表現出卓越的性能,但是如果任務稍微有所改動,系統性能可能會大大降低。
例如,一個能讀懂漢字的人能夠理解中國人的言論,了解中國文化,或者在中國餐館無障礙點餐。相比之下,這些任務中的每一項都需要不同的AI系統來完成。
盡管將人類和AI系統進行比較不是件容易的事情,但列舉那些聲稱計算機已達到或超過人類表現的那些成就很有意思。
不過,需要說明的是,這些成就沒有說明這些系統具有推廣能力。我們還注意到下面的列表包含許多游戲上的成就。游戲是一個相對簡單,可控的實驗環境,因此經常用于AI研究。
歷史進程中的里程碑
黑白棋
在20世紀80年代,李開復和Sanjoy Mahajan開發了一個人工智能系統BILL,這是一個玩“黑白棋”(Othello)游戲的貝葉斯學習系統。1989年這個系統拿了全美冠軍,并以56-8擊敗了排名最高的美國玩家Brian Rose。在1997年,一個名為Logistello的黑白棋程序以6-0占戰勝當時的冠軍棋手。
跳棋
1952年,Arthur Samuel 設計了一系列玩西洋跳棋的程序,并通過自我對弈進行改進。但是,直到1995年,才出現一個擊敗人類世界冠軍的跳棋程序Chinook。
國際象棋
上世紀50年代的一些計算機科學家預測,到1967年,計算機將擊敗人類象棋冠軍。但直到1997年,IBM的“深藍”系統才擊敗當時的國際象棋冠軍Gary Kasparov。如今,在智能手機上運行的國際象棋程序可以表現出大師級的水平。
Jeopardy!
2011年,IBM的Watson計算機系統在流行電視節目“Jeopardy!”參與挑戰,贏了前冠軍Brad Rutter和Ken Jennings。
雅達利游戲
2015年,谷歌DeepMind的一個團隊使用強化學習系統來學習如何玩49個Atari游戲。該系統在大多數游戲中都能達到人類水平的表現(例如Breakout打磚塊游戲,雖然也有些仍然無法達到人類水平(例如,蒙特祖瑪的復仇)。
ImageNet對象檢測
2016年,ImageNet自動標注任務的錯誤率從2010年的28%下降到低于3%。人類的表現大約是5%的錯誤率。
圍棋
2016年3月,谷歌DeepMind團隊開發的AlphaGo系統擊敗了圍棋冠軍李世乭。DeepMind后來發布了AlphaGo Master,在2017年3月擊敗了排名第一的柯潔。2017年10月,DeepMind發表在Nature的論文詳細介紹了AlphaGo的另一個新版本——AlphaGo Zero,它以100-0擊敗了最初的AlphaGo系統。
皮膚癌分類
在2017年的一篇Nature論文文章中,Esteva等人描述了一個AI系統,該系統在包含2032種不同疾病的129450張臨床圖像組成的數據集上訓練,研究者將AI系統的診斷結果與21位皮膚科醫生的結果進行比較,他們發現AI系統在分類皮膚癌任務上達到與人類皮膚科醫生相當的水平。
Switchboard 語音識別
在2017年,微軟和IBM都在Switchboard語音識別基準測試中實現了“人類同等水平”的語音識別詞錯率。
撲克
2017年1月,來自CMU的一個名為Libratus的AI系統在一場包含12萬局游戲的雙人無限注德州撲克比賽中擊敗了四名頂尖的人類選手。 2017年2月,來自阿爾伯塔大學的一個名為DeepStack的系統與11名專業玩家分別比賽超過3000局,勝率10/11。
吃豆人
Maluuba是微軟收購的一個深度學習團隊,他們創建了一個AI系統,該系統學會了在Atari 2600上玩吃豆人游戲打出999900的最高分。