最近浙江電視臺民生新聞節目《1818黃金眼》在微博上火了,3分多鐘的新聞視頻獲得了近兩萬次轉發,有網友大呼:“《1818黃金眼》真是我的快樂之源!”這新聞說的是宋師傅給孫子買了一臺叫“好帥二蛋”的智能機器人給孫子做課業輔導,問英語問故事都對答如流,沒想到一問應用題二蛋就開始賣萌:“不想回答的問題不回答,我是隱形人,聽不見聽不見~”
網友爆笑之余驚呼:這究竟是人工智能還是人工智障!
應試AI成研究熱點
其實新聞里這種課業輔導機器人并不具備真正的人工智能,它只能在聯網環境下通過網絡搜索獲得客觀題的問題答案,一旦涉及主觀題,就兩眼一瞪只能耍賴了。
真正用于做題的人工智能其實也在如火如荼的發展中。每年高考前后,都會有很多人工智能應試的新聞出現,AI解題也是人工智能的研究熱點之一:讓人工智能系統解決某一類問題,從而衡量智能化水平。
以2018年北京高考作文為例,高考機器人“Champion”與著名青年作家張一一以此為題進行了一場比試,曾參加過高考作文閱卷的專家給Champion的作文打了100分的滿分,而作家張一一的高考作文僅獲85分。
另一個例子是準星數學高考機器人“AI-MATHS”,它在公證機構和媒體的見證下,與940萬考生共同參加了2017年高考數學的測試,它分別花了22分鐘和10分鐘做完了北京文科數學全和文科全國數學卷,拿到了105份和100分的高分。
類似的研究在全球范圍內也很盛行。日本國立情報學研究所開發了一個Todai Robot,他們讓機器人挑戰大學試題,目標是2021能夠考上東京大學。艾倫人工智能研究所(Allen Institute for Artificial Intelligence) 也舉辦了一項比賽,來自全世界的幾千個團隊紛紛提交了自己的AI程序來挑戰8年級的科學題目。
對人工智能來說
應試做題并不容易
阿爾法狗都戰勝了世界圍棋第一人柯潔,把圍棋這種復雜游戲玩弄于掌心,難道解答幾道應試題還會有難度嗎?
真的有難度。
盡管機器的計算力和數據處理能力都遠超人類,輸入數據后也不會遺忘,如果我們把需要解決的問題通過邏輯推理,抽象成純粹的數學模型并輸入后,那么不管多復雜的問題,人工智能算法都能夠完美的解決。
但是,讀題對AI來說是很困難的事情。答題之前,AI需要正確理解題目的文字描述以獲得精準的數學表達。人類的語言千變萬化,而且還在不斷創新。學生在學習的過程中遇到沒學過的生詞,會聯系上下文去推測詞義,但這一點對于人工智能而言相當困難。此外,AI還需要具有關于現實世界的常識以約束和簡化題目文本。
這么說來,AI做理科題目一定勝過做文科題目咯?現實恰好相反。目前各個應試AI在理科解題上的表現普遍弱于文科解題。
背后的原因其實也不難理解,機器學習強調的主要是對記憶、計算等相關內容的儲存和運用,邏輯理解和推理方面的技術問題還沒有很好的解決。舉例來說,阿爾法狗憑借大量練習的記憶知道這么下棋能贏,但它不知道這么下的邏輯是什么。
數學解題,作為理科考試的一部分,十分考驗計算機的理解能力和推理能力,針對數學解題的研究成果非常有可能定義計算機智能的新層次。
舉個簡單的例子,“做一種零件,8人0.5小時完成64個,照這樣計算,3小時要完成144個零件,需要多少個工人?”如果我們通過邏輯將其轉化為純數學問題,即第一步算出每人每小時的生產量,然后在算出第二步需要多少個工人,就可以算出最后的答案。
從計算難度來說,大學數學和小學數學對人工智能來說沒什么差別。真正的難點在于,如何從這樣的一段題干中識別并理解其中包含的概念,并抽取其中概念變量的關系,這一步驟需要涉及到自然語言理解。
AI做題的應用方向
近年來有很多諸如猿題庫、作業幫這樣的習題解答軟件,該類產品普遍支持如下功能——學生將題目拍照上傳,軟件即可識別題目并給出答案和解題思路。
這類軟件的產品邏輯和文章開頭的“好帥二蛋”機器人差別不大,都是建立在平臺擁有龐大題庫的基礎上才能提供服務,本質還是檢索和匹配,無法主動對題目進行分析理解。如果答題AI能取得技術突破,對此類軟件會有巨大提升。
除了答題,這類AI還能判卷。ETS此前曾實驗利用AI技術取代判卷官,成功批閱了GRE和SAT寫作答題,證明AI可以通過“訓練”,精準分析和評判學生的答題。AI技術在這一方向的發展能夠有效提升判卷效率,減少閱卷成本,并顯著提升判卷公平性。
目前自然語言處理研究,逐漸從詞匯成分的語義轉移,發展到對敘事的理解。事實上,人類水平的自然語言處理,是一個非常艱深的技術難題,它相當于使AI完完全全像人類一樣聰明,有一點通過圖靈測試的意思。因此,自然語言處理技術與人工智能的未來緊密結合,對這一領域的研究可以從本質上提高人工智能的智能程度,AI做題正是非常合適的測試和應用場景。