最近,一場機器閱讀理解考試的最新成績新鮮出爐——由斯坦福大學發起的SQuAD(Stanford Question Answering Dataset)挑戰賽榜單更新成績,科大訊飛與哈工大聯合實驗室(HFL)提交的系統模型奪得第一名,這也是中國本土研究機構首次取得該賽事的榜首。
SQuAD挑戰賽最新成績榜單
SQuAD挑戰賽是行業內公認的機器閱讀理解標準水平測試,也是該領域的頂級賽事,被譽為機器閱讀理解界的ImageNet(圖像識別領域的頂級賽事)。參賽者來自全球學術界和產業界的研究團隊,包括微軟亞洲研究院、艾倫研究院、IBM、Salesforce、Facebook、谷歌以及卡內基·梅隆大學、斯坦福大學等知名企業研究機構和高校,賽事對自然語言理解的進步有重要的推動作用。
閱讀理解題,機器怎么考?
閱讀理解是人類考試中必不可少的項目之一,對于機器,又該怎樣去作答和評判呢?
SQuAD挑戰賽通過眾包的方式構建了一個大規模的機器閱讀理解數據集(包含10萬個問題),就是將一篇幾百詞左右的短文給人工標注者閱讀,讓標注人員提出最多5個基于文章內容的問題并提供正確答案;短文原文則來源于500多篇維基百科文章。參賽者提交的系統模型在閱讀完數據集中的一篇短文之后,回答若干個基于文章內容的問題,然后與人工標注的答案進行比對,得出精確匹配(Exact Match)和模糊匹配(F1-score)的結果。
SQuAD挑戰賽主頁
SQuAD向參賽者提供訓練集用于模型訓練,以及一個規模較小的數據集作為開發集,用于模型的調優和選型。與此同時,SQuAD還提供了一個開放平臺供參賽者提交自己的算法,由SQuAD官方利用隱藏的測試集對參賽系統進行評分,并在SQuAD官方確認后將相關結果更新到官網上。得益于SQuAD提供的大規模高質量的訓練數據以及層出不窮的模型,該挑戰賽的榜單一次又一次的刷新。目前,科大訊飛與哈工大聯合實驗室提交的系統模型取得了精確匹配77.845%和模糊匹配85.297%的成績,位列世界第一。
科大訊飛是怎么考到全球第一的?
在SQuAD官網的成績榜單上,可以看到科大訊飛與哈工大聯合實驗室提交的模型名為“Interactive AoA Reader”,這是訊飛經過不斷摸索之后提出的“基于交互式層疊注意力模型”(Interactive Attention-over-Attention Model)。正是這個與眾不同的模型,讓科大訊飛在全球自然語言理解研究領域脫穎而出躍居頭名。
2016年,哈工大訊飛聯合實驗室發表了本次參賽模型的早期版本
機器閱讀理解問題的解決,傳統的自然語言處理(NLP)方式是采用分拆任務的方法將其分成問題分析、篇章分析、關鍵句抽取等一些步驟,但這種方法容易造成級聯誤差的積累,很難得到很好的效果。
目前在機器閱讀理解領域中,則多采用完全端到端的神經網絡建模,消除了分步驟產生的級聯誤差。除此之外,采用神經網絡的方法能夠通過大量的訓練數據學習到泛化的知識表示,對篇章和問題從語義層面上高度抽象化。
訊飛同樣也采用了端到端的神經網絡模型,但把精力更多放在如何能夠模擬人類在做閱讀理解問題時的一些方法。訊飛提出的基于交互式層疊注意力模型,主要思想是根據給定的問題對篇章進行多次的過濾,同時根據已經被過濾的文章進一步篩選出問題中的關鍵提問點。這樣“交互式”地逐步精確答案的范圍,與其他參賽者的做法不太相同,最終收獲了令人矚目的成績。
讓機器考閱讀理解,究竟有什么意義?
科大訊飛認為,人工智能的發展主要分為運算智能、感知智能和認知智能。機器在運算智能上有極大的優勢,在感知智能上也已經取得了很大的進展,例如語音識別、語音合成、圖像識別、機器翻譯等。而在認知智能方面,自然語言處理一直是實現人機交互、人工智能的重要技術基石,機器閱讀理解正是這一領域的一個研究焦點。同樣,讓機器實現“能聽會說”到“能理解會思考”,也一直是科大訊飛所肩負的使命和方向。
早在2014年,科大訊飛與哈爾濱工業大學就聯合成立了聯合實驗室,作為“訊飛超腦”計劃的核心研發團隊之一,聯合實驗室致力于在語言認知計算領域進行長期、深入的技術創新,重點突破深層語義理解、邏輯推理決策、自主學習進化等認知智能關鍵技術,并圍繞教育學習、人機語音交互、信息安全等領域實現科研成果的規?;瘧?。
聯合實驗室不僅能讓機器在閱讀理解比賽中“考出高分”,還能讓機器給考卷的主觀題評分。以語文考試的作文為例,在閱卷之前老師們先置一套通用的打分標準,包括字跡工整度、詞匯豐富性、句子通順度、文采、篇章結構、立意等多個層次,研究人員讓機器來學習這套方案后進行閱卷。這每一項標準背后都需要精密復雜的技術支持,比如手寫識別、主題模型、人工神經網絡等。
目前,科大訊飛的全學科閱卷技術在四六級、部分省份的高考、中考等大規??荚囍羞M行了試點驗證,驗證結果表明計算機評分結果已經達到了現場閱卷老師的水平,完全滿足大規??荚嚨男枰?。這項技術應用到正式考試中,就可以輔助人工閱卷,減少人員投入,降低人工閱卷中疲勞、情緒等因素的影響,進一步提升閱卷效率和準確性。
此前,哈工大訊飛聯合實驗室曾先后在Google DeepMind閱讀理解公開數據測試集、Facebook閱讀理解公開數據測試集取得世界最好成績,本次在SQuAD測試集再獲全球最佳,包攬了機器閱讀理解權威測試集的“大滿貫”。機器閱讀理解技術擁有廣闊的應用場景,例如在產品的精準問答、開放域的問答上都會起到有力的支撐作用,訊飛也在不斷探索機器閱讀理解技術的應用落地。但對于機器閱讀理解的“能理解會思考”的終極目標來說,現在還只是萬里長征的開始,對自然語言的更深層次的歸納、總結、推理,一定是未來機器閱讀理解不可缺少的部分。