在2017百度世界大會AI技術與平臺論壇上,百度3D視覺首席科學家楊睿剛宣布推出目前全球規模最大的“BROAD”百度AI公開數據集計劃(Baidu Research Open-Access Dataset),面向公眾開放室外場景理解、視頻精彩片段、閱讀理解在內的三項數據集。其中針對高校普及、推廣這三大數據集,是該計劃落地實施的重要一步。
共享海量優質數據 百度AI公開數據集計劃寓意深遠
近日,百度正式開始踐行這一舉措,重點面向海內外高??蒲袑W子推廣使用AI數據集。作為“BROAD”計劃的重要組成部分,AI數據集走進高校將顯著降低機器學習、深度學習的門檻,進一步吸引、挖掘高校環境中潛在的AI開發者,同時為已有的高校開發團隊提供數據助力,形成新的行業生態效應。
當云計算逐步普及減輕了計算能力的成本負擔,橫亙在科研機構和個人AI開發者面前的最大障礙,是數據數量和質量的缺失。很多高校教師表示,當前,國內特別是高校能接觸到的數據非常有限,學生獲取數據的方式主要是通過大量閱讀國外文獻,看到某篇文章引用了某個數據,再查找來源,這種方式非常單一、滯后,對于研究的前瞻性與先進性造成了很大影響。
作為全球最大的中文搜索引擎,百度在AI領域持續深耕,不僅在數據采集方面擁有得天獨厚的優勢,而且具備世界前沿的AI技術儲備。此次百度著力在高校推廣的AI數據集規模巨大、種類豐富,貼近開發場景,可為AI開發中的機器學習提供海量數據支持。
三大數據集全面開放 計劃覆蓋百所知名高校
據悉,此次百度將向高校開放室外場景理解、視頻精彩片段、閱讀理解三大數據集。室外場景理解數據集來源于百度自動駕駛事業部,其中包括世界上第一個帶像素級語義標簽的室外3D視頻。而首次亮相的百度閱讀理解數據集DuReader,則是迄今為止規模最大的中文開放領域閱讀理解數據集。對此,已經下載使用過的高校教師表示,相比于之前使用的國外高校實驗室與海外企業的數據集,百度此次發布的數據集數據量大、類型豐富,具有先進性,能夠滿足高??蒲?、教學的實際需要。
目前,百度AI數據集已吸引海內外近160所高校關注、下載使用,其中既有清華大學、北京大學、浙江大學、中國科學技術大學等國內重點院校,也包括斯坦福大學、加州大學洛杉磯分校、美麻省理工學院等海外知名學府。通過多層次、有重點的宣傳、普及活動,百度BROAD計劃將切實落地于自然語言處理、機器學習、計算機視覺等AI新興熱門學科研究,填補高??蒲协h境中開發數據來源不足的問題。
百度校企合作層次豐富 助力打造AI研發重地
如果說數據是個體機器學習時必備的原料,那么人才就是驅動AI全行業發展的助燃劑,高校則是發掘與培養未來AI人才的基地。
此次百度面向高校推廣AI數據集,正是開啟了多層次、影響深遠的校企合作。開源的數據集有效緩解了當下高校師生的數據缺失難題,師生獲取測試數據也更加方便、及時,大大加速了相關領域問題研究的探索進度與先進性;同時對高校日常教學產生深遠影響,越來越多的學生能夠在日常教學中便能獲得實打實的開發訓練、在國內外學術界及時發表新的學術研究成果。對于未來的校企合作形式,多所高校教師表示,希望百度能夠開放更多領域的AI數據集,并且開源計算接口與基于云計算平臺的虛擬設備。
本次以開源數據集為主題的校企合作,是百度拓展校企合作形式的重要一步。通過更加深層次的資源共享與合作,不僅使得高校更好地借助開放平臺完成人工智能的相關研究,推進人工智能相關學科建設,加速人工智能在高校的普及與發展,使高校成為未來人工智能的研發重地;還為人工智能行業提供了富有活力的人才儲備,加速推進我國人工智能人才向更高層次發展,以最終實現校企雙方在人工智能研發領域的歷史性新跨越。