在內蒙古自治區成立70周年,內蒙古大學成立60周年之際,內蒙古大學計算機學院蒙古文信息處理重點實驗室成功研發了新型蒙古文印刷體識別(OCR)系統(奧云蒙古文OCR系統)為自治區和學校獻禮。該系統以大數據、國際上最先進的深度學習技術和云服務為設計框架,是國內首個支持多種蒙古文字體、且識別正確率和整體功能達到實用水平的系統。
該系統目前支持蒙古文白體、黑體、標題體、新聞體和哈旺體出版的圖書、報紙、網絡圖像和PDF文件的識別。系統識別正確率高,并對每個識別單詞提供多個擴展候選,用戶可以方便快捷的進行二次加工。除支持在線識別,系統還提供批量上傳、離線識別、高級編輯等功能,識別結果可導出為雙層蒙古文PDF書籍、文本文件和word文件。奧云蒙古文OCR系統對外服務網址為http://ocr.mglip.com。該系統提供了云服務接口,開發者可利用該接口將蒙古文印刷體識別嵌入到其它應用系統。該系統的應用可以加快各領域蒙古文文檔的數字化速度,提高蒙古文文檔的利用水平,對蒙古文信息化具有重要推動作用,必將促進少數民族科技教育文化事業的發展。
系統界面
識別結果自動關聯和候選項智能推薦界面
參與該系統研發師生主要有:飛龍副教授、魏宏喜副教授、高光來教授,蘇向東博士,張暉(博士生,導師為高光來教授),路敏(博士生,導師為高光來教授)、王洪彬(碩士生,導師為候宏旭教授)等。
蒙古文印刷體識別系統軟件著作權