在機器翻譯領域深耕了近十年的網易有道,再次給人們帶來了驚喜。
近日,網易有道在GMIC(全球移動互聯網大會)未來創新峰會上公布:由網易公司自主研發的神經網絡翻譯( Neural Machine Translation,以下簡稱NMT)技術正式上線。作為受到丁磊親自“過問”、網易最重要技術創新之一,此次在有道上線的NMT技術,由網易有道與網易杭州研究院歷時兩年合力研發,將服務于有道詞典、有道翻譯官、有道翻譯網頁版、有道e讀等產品;這不但意味著借力于NMT技術,有道產品在語言翻譯質量方面將有巨大的提升——超過7億用戶將享受到NMT帶來的高效與便利,更意味著低調務實的網易,早已在人工智能的領域未雨綢繆,并早于業界實現人工智能技術在更廣泛網民中的深度使用。
人工智能改變翻譯讓翻譯更“聰明”
深度學習是推動當前人工智能熱潮最關鍵的技術,它首先在圖像、音頻等感知領域獲得了巨大成功,目前在語言方面的應用也獲得了長足的進展。
而神經網絡翻譯就是深度學習在機器翻譯領域的具體應用。
作為目前機器翻譯領域最前沿的技術,神經網絡翻譯采用獨到的神經網絡結構,能夠對翻譯的全過程整體建模;與統計翻譯模型(SMT)相比,神經網絡翻譯模型更像一個有機體。
NMT對整個句子進行編碼,能夠更充分地利用上下文信息,判定多義詞的詞義,生成更高質量的譯文。最直觀的一點就是,NMT譯文的句子結構完整,語序更接近人類語言使用習慣,翻譯結果更加通順;而SMT則像由多個組件構成的機器,每個組件完成各自的目標,但“拼接”出來的翻譯結果,常常差強人意。
NMT翻譯原理
如果從具體的例子來看,此次在有道上線的NMT的翻譯結果更準確,斷句和語法比起傳統機器翻譯(SMT)有了直觀可感知的提升,更接近人們心中“會說話”的人工智能。
NMT與SMT 英譯中結果對比
據悉,與傳統的基于短語的統計翻譯模型相比,此次在有道上線的NMT翻譯質量的提升是SMT過去十年累計提升的總和。
新聞和口語翻譯出色 BLEU值超同行
從翻譯界通用的BLEU值評價指標來看,此次在有道上線的NMT在新聞文章、英語學習及口語等場景下的英文翻譯,做得比同類國際產品更加出色。而丁磊也曾在內部表示,新聞和口語是中國人接觸英語最常見的兩個領域,應在這兩方面加大研究。
事實上,詞典本就是有道的傳統優勢,其詞條數據龐大、解釋準確,已經成為國內用戶學習英語的首選。憑借這一優勢,再加上有針對性的優化,此次在有道上線的NMT對英語學習場景下的翻譯結果更加精準。這類翻譯需求的特點是,原文規整、語法及句式較為規范,因此用戶對其準確性要求更高。在該類數據上的盲測結果顯示,此次在有道上線的NMT,其英譯中和中譯英的BLEU值均領先同行7個多百分點。
英譯中對比
新聞文章翻譯是另外一個常見的需求,它的特點是,長句較多、句子結構復雜且有大量人名地名。在這類數據上,此次在有道上線的NMT同樣表現不俗,英譯中BLEU值超同行6個百分點,而中譯英也超其8個百分點。
中譯英對比
集網易公司之力攻堅技術難題
此次在有道上線的NMT,其翻譯質量的大幅提升,源于有道及網易杭州研究院的強大技術支持。
作為國內最早開發統計機器翻譯(SMT)的公司,網易早在兩年前也開始涉足神經網絡翻譯領域的探索,并為此投入了巨大的研發力量。
網易有道首席科學家段亦濤表示,“有道在用戶翻譯場景上近十年的積累,使得我們擁有豐富的數據資源,同時我們攻克了數據處理、領域適配等技術難題,并開發出一些我們特有的技術,比如領域適配技術,使我們的模型能夠自動適應不同的場景,目前已經在新聞、學習、口語和一些科技領域等場景下做到了最優。”
網易杭州研究院感知與智能中心總經理李曉燕則表示,“此次在有道中上線NMT 技術,可以說是機器翻譯領域的標桿,作為擁有十余年技術沉淀的互聯網實力研發團隊,杭研院從深度學習理論出發,解決了大規??蚣?、模型優化等技術難題,高效完成了翻譯場景對接和NMT技術應用工程化。”
機器翻譯的未來讓語言不再是障礙
此次在有道上線的NMT把人工智能接入機器翻譯,并結合自身優勢以及對技術的優化從而大幅提升翻譯質量,對有道乃至整個翻譯行業來說,都是一次重要突破。
過去由于技術的限制,機器翻譯僅能翻譯一些簡單詞組,對復雜內容翻譯效果并不佳。而神經網絡翻譯技術的發展,給翻譯質量帶來了極大提升,高質量的機器翻譯將更廣泛更便捷地被人們使用,那么語言對于人類來說,還將是一個障礙么?
段亦濤坦言,神經網絡翻譯在全球范圍內都屬于前沿技術,雖然業內已有一定成果,但可挖掘的空間還很大。目前我們的技術突破,的確讓業內感到振奮,但機器翻譯作為人工智能領域的核心難題之一,未來還有很多的努力要做。
李曉燕也談到,今天我們在有道產品中上線的NMT,只是人工智能在機器翻譯領域探索的起點。得益于有道在翻譯數據的強大積累,我們的NMT技術將快速迭代更新,未來將不斷帶來更優質的翻譯體驗。
據悉,此次推出的NMT技術未來兩周將陸續在有道詞典、有道翻譯官、有道翻譯網頁版、有道e讀等產品中正式應用。
有道翻譯官拍照翻譯中應用