自從有了計算機以來,人機交互的形態就在不斷進化。而現階段智能語音被很多人認為是下一代人機交互形態,相比于傳統的人機交互如鍵盤鼠標、觸摸等,語音交互更自然;相比于新興的手勢交互和眼球追蹤等,智能語音更符合人的交際習慣。
作為這一風潮的引領者,微軟、IBM和日本的一些技術廠商曾經壟斷了包括中文在內所有主流語言的語音合成和語音識別技術。而科大訊飛在早期通過對數字信號處理、聲學研究、實驗語音學等領域的產業整合,打破了這一技術壁壘,并在國際上牽頭制定了中文語音技術標準。在不久前互聯網女皇的報告中,智能語音被認為是下一代人機交互的新范式,語音助手將占據家居、汽車、手機的麥克風,還能智能購物。資料顯示,截至2016年7月,終端用戶數超過7億,日均語音使用次數突破20億,第三方創業伙伴超過15萬家。在這些技術開發之后,科大訊飛在某些特定領域開始謀求市場化和產業化的道路。
移動互聯網應用:主打語音輸入和語音助理
據科大訊飛工作人員在人工智能實驗室中的介紹,公司目前擁有訊飛輸入法、訊飛翻譯、靈犀語音助手,另外還有錄音寶、云電話手表、酷音鈴聲六款主要的移動應用。其中訊飛輸入法最受歡迎,其最重要的功能在于語音輸入。工作人員向網易科技介紹到,訊飛輸入法目前不僅支持19種方言的精準語音轉文字輸入,還支持中英互譯輸入,即輸入中文語音直接專為英文文字,輸入英文語音直接轉為中文文字。
還有一個比較受歡迎的應用是靈犀語音助手,它支持語音撥號、短信、提醒、翻譯、訂票等功能,類似于蘋果的Siri語音助手。據悉,目前包括聯想、金立、HTC等許多手機廠商的自帶輸入法和語音助手都是由科大訊飛定制。
第三款應用是訊飛翻譯,除了支持中英互譯自動朗讀,還支持中文-維吾爾語、中文-藏語互譯等。
教育領域:機器人閱卷背后 志在考上一本
教育方面,科大訊飛工作人員演示了利用語音識別技術在課堂上進行英文課程教學的案例。同時,考試閱卷也是科大訊飛在教育上主攻領域之一。先通過掃描機對試卷進行掃描,然后識別學生的答案,主要是在英語作文和語文作文這個題目中,每位學生的字體都不相同,但識別的準確率卻非常高。而且,訊飛的閱卷軟件會給出幾個維度的評分標準,根據評分標準作出批改評語。
據悉,科大訊飛的人工智能計劃“訊飛超腦”就是讓訊飛AI在2020年參加高考并考上一本線大學。據訊飛相關工作人員介紹,“訊飛超腦”計劃要研發基于類人神經網絡的認知引擎,賦予機器“能聽會說”到“能理解會思考”的能力。
科大訊飛能成為語音領域的BAT嗎?
技術是基礎,市場表現將直接決定公司的未來。據公開財報顯示,今年第一季度,科大訊飛營業收入為6.32億元,同比增長55.84%,歸屬于上市公司的股東的凈利潤為7066萬元,同比增長6.13%,公司預計上半年凈利潤在1.43億元至2.15億元。也就是說,在剛剛過去的第二季度,科大訊飛的凈利潤預計為7234萬元到1.44億元之間。
這一數字,不僅與巨頭相比差距很大,而且離科大訊飛的最終目標也相去甚遠。從語音技術本身來看,語音作為目前人機交互形態還有很多的問題,比如,方言口音、環境嘈雜都會影響精準度,雖然科大訊飛已經攻克了粵語、閩南語等方言識別,也利用麥克風陣列識別遠場聲源,但因為口音和環境的復雜程度,目前依然不能達到100%的識別,這在未來一段時間內將是所有語音廠商持續面臨和不斷攻克的難題。從外部來看,隨著深度學習模型的建立與開放,目前市場上的語音、語義分析應用的廠商越來越多,未來的競爭壓力也會越來越大。
目前階段,用戶尚未形成全程的語音交互習慣,語音交互目前離超越觸摸等傳統交互方式還有很長的路要走。在這種情況下,科大訊飛想要在市場上保持領先性,在加快技術研發的同時,還要快速推進在教育、車載、智能客服、智能家居、移動互聯網等領域的應用和經典案例的落地,這對科大訊飛的跨行業的整合能力,由提出了新的挑戰。