所謂“模態”,英文是modality,用通俗的話說,就是“感官”,多模態即將多種感官融合。
目前的人機智能交互比如語言控制不如屏幕控制那么精準,很多時候會誤判指令和錯誤喚醒,比較語言充滿了不確定性;再比如,語音交互的物聯網設備還是缺乏主動服務的能力,只是換了操作方式而已,用戶體驗沒有本質提升。
假如我們把“模態”通俗地理解為感官,那么智能音箱就是只具備聽覺模態的物聯網設備,而加載AI分析能力的攝像頭可以視為視覺模態的物聯網設備。把聽覺、視覺甚至更多模態組合到一起,多模態物聯網也就誕生了。
目前的AI設備中感知模態主要包括三種。第1種是、語音交互,包括語音指令控制、語義理解、多輪對話、NLP、語音精準識別等領域;第2種叫做機器視覺,包括自然物體識別、人臉識別、肢體動作識別等;第3種則是傳感器智能,包括AI對熱量、紅外捕捉信號、空間信號的閱讀與理解。
把這三種東西融合在一起,物聯網設備就可以在單純的能聽會說之外,同時還用攝像頭觀察、用傳感器判斷。而比較前沿的多模態感知還包括機器嗅覺,機器觸覺和情緒理解等內容,但目前還沒有落地產品。
目前多模態交互的主要應用場景:
場景一:多模態AI交互技術投射在物聯網設備上,大概就是用機器視覺技術進行嘴唇識別,來分離語音交互指令。嘗試通過用機器視覺來讀取說話人的唇語和動作,來判斷每個聲音指令的來源。
場景二:多模態空調。在一些新的智能空調解決方案中,空調會在語音交互的基礎上通過機器視覺來判斷用戶的位置,提供智能送冷,并且會結合傳感器判斷屋內溫度和濕度,提供更精準的環境方案。
場景三:多模態電視。今年電視背后的AI平臺戰打得風生水起,把機器視覺技術引入電視成為了新的趨勢。通過機器視覺來讓電視觀察屋內照明情況、用戶與電視的距離,電視可以主動調節屏幕光線強度,輸出比較護眼的模式。還有的AI應用是讓電視在觀察到兒童看電視后主動開啟童鎖。
據媒體報道, 2019年年底國產芯片核心玩家炬芯科技隆重舉辦了TechLife開發者大會,以“多模態交互技術”為主題,在人工智能的大背景下探討多模態交互技術的落地和發展,同時還邀請了阿里達摩院、喜馬拉雅、玩瞳科技、CEVA 等多位技術大咖,共同探討行業前沿技術,現場人氣爆棚,可見炬芯科技對未來趨勢有著獨特的預見性,這也是多年來行業領先致勝競品的重要原因之一。
人機交互正在從鍵盤鼠標的交互轉變成語音視覺等多模態交互。交互門檻的不斷降低,給交互體驗帶來了明顯提升。
為實現更優質交互體驗,炬芯作為一家芯片設計廠商的也在持續深耕技術,希望用更優質產品給智能機器賦能。炬芯推出 ATS 3607、 ATS 3607D、 ATS 3609、 ATS 3609D 四款多模態智能交互芯片,充足的算力、超低的功耗、強大的可擴展性,將賦予機器更多的可能性。
其中,炬芯 ATS 3609D,多麥智能語音、輕智能圖像、雙模態識別手指輸入解決方案。將語音交互、機器視覺和傳感器三個模態綜合,為強人工智能下的多模態交互提供可行解決方案。
AI 多模態交互技術已經成為人工智能交互的必然趨勢,我們也期待著炬芯多模態交互芯片平臺能在更多的場景中應用開來,賦予機器更強的智能屬性,用更加像人的智能機器給大家帶來更好的服務。